Daily Shaarli
November 20, 2023
Une solution pour utiliser d'autres LLMs en conservant les mêmes API/SDK que pour OpenAI.
Mistral et Claude 2 sont disponibles simplement en changeant l'URL de OpenAI par celle du proxy.
Sous le capot ça utilise les Cloudflare Worker pour réduire la latence au maximum.
Un article qui évalue la performance des LLMs en fonction de l'endroit ou sont les informations dans le prompt.
Avec des prompts de plus en plus long, les LLMs ont tendance à "perdre" de l'information car la complexité du mécanisme d'attention est fonction du carré de la taille du prompt.
Les chercheurs ont trouvé que les informations placées au début et à la fin avaient plus de chance d'être retrouvées/utilisées.
C'est ce qui est placé au début du prompt qui a le plus d'importance pour le LLM, puis ce qui est placé à la fin et tout ce qui est au milieu