On attendait l'annonce de Meta sur la sortie de LlaMa 3 (8B et 70B) et c'est maintenant chose faite :-)
Pas trop de surprise avec un modèle aux performances similaires que tous les autres gros modèles de 4e génération comme GPT4 Turbo, Claude 3 Opus, Mistral 8x22B et Gemini 1.5.
Par contre pour l'instant la fenêtre de contexte n'est que de 8K tokens ce qui est très peu comparer à ce qu'il se fait maintenant. On peut s'attendre à une mise à jour du modèle dans les prochaines semaines pour améliorer ça.
Un autre très bon modèle open source qui aura sa carte à jouer dans les prochains mois avec l'entrainement et le fine tuning de modèles.
Sinon dans les annonces, il y aurait aussi un modèle à 400B paramètres de prévu ce qui est énorme
Mistral release leur nouveau modèle.
C'est le modèle qui présente le meilleur ratio performances / coût. Bien meilleur que le modèle Command R+ de Cohere par exemple.
Les performances sont bien en dessous de GPT 4 et Claude 3 Opus
Ça reste néanmoins le meilleur modèle Open Source et donc une très bonne base pour du fine tuning par exemple
Les paramètres "temperature" et "top_p" contrôlent les choix fait par le LLM pour choisir les tokens les plus probable lors de la génération.
Plus la température est haute, plus le LLM sera à même de choisir des tokens ayant une faible probabilité d'apparaitre.
Top_p définit le nombre de tokens considérés pour la génération, ainsi une valeur élevé permettra au LLM de choisir parmi plus de mots.
OpenAI sort sa dernière version du modèle GPT4 Turbo avec des performances sensiblement meilleures
Il faut maintenant utiliser le modèle gpt-4-turbo
pour être sur de pointer sur la dernière version en date (9 avril 2024).
Les modèles GPT 4 turbo preview ne devraient plus être utilisés.
Gemini 1.5 est disponible pour le grand publique.
Non seulement le modèle est très prometteur sur une fenêtre de tokens très entendue (jusqu'à 1 millions de tokens !) mais en plus il est moins cher que GPT4 Turbo avec 7$ vs 10$ le million de tokens en input et 21$ vs 30$ le million de tokens en output.
On retiendra bien sûr la meilleur performance à moindre coût mais on retiendra aussi l'avance de OpenAI qui a sorti GPT 4 il y a 18 mois et GPT4 Turbo il y a 6 mois.
Bref, Gemini est le meilleur modèle de 4e génération jusqu'à l'arrivée de GPT5.
Un projet qui propose une interface de recherche à la Perplexity en local et 100% gratuit en se basant sur l'API publique de ChatGPT.
En gros ça permet de répondre à vos questions en agrégeant les résultats des moteurs de recherche comme un RAG
Un article que j'ai écrit sur l'utilisation des LLMs chez Didask et plus généralement sur la manière dont on peut donner des instructions précises à des LLMs pour en faire des experts capables d'exécuter des tâches précises.
Je parle aussi de quelques unes de nos techniques de Prompt Engineering :-)
Huggingface passe son moteur d'inférence texte en Apache 2.
C'est une excellente nouvelle car c'est cette techno qui fait tourner HuggingFace.
Ça permet de servir des modèles à travers une API. C'est un Python et en Rust et de gros efforts ont été fait sur la scalabilité.
Cela permet à tout le monde de déployer un système d'inférence robuste au sein de son infrastructure.
Le coût d'entrainement des LLMs a drastiquement baissé en seulement quelques mois.
JetMoE offre des performances similaires à Llama 2 mais avec un coût d'entrainement de seulement 100 000$ vs 5 000 000$ pour Llama 2.
Une étude sur les performances des LLMs sur de longs contexte.
Même si les LLMs supportent des contextes très long maintenant, ce n'est pas un secret que plus il y a de token et moins le LLM est performant.
Dans leur benchmark, GPT4-Turbo s'en sort mieux que les autres mais ils n'ont pas testé Claude 3 ou Gemini 1.5.
Dans un autre benchmark, Gemini 1.5 arrivait à de meilleurs résultats que GPT4-Turbo avec un très long contexte
Ils ont créé un benchmark pour continuer à analyser les performances des LLMs sur de long contextes: LongICLBench
Nvidia se fait de la pub en lançant une application de RAG locale qui utilise un de ses GPU pour fonctionner.
Sous le capot c'est Llama 2 et une simple DB vectorielle (Faiss).
Bref, plus une démo marketing qu'un vrai produit :-)
A priori le modèle Gemini de Google s'en sort beaucoup mieux sur des prompts long.
Ici l'auteur pose des question avec la totalité de sa code base dans les 120K tokens du prompt
Un Agent LLM qui aide à répondre automatiquement aux questionnaires des grandes entreprises quand on leur vend des solutions SaaS par exemple
Un chatbot d'Air Canada s'est trompé en conseillant une procédure de remboursement rétro-active qui n'existait pas à un client.
Une court a jugé Air Canada responsable de ce que sont chatbot disait.
Moralité attention à ce qu'il sort des LLMs car vous pourrez être tenu responsable
Gemini 1.5 arrive avec une fenêtre de contexte jusqu'à 1 million de tokens !
Les performances restent très bonnes malgré la masse de tokens avec 99% de succès au problème de trouver une chaîne de caractère dans le prompt (Needle in a Haystack)
La latence et le prix d'un tel prompt va continuer à pousser les gens vers du RAG pour le moment mais c'est quand même une prouesse technique inimaginable il y a moins d'un an.
Des recherches sur un modèle capable de s'entrainer lui même en se fournissant du feedback à lui même.
Ça me fait penser à de l'apprentissage non-supervisé mais appliqué aux LLMs
Voyage AI propose des modèles d'embeddings plus performants que ceux de OpenAI.
Ils sont premier du leaderboard MTEB avec leur modèle voyage-lite-02-instruct (67.13 vs 64.59 pour OpenAI), un benchmark qui mesure la performance de la recherche par embeddings.
Leur nouveau modèle d'embeddings, voyage-code-2, est meilleur que les précédents mais en plus à une fenêtre de contexte de 16K token!
Ce modèle est spécialisé pour le code mais offre aussi de très bonnes performances pour le texte normal
OpenAI dévoile plusieurs nouveautés et particulièrement un nouveau modèle d'embeddings (ada2 datait de fin 2022).
Le modèle est décliné en deux versions:
- text-embedding-3-small: 1536 dimensions, 62.3 MTEB
- text-embedding-3-large: 3072 dimensions, 64.6 MTEB
Le modèle large est en 4è position du classement MTEB. (Ada2 était à 61 MTEB)
Le prix du small est 5x moins cher que Ada2 (0.00002$ 1K token) et le large est ~ le même prix (0.00013$ pour 1K token)
La fenêtre de contexte est toujours de 8196 token, ce qui est toujours peu par rapport à celle des embeddings VoyageAI (16K) ou même de GPT4
Dee recherches menées sur l'exploitation des LLMs en tant que vecteur d'attaque.
Des techniques similaire à de l'obfuscation permettent d'apprendre au modèle à cacher ses intention malicieuse.
Par exemple durant les phases de validation, le code généré sera normal puis à partir d'une certaine date le code généré sera malicieux.
Cela peut aussi être déclenché par une instruction spéciale dans le prompt
Les biais des LLMs peuvent être très marqués et avoir des conséquences en fonction de l'utilisation faite du LLM.