Daily Shaarli

All links of one day in a single page.

December 10, 2023

The TinyLlama project is an open endeavor to pretrain a 1.1B Llama model on 3 trillion tokens.
thumbnail

Un LLM basé sur Llama 2 mais avec seulement 1.1 milliards de paramètres.

Tout comme les modèles Gemini Nano, une taille aussi petite permet de faire tourner le modèle sur un smartphone par exemple.

Ils estiment qu'il ne faut que 500 Mo de RAM pour faire fonctionner TinyLlama.

Les performances sur le benchmark CommonSense sont de 51 contre 63 (Llama 7B) et 71 (Llama 70B). GPT-3.5 et GPT-4 obtiennent respectivement 85 et 96.

Long context prompting for Claude 2.1

Claude 2.1 possède une fenêtre de contexte énorme de 200K tokens.

Bien sur, plus il y a de tokens et plus il est difficile pour le modèle de les prendre tous en compte.

Ici, les chercheurs d'Anthropic ont réussi à passer de 27% à 98% de succès sur des tâches de récupération d'informations passées dans les 200K tokens de contexte.

Ça se résume à une seule phrase de prompt engineering placée à la fin: Here is the most relevant sentence in the context:

(Voir aussi cet article qui évalue les performances des instructions dans un prompt en fonction de leur position)

New Github Copilot Features
thumbnail

Une vidéo qui résume les nouvelles fonctionnalités de Github Copilot.

On a notamment des Agents qu'il est capable d'invoquer pour poser des questions spécifiques. Ce sont des RAGs.

Par exemple @workspace permet de poser des questions avec les fichiers du projet pour trouver un composant en particulier.

https://code.visualstudio.com/blogs/2023/11/13/vscode-copilot-smarter

Understanding Mixture of Experts
thumbnail

Le nouvel modèle de Mistral AI est un LLM composé de 8 modèles de 7B exploitant ainsi, probablement, l'architecture Mixture of Experts: https://twitter.com/MistralAI/status/1733150512395038967
Il a été d'ailleurs été établi que GPT-4 est un modèle composé de 8 modèles de 220 milliards de paramètres avec un modèle "router" permettant de choisir entre un de ces 8 experts.

Cette vidéo est une présentation complète du concept de Mixture of Experts.

Magicoder: Source Code Is All You Need

Un LLM Open Source spécialisé dans la génération de code.

Le modèle n'a que 7 milliards de paramètres et est capable de surpasser GPT-3.5 dans certains benchmarks.

SeamlessStreaming, a realtime translation model

Le modèle SeamlessStreaming de chez Facebook est disponible en Open Source.

Il permet de faire de la traduction en temps réel d'une langue vers une autre (audio + texte).

Voir la vidéo de démo

Chainlit/chainlit: Build Python LLM apps in minutes ⚡️
thumbnail

Un framework pour construire facilement une application type chat avec des LLMs.

Pleins de fonctionnalités:

  • suivi threads
  • ajout de fichiers
  • multi-modalité (images, son)
  • frontend custom
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

Meta sort un LLM basé sur Llama 7B qui est spécialisé dans la classification d'un prompt et d'une réponse afin de détecter du contenu préjudiciable.

C'est une bonne alternative Open Source à des outils comme l'API de modération de OpenAI.

D'ailleurs les performances de Llama Guard sont globalement meilleures que celles de OpenAI

Chain of Code
thumbnail

Une technique qui améliore la résolution de problèmes avec du code.

C'est une variante de Chain of Thought pour la résolution de problèmes et c'est d'ailleurs sur ce genre de benchmark qu'ils ont évalué le modèle et non pas des benchmark de pure génération de code.

La méthode consiste à découper le problème en sous étape et ensuite soit:

  • de générer le code Python de la sous étape et d'exécuter le tout à la fin
  • d'utiliser un LLM pour pseudo exécuter le code de l'étape