Daily Shaarli
November 22, 2023
Le nouveau modèle Text-to-Speech de OpenAI, Whisper Large v3, est capable de transcrire 2.5h d'audio en moins de 2 minutes
Whoa dans cet article les chercheurs ont réussi à manipuler l'interface d'Android avec un LLM.
C'est dans l'émulateur mais c'est quand même impressionnant, ils sont capable de faire des tâches assez complexes comme vider l'historique de navigation de Chrome ou faire des recherches Google
Dans cet article, les auteurs proposent une autre manière de découper une tâche en sous tâche en permettant au LLM de "créer" une sous tâche en écrivant un token spécial.
La sous tâche est ensuite executé par un LLM "enfant" puis le résultat est ré-incorporé dans la tâche principale.
L'article contient de nombreux exemples.
Mistral 7B est disponible dans les workers de Cloudflare.
C'est une bonne nouvelle car ces worker sont distribués géographiquement et donc on peut espérer une latence d'inférence optimale n'importe ou dans le monde.
Un modèle entrainé depuis LlaMa 2 qui est spécialisé dans l'utilisation d'outils, notamment d'API tierces.
C'est une alternative Open Source à OpenAI et ses assistants
Un article sur une méthode de prompt engineering pour réduire la latence d'un LLM en découpant une tâche en sous tâche puis en générant chaque partie indépendamment avant de merge le tout.
L'article est pleins d'exemples concrets en annexes
Une étude qui présente de très nombreuses méthodes toutes basées sur la chaîne de pensée, de la plus simple, aux CoT pour le raisonnement, la vérification, les extensions multimodales, les CoT pour les agents, etc.
Un article qui parle de l'entrainement des LLMs.
Les LLMs sont d'abord entrainé un contenu de "basse qualité" équivalent à ~15 millions de livre.
Ensuite ils sont fine tuné une première fois avec des prompts/réponses de qualité, par exemple pour le dialogue.
La dernière étape est le RLHF, avec des réponses notés par des utilisateurs afin d'améliorer la dernière couche du modèle.
Un article sur une méthode permettant d'améliorer la qualité des réponses dans un RAG.
Ils proposent notamment une méthode de prompting pour savoir quand il n'y a pas suffisament d'informations pour répondre:
Determine if there is Observation that SUPPORTS
or REFUTES a Claim, or if there is NOT ENOUGH
INFO.
Claim: The Gadsden flag was named by Christo-
pher Gadsden.
A: First, The Gadsden flag is named after politician
Christopher Gadsden. Second, there is no informa-
tion on who named the Gadsden flag. The answer
is NOT ENOUGH INFO.
Un article sur la méthode du Tree of Thoughts pour résoudre des problèmes complexes avec un LLM.
Cet article a le mérite d'être compréhensible et de fournir des exemples concrets