Daily Shaarli
December 6, 2023
Google sort AlphaCode2 qui se base sur son LLM Gemini.
Cette nouvelle version utilise Gemini mais c'est surtout un Agent LLM complexe avec de multiples étapes:
- génération de solutions
- évaluation des solutions
- sélection des meilleures solutions
AlphaCode2 a résolu 43% des 8000 problèmes tirés de CodeForces, ce qui le positionne entre les rangs "Expert" et "Candidate Master" ou tout simplement meilleur que 85% des développeurs du site.
Un rapport sur la nouvelle famille de LLMs dévoilée aujourd'hui par Google.
Ils annoncent des performances supérieures à GPT-4 sur 30 benchmarks sur 32 et une capacité multimodale native.
Une étude sur l'utilisation des LLMs avec des GNNs pour les graphes (réseau de neurones en graphes).
Il est possible de résoudre de nombreux cas d'applications: détection de relations, prédictions de liens et de noeuds, recommandations, classification, détection de communauté, etc.
Un LLM Open Source surpasserait les performances de GPT-4 en terme d'appel de fonctions.
Notamment sur les appels de fonctions imbriqués.
Ce qui est intéressant c'est qu'ils ont aussi benchmark GPT3.5 et Gorilla et toutes les données et jeux de test sont disponibles sur Hugging Face 👉 https://huggingface.co/spaces/Nexusflow/Nexus_Function_Calling_Leaderboard
Rivet est de loin le meilleur outil que j'ai pu voir pour faire du Prompt Engineering
Franchement j'en ai testé pleins et la rien à redire, on peut tout faire simplement:
- assembler des prompts
- parse les sorties textes
- envoyer ce qu'on a parse dans d'autres prompts
- écrire du code Javascript dans un node (c'est typé et en plus l'éditeur c'est vscode)
Le moteur d'exécution des nodes est super bien fait, par exemple il peut mettre en cache les appels à Open AI si une node fait une erreur plus loin alors on peut corriger et rejouer sans attendre.
L'éditeur de nodes est aussi super intuitif, j'ai pu créer un système complexe de prompts en 15 min sans la documentation
SDXL Turbo est une version améliorée de Stable Diffusion XL qui permet de générer une image en seulement 200ms sur une carte A100 !
Concrètement il n'y a qu'une seule étape de génération au lieu de 20 à 50 aujourd'hui. Ces étapes de générations enlèvent des couches de "bruit" successive.
Le nom de la nouvelle méthode est Adversarial Diffusion Distillation (ADD)
Le modèle et les poids sont Open Source mais sans utilisation commerciale
Une étude qui montre comment un LLM moyen peut égaler GPT-4 dans les benchmarks de façon artificielle, en entraînant le modèle avec des données proches du benchmark de test.
D'une manière général, cela soulève la question de la "triche" dans le monde de la recherche et de comment la détecter