Daily Shaarli

All links of one day in a single page.

December 6, 2023

AlphaCode 2 Technical Report

Google sort AlphaCode2 qui se base sur son LLM Gemini.

Cette nouvelle version utilise Gemini mais c'est surtout un Agent LLM complexe avec de multiples étapes:

  • génération de solutions
  • évaluation des solutions
  • sélection des meilleures solutions

AlphaCode2 a résolu 43% des 8000 problèmes tirés de CodeForces, ce qui le positionne entre les rangs "Expert" et "Candidate Master" ou tout simplement meilleur que 85% des développeurs du site.

Gemini: A Family of Highly Capable Multimodal Models

Un rapport sur la nouvelle famille de LLMs dévoilée aujourd'hui par Google.

Ils annoncent des performances supérieures à GPT-4 sur 30 benchmarks sur 32 et une capacité multimodale native.

Large Language Models on Graphs: A Comprehensive Survey

Une étude sur l'utilisation des LLMs avec des GNNs pour les graphes (réseau de neurones en graphes).

Il est possible de résoudre de nombreux cas d'applications: détection de relations, prédictions de liens et de noeuds, recommandations, classification, détection de communauté, etc.

NexusRaven-V2: Surpassing GPT-4 for Zero-shot Function Calling

Un LLM Open Source surpasserait les performances de GPT-4 en terme d'appel de fonctions.

Notamment sur les appels de fonctions imbriqués.

Ce qui est intéressant c'est qu'ils ont aussi benchmark GPT3.5 et Gorilla et toutes les données et jeux de test sont disponibles sur Hugging Face 👉 https://huggingface.co/spaces/Nexusflow/Nexus_Function_Calling_Leaderboard

Rivet - IA builder
thumbnail

Rivet est de loin le meilleur outil que j'ai pu voir pour faire du Prompt Engineering

Franchement j'en ai testé pleins et la rien à redire, on peut tout faire simplement:

  • assembler des prompts
  • parse les sorties textes
  • envoyer ce qu'on a parse dans d'autres prompts
  • écrire du code Javascript dans un node (c'est typé et en plus l'éditeur c'est vscode)

Le moteur d'exécution des nodes est super bien fait, par exemple il peut mettre en cache les appels à Open AI si une node fait une erreur plus loin alors on peut corriger et rejouer sans attendre.

L'éditeur de nodes est aussi super intuitif, j'ai pu créer un système complexe de prompts en 15 min sans la documentation

Introducing SDXL Turbo: A Real-Time Text-to-Image Generation Model
thumbnail

SDXL Turbo est une version améliorée de Stable Diffusion XL qui permet de générer une image en seulement 200ms sur une carte A100 !

Concrètement il n'y a qu'une seule étape de génération au lieu de 20 à 50 aujourd'hui. Ces étapes de générations enlèvent des couches de "bruit" successive.

Le nom de la nouvelle méthode est Adversarial Diffusion Distillation (ADD)

Le modèle et les poids sont Open Source mais sans utilisation commerciale

Rethinking Benchmark and Contamination for Language Models with Rephrased Samples

Une étude qui montre comment un LLM moyen peut égaler GPT-4 dans les benchmarks de façon artificielle, en entraînant le modèle avec des données proches du benchmark de test.

D'une manière général, cela soulève la question de la "triche" dans le monde de la recherche et de comment la détecter