Daily Shaarli

All links of one day in a single page.

June 16, 2024

Stable Diffusion 3 Medium

Stability AI release son modèle Stable Diffusion 3 medium en téléchargement.

Les modèles de la famille Stable Diffusion 3 sont disponibles depuis plusieurs mois via l'API de Stability AI, notamment SD3 Large qui est leur modèle le plus performant.

Le modèle est release avec une licence Open Source qui interdit l'utilisation commerciale.

Après la release de Codestral en MNPL par Mistral, Stability protège aussi ses investissements en restreignant l'utilisation de leur modèle.

D'un côté ça peut se comprendre au vu des investissement nécessaires à l'entrainement, d'un autre côté le succès de Stable Diffusion est beaucoup venu de sa très grande communauté qui ont créé énormément de ressources et beaucoup de valeur autour du modèle de base.

How we built Text-to-SQL at Pinterest

Un retour d'expérience très complet sur le système d'interrogation du datawarehouse de Pinterest avec du langage naturel.

Ils ont construit un RAG avec lequel les utilisateurs peuvent poser des questions en langage naturel. 40% du temps le résultat est bon du premier coup et le reste du temps les utilisateurs doivent affiner leur question en plusieurs messages. (comme toujours, l'IA reste un copilote)

Une idée intéressante, ils utilisent les questions les plus courantes sur une table pour générer un summary de la table et son utilité. Ce summary est ensuite vectorisé.

Ils utilisent OpenSearch (la fork d'Elasticsearch) comme moteur de recherche vectoriel notamment parce qu'ils peuvent utiliser le scoring boost.

L'article est une mine d'information et ils donnent tous leurs prompts!

Perplexity AI Is Lying about Their User Agent

Perplexity n'utilisent pas le User Agent qu'ils déclarent utiliser.

Cela empêche de bloquer le bot qui scrape les pages web pour Perplexity (et ils ne respectent pas non plus le robot.txt bien évidemment)

LiveBench LLM

Un benchmark des différents LLM.

Les question se répartissent en plusieurs catégories:

  • raisonnement
  • code
  • mathématiques
  • analyse de données

GPT-4 est en tête bien sur

Introducing Lamini Memory Tuning: 95% LLM Accuracy, 10x Fewer Hallucinations

Une nouvelle technique qui comme le RAG, est utilisée pour permettre au LLM de répondre à des questions sur des données non présentes dans le corpus d'entrainement initial.

Pour ça, ils se basent sur un fine-tuning de millions de LoRa avec les documents qui seront sélectionnés au moment de l'inférence pour répondre à la question.

Ils annoncent des résultats impressionnants avec 95% de précision sur un cas d'usage Text-to-SQL vs 50% avec un RAG.

Cette méthode permet de remplacer un RAG avec une nouvelle technique d'entrainement mais aussi de réduire énormément les hallucinations.

Ils expliquent les détails de leur méthode dans ce papier de recherche: Banishing LLM Hallucinations Requires Rethinking Generalization

Si ça se concrétise c'est game changer pour l'écosystème LLM qui pourrait délaisser le RAG pour le Memory Tuning dans certains cas d'usage.

Firebase Genkit Typescript

La lib Firebase Genkit de Google pour LLM est très bien pensée.

Contrairement à Langchain, le design est simple et le nombre de features limité à des abstraction de bas niveau.

  • Abstraction autour des modèles (LLM et aussi image)
  • Génération de données structurées avec schéma de validation Zod en entrée et en sortie (on fait la même chose chez Didask)
  • Utilisation d'outils par les LLMs (la aussi définis avec Zod!)

Je ne suis pas super fan de leur manière de gérer les templates de prompt par contre, je préfère utiliser du pur Javascript.

Le gros bémol c'est que l'on a pas accès aux modèles d'OpenAI.

WrenAI makes your database RAG-ready. Implement Text-to-SQL more accurately and securely.

Une solution clé en main de Text-to-SQL, un RAG pour poser des questions en langage naturelle à sa base de données.

Une autre solution un peu plus mature: Dataherald

Les deux sont Open Source :-)