Daily Shaarli

All links of one day in a single page.

April 7, 2024

Bases de données vectorielles: chronique d'une mort annoncée

Un article que j'ai écrit pour parler de la hype autour des bases de données vectorielles et de pourquoi il vaut mieux utiliser une base de données classique avec fonctionnalité de recherche vectorielle comme Elasticsearch ou Postgres.

princeton-nlp/SWE-agent: SWE-agent takes a GitHub issue and tries to automatically fix it, using GPT-4, or your LM of choice. It solves 12.29% of bugs in the SWE-bench evaluation set and takes just 1.5 minutes to run.

Un Agent Open Source comme Devin qui est capable de résoudre des issues Github.

Sur SWE-Bench, ils sont à 12.29 vs 13.84 (Devin, SOTA)

On est pas encore au niveau d'un développeur junior mais ça progresse.

NVIDIA ChatRTX

Nvidia se fait de la pub en lançant une application de RAG locale qui utilise un de ses GPU pour fonctionner.

Sous le capot c'est Llama 2 et une simple DB vectorielle (Faiss).

Bref, plus une démo marketing qu'un vrai produit :-)

Stability AI reportedly ran out of cash to pay its AWS bills

Stability AI n'a plus d'argent pour payer ses factures de cloud de presque 100 millions de dollars avec seulement 11 millions de revenus.

Dans les prochains mois, je pense que de nombreux fournisseurs de cloud IA vont suivre le même chemin vu que beaucoup on eu la même tactique en cassant les prix pour attirer des utilisateurs.

SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

Un modèle d'animation des lèvres.

Air Canada Has to Honor a Refund Policy Its Chatbot Made Up

Un chatbot d'Air Canada s'est trompé en conseillant une procédure de remboursement rétro-active qui n'existait pas à un client.

Une court a jugé Air Canada responsable de ce que sont chatbot disait.

Moralité attention à ce qu'il sort des LLMs car vous pourrez être tenu responsable

Self-Rewarding Language Models

Des recherches sur un modèle capable de s'entrainer lui même en se fournissant du feedback à lui même.

Ça me fait penser à de l'apprentissage non-supervisé mais appliqué aux LLMs

GitHub’s latest AI tool can automatically fix code vulnerabilities

Github va un peu plus loin dans la génération de code en proposant un service de correction automatique des vulnérabilités détectées dans les repository.

Sous le capot c'est du GPT4 qui propose une modification d'une PR pour fix une potentielle faille de sécurité.

A priori ça reste des choses assez simple et cantonnées à un seul endroit comme échapper du HTML, éviter un prototype polution, etc

Pour l'instant, les failles sont détectées par des outils conventionnels et corrigé par GPT4 mais plus tard elles pourront aussi être détectés par GPT4

Long-context LLMs Struggle with Long In-context Learning

Une étude sur les performances des LLMs sur de longs contexte.

Même si les LLMs supportent des contextes très long maintenant, ce n'est pas un secret que plus il y a de token et moins le LLM est performant.

Dans leur benchmark, GPT4-Turbo s'en sort mieux que les autres mais ils n'ont pas testé Claude 3 ou Gemini 1.5.

Dans un autre benchmark, Gemini 1.5 arrivait à de meilleurs résultats que GPT4-Turbo avec un très long contexte

Ils ont créé un benchmark pour continuer à analyser les performances des LLMs sur de long contextes: LongICLBench

AutoRFP.ai Pricing

Un Agent LLM qui aide à répondre automatiquement aux questionnaires des grandes entreprises quand on leur vend des solutions SaaS par exemple

Devin, IA software engineer

Un Agent semi autonome capable de réaliser des tâches sur des codebases complexes.

Ses capacités d'adaptation à de nouvelles technologies semblent impressionnante, à voir si ça se confirme autrement que dans des vidéos.

Il obtient plus de 13% sur le SWE benchmark qui évalue les Agents sur des tâches de programmation. C'est moi devant le Claude 2 qui était devant jusqu'ici avec 4%

Twin - Never do the same thing twice

Un projet d'assistant IA capable de réaliser des tâches en manipulant les interfaces des sites web.

Introducing Gemini 1.5, Google's next-generation AI model

Gemini 1.5 arrive avec une fenêtre de contexte jusqu'à 1 million de tokens !

Les performances restent très bonnes malgré la masse de tokens avec 99% de succès au problème de trouver une chaîne de caractère dans le prompt (Needle in a Haystack)

La latence et le prix d'un tel prompt va continuer à pousser les gens vers du RAG pour le moment mais c'est quand même une prouesse technique inimaginable il y a moins d'un an.

Perplexity, Copilot, You.com: Putting the AI search engines to the test

Les moteurs de recherche ne sont pas prêt de disparaitre.

Outre la différence phénoménal de coût entre une requête Google et une génération, il faut aussi se rappeler que beaucoup de requêtes sont de la navigation ("youtube" pour aller sur https://youtube.com) ou de l'information temps réel comme "météo montpellier".

JetMoE: Reaching LLaMA2 Performance with 0.1M Dollar

Le coût d'entrainement des LLMs a drastiquement baissé en seulement quelques mois.

JetMoE offre des performances similaires à Llama 2 mais avec un coût d'entrainement de seulement 100 000$ vs 5 000 000$ pour Llama 2.

Navigating the Challenges and Opportunities of Synthetic Voices

OpenAI fait un peu de teasing sur son modèle de text-to-speech et le produit VoiceEngine qui permet de créer des voix à partir d'un court extrait audio.

Des boîtes comme Heygen auraient déjà accès à ce modèle.

Pour l'instant ce produit reste en usage restreint, notamment pour laisser le temps de remplacer les systèmes de sécurité basés sur la voix

I've put a complex codebase into a single 120K-token prompt, and asked 7 questions GPT-4 and Gemini 1.5. Here are the results! : singularity

A priori le modèle Gemini de Google s'en sort beaucoup mieux sur des prompts long.

Ici l'auteur pose des question avec la totalité de sa code base dans les 120K tokens du prompt

ComfyUI, image generation workflow

Un outil de workflow graphique avec des nœuds pour créer des pipeline de création d'images avec Stable Diffusion

IP-Adapter

Une manière de contrôler la génération d'images Stable Diffusion comme les ControlNet.

Marblism - Generate entire App

Un Agent capable de générer des applications entières avec frontend, backend et database.

Ils annoncent qu'il y aura des retouches manuelles à faire bien sur mais aussi qu'il est possible d'itérer avec un Agent sur chaque page.

Les pages doivent être déclarés avec toutes leurs Users Stories (As an User ....)

Sora - Text to video - OpenAI

Le nouveau modèle de OpenAI pour générer des vidéos.

Ça génère des vidéo de plus d'une minute quasiment sans artefact visible et avec un cohérence complètement maîtrisée entre les trames. C'est juste impressionnant.

Encore une fois OpenAI sort un modèle ayant plusieurs mois d'avance sur ses concurrents