Search: [text-ai] - Dernières news des IA Génératives

Chrome Built-in AI Doesn't Require The Internet

Google a commencé à distribuer son modèle Gemini Nano directement dans Chrome.

Le modèle fonctionne totalement en local avec une API dédiée:

const ts = ai.createTextSession()
const gemi = await ts
const output = gemi.prompt('Tell me you best programmer joke')

C'est une grande avancée car il sera maintenant beaucoup plus simple de créer des applications utilisant des LLM directement en utilisant les API du navigateur.

Par contre en faisant cela, Google va encourager la fragmentation du web par navigateur avec des sites web qui ne fonctionneront que sur Chrome car exploitant des API non standards.

J'espère qu'une standardisation de ce genre d'API arrivera sous peu, comme cela a été le cas pour la reconnaissance vocale avec les Web Speech API

text-ai · navigateur

July 14, 2024 at 19:12:31 UTC · permalink

·

https://dev.to/0xkoji/chrome-built-in-ai-doesnt-require-the-internet-1o2m

Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients

La recherche en optimisation des modèles de langue fais des pas de géant avec GaLore et maintenant Q-GaLore !

Concrètement ces techniques permettent de réduire la mémoire nécessaire pour entraîner un LLM.

Un modèle comme LlaMa 7B ne peut être entraîné que sur des GPU de datacenter car les poids pèsent lourd en mémoire.

Avec Q-GaLore, on peut entraîner ce modèle avec seulement 16Go de RAM et donc sur des GPU grand publique comme la RTX 4060 de Nvidia.

Autant du vote de l'inférence que de l'entraînement, les exigences en matériel dont de plus en plus basses, ce qui contribue à la baisse de coût du token.

text-ai · performance

July 14, 2024 at 19:12:31 UTC · permalink

·

https://arxiv.org/pdf/2407.08296

Coalescence: making LLM inference 5x faster

Outlines propose une bibliothèque Python pour contrôler la génération et produire un JSON valide à tous les coups.

Pour cela, ils vont tout d'abord créer un regex qui correspond au JSON à parser, puis ils vont transformer cette regex en une Finite-State Machine (FSM).

Chaque token généré est une étape de cette state machine et la prochaine étape peut avoir une ou plusieurs possibilité de token.

Par exemple, si format du JSON est { "age": <number> } et les tokens générés ont été: {"ag alors le prochain token est forcément e": afin de respecter le format ({"age":)

Donc en faisant appel au modèle, ils peuvent aller sélectionner dans les tokens potentiels ceux qui correspondent au format attendu et en quelque sorte "force la main" du LLM.

Ils peuvent aussi ignorer des appels au LLM lorsqu'il n'y a qu'un seul token de possible pour la prochaine étape de la state machine.

C'est une technique très maline et intéressante car elle permet de s'assurer de la structure du JSON mais aussi de réduire le nombre d'appels au LLM.

A noter que cela n'est vraiment intéressant que sur un modèle local dont on contrôle l'inférence, si on utilise l'API d'OpenAI par exemple alors cela ne va pas accélérer l'inférence ou réduire les coûts car il faudrait envoyer le prompt entier et payer le coût de tous les tokens à l'intérieur pour chaque étape de la state machine. (Par contre la sortie sera du JSON à 100% grâce au choix du prochain token via les logprobs)

text-ai

July 14, 2024 at 19:12:31 UTC · permalink

·

https://blog.dottxt.co/coalescence.html

My finetuned models beat OpenAI’s GPT-4

Un retour d'expérience sur le fine tuning de modèles pour améliorer les performances sur un cas d'usage d'extraction de données structurées.

Les modèles fine tuné offrent de meilleures performances que GPT-4o !

Ici le processus de fine tuning a permis au modèle d'augmenter les poids lui permettant de "comprendre" ou étaient les données à extraire.

C'est intéressant mais compliqué à mettre en place entre la constitution du jeu de données et l'évaluation des modèles fine tuné.

Les résultats sont quand même très encourageant, je pense qu'il va falloir de plus en plus considérer le fine tuning pour certains cas d'usages.

text-ai

July 14, 2024 at 19:12:31 UTC · permalink

·

https://mlops.systems/posts/2024-07-01-full-finetuned-model-evaluation.html?ref=dailydev

Mapping the Mind of a Large Language Model at Anthropic

Un article de recherche assez impressionnant d’Anthropic, ils ont cartographié l’activation des “neurones” du LLM.

Cela me fait beaucoup penser à l’IRM qui permet de repérer quels sont les zones du cerveau qui s’activent pour une tâche ou à l’évocation d’un concept.

De la même manière, ils ont observé l’activation des “neurones” du LLM lors de la génération afin de repérer quelles zones encodaient les concepts.

C’est une grande avancée dans le domaine de l'explicabilité qui est cruciale pour comprendre le fonctionnement interne des réseaux de neurones informatiques.

text-ai

July 8, 2024 at 16:33:47 UTC · permalink

·

https://www.anthropic.com/research/mapping-mind-language-model

Finding GPT-4’s mistakes with GPT-4

OpenAI est arrivé à un tel niveau de qualité dans les réponses faites par ses modèles qu’il est maintenant difficile pour les évaluateurs humains de choisir une meilleur réponse dans leurs processus de Reinforcement Learning (RLHF).

Ils ont donc fine-tuné un modèle (aussi par RLHF) pour aider les évaluateurs à discerner des erreurs ou améliorations.

Le modèle se trompe souvent mais cela améliore quand même de 60% la qualité de l’évaluation.

C’est un très bon exemple de “copilot” IA ou la collaboration entre IA et humain donne de meilleurs résultats la ou l’utilisation de l’IA seule n’aurait pas été possible car trop d’erreurs.

text-ai

July 8, 2024 at 16:33:47 UTC · permalink

·

https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

Inflection-2.5: meet the world's best personal AI

Inflection 2.5 est un modèle aux performances comparables à GPT-4.

text-ai

July 8, 2024 at 16:33:46 UTC · permalink

·

https://inflection.ai/inflection-2-5

Scalable MatMul-free Language Modeling

Un papier scientifique qui explique une méthode pour faire tourner un LLM sans la multiplication des matrices.

En gros ça signifie qu'on aurait pas besoin de l'acceleration GPU pour faire tourner des LLMs mais qu'on pourrait faire ça sur des CPU standard que tout le monde a déjà.

text-ai

July 8, 2024 at 16:33:45 UTC · permalink

·

https://arxiv.org/abs/2406.02528

Introducing Claude 3.5 Sonnet

La dernière version de Claude serait le premier modèle à battre un modèle d'OpenAI.

Sur un benchmark de raisonnement par exemple, Claude 3.5 Sonnet fait 59% vs 53% pour GPT-4o.

Le million de token est à 3$ vs 5$ pour GPT-4o et ma fenêtre de contexte est de 200K tokens vs 128 pour GPT-4o.

Le modèle possède également des capacités d'analyse image.

Bref, un sérieux concurrent pour OpenAI !

text-ai

June 20, 2024 at 23:04:31 UTC · permalink

·

https://www.anthropic.com/news/claude-3-5-sonnet

LLMs are insecure

Une technique intéressante de prompt injection qui passe tous les niveaux du CTF de Lakera (une entreprise spécialisée dans la sécurité des LLMs)

Ils donnent des instructions en pseudo code qui permettent de faire leak le code secret

text-ai · cybersecurite · prompt-injection

June 17, 2024 at 23:03:38 UTC · permalink

·

https://antonz.org/ai-security/

Perplexity AI Is Lying about Their User Agent

Perplexity n'utilisent pas le User Agent qu'ils déclarent utiliser.

Cela empêche de bloquer le bot qui scrape les pages web pour Perplexity (et ils ne respectent pas non plus le robot.txt bien évidemment)

text-ai

June 16, 2024 at 16:52:52 UTC · permalink

·

https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/

Firebase Genkit Typescript

La lib Firebase Genkit de Google pour LLM est très bien pensée.

Contrairement à Langchain, le design est simple et le nombre de features limité à des abstraction de bas niveau.

Abstraction autour des modèles (LLM et aussi image)
Génération de données structurées avec schéma de validation Zod en entrée et en sortie (on fait la même chose chez Didask)
Utilisation d'outils par les LLMs (la aussi définis avec Zod!)

Je ne suis pas super fan de leur manière de gérer les templates de prompt par contre, je préfère utiliser du pur Javascript.

Le gros bémol c'est que l'on a pas accès aux modèles d'OpenAI.

text-ai · typescript

June 16, 2024 at 16:52:52 UTC · permalink

·

https://firebase.google.com/docs/genkit

LiveBench LLM

Un benchmark des différents LLM.

Les question se répartissent en plusieurs catégories:

raisonnement
code
mathématiques
analyse de données

GPT-4 est en tête bien sur

text-ai

June 16, 2024 at 16:52:52 UTC · permalink

·

https://livebench.ai/

Introducing Lamini Memory Tuning: 95% LLM Accuracy, 10x Fewer Hallucinations

Une nouvelle technique qui comme le RAG, est utilisée pour permettre au LLM de répondre à des questions sur des données non présentes dans le corpus d'entrainement initial.

Pour ça, ils se basent sur un fine-tuning de millions de LoRa avec les documents qui seront sélectionnés au moment de l'inférence pour répondre à la question.

Ils annoncent des résultats impressionnants avec 95% de précision sur un cas d'usage Text-to-SQL vs 50% avec un RAG.

Cette méthode permet de remplacer un RAG avec une nouvelle technique d'entrainement mais aussi de réduire énormément les hallucinations.

Ils expliquent les détails de leur méthode dans ce papier de recherche: Banishing LLM Hallucinations Requires Rethinking Generalization

Si ça se concrétise c'est game changer pour l'écosystème LLM qui pourrait délaisser le RAG pour le Memory Tuning dans certains cas d'usage.

text-ai · memory-tuning

June 16, 2024 at 16:52:52 UTC · permalink

·

https://www.lamini.ai/blog/lamini-memory-tuning

Literal AI - Multi-modal LLM observability and evaluation platform

Un outil de LLMOps dans la même veine que Langfuse.

Ça permet l'observabilité des applications LLM avec études des étapes de générations et même possibilité de rejouer directement les prompts.

Ils proposent aussi une partie évaluation et une partie création collaborative de prompts.

text-ai · observabilite · evaluation-ai

June 12, 2024 at 23:03:14 UTC · permalink

·

https://literalai.com/

Your AI Product Needs Evals

Un très bon article sur la manière d'évaluer des système de GenAI (RAG mais pas que)

Avoir des interfaces bien foutues pour l'évaluation des données (question + réponse)
Pas forcément besoin d'outils sophistiqués (même Excel peut faire l'affaire)
Chaque système nécessite une évaluation personnalisée
Écrire beaucoup de tests
Utiliser les LLM pour générer des données de test
Réutiliser son infrastructure d'évaluation pour le debug et le fine-tuning

text-ai · evaluation-ai

June 12, 2024 at 23:03:14 UTC · permalink

·

https://hamel.dev/blog/posts/evals/#automated-evaluation-w-llms

What We Learned from a Year of Building with LLMs (Part I)

Un REX sur l'utilisation de LLMs en production.

Prompt Engineering:

mettre l'accent sur les techniques de prompting (chain of thought etc)
travailler sur la structure des données en entrée et en sortie

RAG:

utiliser de la recherche hybride (vecteur + keyword)
préférer le RAG au fine tuning pour la recherche de connaissance
les long contextes des modèles ne rendront pas les RAG obsolètes

LLM Engineering:

utiliser des workflow LLM qui mélangent prompt engineering et software engineering pour de meilleurs résultats
faire générer des plans aux Agents afin d'améliorer la reproductibilité des résultats
ne pas oublier de faire varier les méta-paramètres (temperature, top_p, etc)
mettre en place des stratégie de cache

Test et évaluation:

utiliser des tests unitaires avec des exemples réels
évaluer les résultats avec d'autres LLM
les évaluations apparaissent entre 5 et 10% du temps même sur des tâches simples

text-ai

June 12, 2024 at 23:03:13 UTC · permalink

·

https://www.oreilly.com/radar/what-we-learned-from-a-year-of-building-with-llms-part-i/

Changing the GPU is changing the behaviour of your LLM.

Un article très intéressant sur le caractère probabiliste des LLMs.

En gros, les GPU ont des architectures internes différente, notamment sur la manière de programmer les tâches en parallèle et du à la non associativité de certaines opérations cela cause des infimes différences de calcul qui finissent par affecter significativement le résultat final.

Cela me fait penser à la théorie du chaos ou des différences infimes dans l'état initial amène à des évolutions complètement différentes d'un système.

text-ai

June 9, 2024 at 10:26:15 UTC · permalink

·

https://medium.com/@anis.zakari/changing-the-gpu-is-changing-the-behaviour-of-your-llm-0e6dd8dfaaae

Mirascope | LLM toolkit for lightning-fast, high-quality development

Un framework Python pour intégrer des LLMs dans son code.

Je trouve la DX bien pensée par rapport à Langchain (pas difficile de faire mieux niveau DX)

On y retrouve simplement les fonctionnalités essentielles pour faire du LLM Engineering:

choix du modèle, des paramètres
intégration facile de l'historique de messages
utilisation de fonctions par le modèle (Function Calling )
chaines de prompt et sous prompt (vraiment bien foutu je trouve!)
extraction de données structurées

Il ne manque que la validation et la possibilité de spécifier un format de sortie structuré pour chaque prompt. C'est du super boulot.

(Dommage que ce soit en Python)

text-ai · framework

June 9, 2024 at 10:26:15 UTC · permalink

·

https://www.mirascope.io/

My Tailor is Mistral

Mistral ouvre le fine-tuning de ses modèles.

Techniquement, c'est un fine tuning LoRa ou très peu de paramètres sont affectés. Ça réduit drastiquement les coûts tout en offrant de bonnes performances de génération (selon eux)

Bon alors techniquement c'était déjà possible vu que les modèles sont open source mais concrètement ils simplifient la tâches aux développeurs en proposant 3 services:

mistral-finetune: open source et gratuit, c'est un repo qui contient le code nécessaire pour fine tuner un modèle Mistral
Serverless fine-tuning: une API sur leur cloud pour fine-tuner les modèles sans se prendre la tête ($)
Custom training service: une offre de service ou le fine tuning est pris en charge de A à Z par les équipes de Mistral ($$$)

text-ai · fine-tuning

June 9, 2024 at 10:26:15 UTC · permalink

·

https://mistral.ai/news/customization/