Daily Shaarli

All links of one day in a single page.

July 8, 2024

Mapping the Mind of a Large Language Model at Anthropic

Un article de recherche assez impressionnant d’Anthropic, ils ont cartographié l’activation des “neurones” du LLM.

Cela me fait beaucoup penser à l’IRM qui permet de repérer quels sont les zones du cerveau qui s’activent pour une tâche ou à l’évocation d’un concept.

De la même manière, ils ont observé l’activation des “neurones” du LLM lors de la génération afin de repérer quelles zones encodaient les concepts.

C’est une grande avancée dans le domaine de l'explicabilité qui est cruciale pour comprendre le fonctionnement interne des réseaux de neurones informatiques.

Announcing Code Assistant Supermaven 1.0

Supermaven propose un assistant code comme Copilot.

Supermaven possède so propre modèle (Babble) et se démarque sur plusieurs points:

  • Fenêtre de 1 millions de token
  • Latence de 250 ms au lieu de 800ms pour Copilot
  • Prédiction à chaque frappe du clavier

Ils ont testé le modèle sur des benchmark de type “needle in a haystack” et il est capable de retrouver correctement les informations même dans 1 millions de tokens !

Je l’utilise depuis quelques semaines et c’est un sérieux concurrent à Copilot.

Certaines choses sont néanmoins moins bien, par exemple Supermaven raisonne beaucoup moins bien que Copilot (GPT-3.5 ou GPT-4).

Inflection-2.5: meet the world's best personal AI

Inflection 2.5 est un modèle aux performances comparables à GPT-4.

Scalable MatMul-free Language Modeling

Un papier scientifique qui explique une méthode pour faire tourner un LLM sans la multiplication des matrices.

En gros ça signifie qu'on aurait pas besoin de l'acceleration GPU pour faire tourner des LLMs mais qu'on pourrait faire ça sur des CPU standard que tout le monde a déjà.

Finding GPT-4’s mistakes with GPT-4

OpenAI est arrivé à un tel niveau de qualité dans les réponses faites par ses modèles qu’il est maintenant difficile pour les évaluateurs humains de choisir une meilleur réponse dans leurs processus de Reinforcement Learning (RLHF).

Ils ont donc fine-tuné un modèle (aussi par RLHF) pour aider les évaluateurs à discerner des erreurs ou améliorations.

Le modèle se trompe souvent mais cela améliore quand même de 60% la qualité de l’évaluation.

C’est un très bon exemple de “copilot” IA ou la collaboration entre IA et humain donne de meilleurs résultats la ou l’utilisation de l’IA seule n’aurait pas été possible car trop d’erreurs.

GitHub Copilot Extensions are all you need

Github permet maintenant de coder des extensions à Github Copilot.

Concrètement, il est possible d'utiliser les modèles utilisés par Copilot et de créer des assistants spécialisés que l'on peut ensuite solliciter dans le chat.

Il y a deux API:

  • Chat API: permet de s'intégrer dans le chat de Copilot
  • Language API: permet de faire des requêtes aux modèles basés sur GPT-3.5 et GPT-4 (le contexte maximum est de 4000 tokens)

Par exemple, l'assistant @stripe est capable d'aider un développeur à développer et debuguer une intégration Slack.
J'imagine que derrière, il y a un RAG avec la documentation à jour de Stripe.

C'est la porte ouverte à la création d'un écosystème, très bonne initiative de la part de Github à un moment ou la concurrence sur les assistant de code est rude (Supermaven par exemple)

Build a Perplexity-Inspired Answer Engine Using Next.js, Groq, Llama-3, Langchain, OpenAI, Upstash, Brave & Serper

Un clone de Perplexity à vocation pédagogique pour comprendre et apprendre les différents concepts du moteur de recherche augmenté par IA.

Techno: Next.js, Vercel AI SDK, Mistral, Langchain.js, Serper et Brave API (search), OpenAI Embeddings

File Search API - OpenAI

OpenAI propose une API de RAG sur étagère (c’est en bêta encore)

Concrètement ça permet d’ingérer des documents dans une base de données vectorielle et de faire un RAG en très peu de code.

Il n’y a pas beaucoup de contrôle sur les différentes étapes, par exemple le chunking c’est uniquement chunking simple avec overlap, mais c’est très pratique pour faire un POC rapide par exemple.

Managed Inference | Scaleway

Scaleway propose une offre d'inférence managé avec les modèles de Mistral (aussi LlaMa 3 et quelques autres).

Le prix dépend du GPU, c'est 0.93€/h sur des L4 (670€/mois) et 3.40€/h sur des H100 (2482€/mois)

Les plus gros modèles (LlaMa 3 et Mistral 8x7b) nécessitent des H100.

A noter qu'ils développent aussi une Generative API pour proposer de l'inférence à la demande comme sur l'API d'OpenAI (c'est encore en beta)

All web “content” is freeware for Microsoft

Pour le CEO de la branche IA de Microsoft, tous le contenu sur internet est libre de droits et ils peuvent donc l'utiliser pour entrainer leurs modèles.

Malgré le lobbyisme de Microsoft pour nous faire croire qu'ils sont du bon côté, on continue d'entrevoir leur vrai visage à des moments.