Daily Shaarli

All links of one day in a single page.

April 13, 2024

AIcrowd | Meta Comprehensive RAG Benchmark: KDD Cup 2024
thumbnail

Une compétition de RAG. Je trouve ça intéressant de garder sous la main les 8 types de questions:

  • Question simple : questions demandant des faits simples, comme la date de naissance d'une personne et les auteurs d'un livre.

  • Question simple avec certaines conditions : questions demandant des faits simples avec certaines conditions données, telles que le cours de l'action à une certaine date et les films récents d'un réalisateur dans un certain genre.

  • Set Question: Questions qui attendent un ensemble d'entités ou d'objets comme réponse. Un exemple : quels sont les continents de l’hémisphère sud ?

  • Question de comparaison : des questions qui peuvent comparer deux entités, comme par exemple qui a commencé à se produire plus tôt, Adele ou Ed Sheeran ?

  • Question d'agrégation : questions qui peuvent nécessiter une agrégation des résultats de récupération pour répondre, par exemple, combien d'Oscars Meryl Streep a-t-elle remportés ?

  • Questions multi-sauts : questions qui peuvent nécessiter d'enchaîner plusieurs éléments d'information pour composer la réponse, comme par exemple qui a joué dans le dernier film d'Ang Lee ?

  • Question de post-traitement : questions qui nécessitent un raisonnement ou un traitement des informations récupérées pour obtenir la réponse, par exemple : combien de jours Thurgood Marshall a-t-il été juge à la Cour suprême ?

  • Question à faux prémisse : questions comportant une fausse préposition ou hypothèse ; par exemple, quel est le nom de l'album rap de Taylor Swift avant sa transition vers la pop ? (Taylor Swift n'a sorti aucun album de rap.)

ARAGOG: Advanced RAG Output Grading

Une méta étude sur les RAG avec notamment:

  • Sentence-window retrieval
  • Document summary index
  • HyDE
  • Multi-query
  • Maximal Marginal Relevance
  • Cohere Re-ranker
  • LLM-based Re-ranker

L'étude montre que la combinaisons des méthodes Sentence Window Retrieval, LLM Rerank, Cohere Rerank et HyDE donnent les meilleurs résultats.

Dommage que l'étude ne parle pas des techniques qui limitent le chunking et d'autre chose méthode que les seules Vector Database pour récupérer les documents comme Elasticsearch par exemple.

Debunking Devin: "First AI Software Engineer" Upwork lie exposed!

Sans surprise, la vidéo de Devin qui prend une issue Upwork et la fix est pleine de fake.

Devin fix de soit disant erreurs dans des fichiers qui n'existent pas dans le repo et il utilise aussi des commandes Bash inutiles (head -n 5 file.json | tail -n 5)

Aussi, l'auteur de la vidéo a complété la tâche en 35 min et c'était assez simple vu que le Readme était très clair.

Bref encore une fois les Agents complètement autonomes restent très décevants.

Appel à projets « Accélérer l’usage de l’intelligence artificielle générative dans l’économie » | Bpifrance

La BPI lance un appel à projet autour de la GenAI avec à la clé entre 1 et 5 millions d'euro de financement.

RAFT: Adapting Language Model to Domain Specific RAG

Une méthode très intéressante pour améliorer les performances d'un RAG avec du fine tuning de modèle.

En gros on va créer un dataset contenant:

  • une question
  • un document pertinent pour y répondre
  • un document non pertinent ("distractor")
  • la réponse générée depuis le document pertinent
  • une chaine de pensée (Chain of Thought) expliquant le raisonnement (généré par GPT4 par exemple)

Ensuite il faut fine tuner un modèle avec ce dataset (Voir ce LlamaPack ou un exemple sur Azure AI)

Ils ont des résultats avec Llama2 7B qui sont meilleurs que GPT3.5 + RAG.

Dommage qu'ils n'aient pas comparés avec GPT4 + RAG mais c'est surement parce que GPT4 est meilleur. Il faudrait fine tuner un modèle de 4è génération Open Source comme Mistral ou GPT4 via l'API de fine tuning pour arriver à des résultats vraiment bons.