Daily Shaarli

All links of one day in a single page.

May 19, 2024

Semantic Cache: Accelerating AI with Lightning-Fast Data Retrieval

Une utilisation très intéressante de la recherche sémantique: un cache sémantique

Si l'on souhaite utiliser un cache dans une application qui traite du langage naturel (à travers des prompt par exemple), il est très difficile de faire cela avec les techniques traditionnelles comme le hashing.

Plutôt qu'un hash, on peut stocker un vecteur sémantique avec le résultat mis en cache. Ainsi, si une demande ultérieur approche le sens de la première demande, on peut renvoyer directement le résultat.

Par exemple, ces deux questions ne sont écrites pareil mais ont le même sens:

  • "En quelle année est sortie Half-Life 2?"
  • "Quelle est l'année de sortie de Half-Life2"

Il suffit de stocker le vecteur correspondant à la première question avec la réponse (2004 bien sur!) puis lorsque l'on reçoit la deuxième question on calcule le vecteur et comme il est très proche du premier alors on renvoi la même réponse.

How DeviantArt died: A.I. and greed turned a once-thriving community into a ghost town.

De plus en plus de créateurs quittent DeviantArt car de très nombreux contenus sont générés par IA et mis en avant par la plateforme ce qui donne beaucoup moins de visibilité aux créateurs humains.

Les œuvres humaines sont littéralement noyées sous la masses des œuvres IA.

GPT-4o’s Memory Breakthrough!

A priori GPT-4o est de loin le meilleur modèle pour le problème de "needle in a haystack" qui consiste à évaluer la performance d'un modèle pour retrouver le texte pertinent dans un prompt très long.

Alors que GPT-4 Turbo, Claude ou Mistral performent à ~50% en moyenne, GPT-4o atteint presque la perfection avec plus de 80% de succès !

Cela veut dire que même avec des très longs prompt, le modèle reste performant. Pratique pour traiter un grand nombre d'informations à la fois.

Unleashing the Power of Knowledge Graphs in Retrieval Augmented Generation (RAG): Step by Step Instruction

Une introduction à l'utilisation d'un graphe en addition à la recherche sémantique classique pour améliorer la récupération d'informations d'un RAG.

Ce genre de technique est de plus en plus populaire pour palier à la limite de la perte de contexte en plusieurs chunks.

Le plus difficile reste bien sûr de créer le graphe et de le faire évoluer. (Je pense qu'il y a moyen d'utiliser un LLM pour ça)