Daily Shaarli

All links of one day in a single page.

January 28, 2024

voyage-code-2: Elevate Your Code Retrieval

Voyage AI propose des modèles d'embeddings plus performants que ceux de OpenAI.

Ils sont premier du leaderboard MTEB avec leur modèle voyage-lite-02-instruct (67.13 vs 64.59 pour OpenAI), un benchmark qui mesure la performance de la recherche par embeddings.

Leur nouveau modèle d'embeddings, voyage-code-2, est meilleur que les précédents mais en plus à une fenêtre de contexte de 16K token!

Ce modèle est spécialisé pour le code mais offre aussi de très bonnes performances pour le texte normal

New embedding models and API updates

OpenAI dévoile plusieurs nouveautés et particulièrement un nouveau modèle d'embeddings (ada2 datait de fin 2022).

Le modèle est décliné en deux versions:

  • text-embedding-3-small: 1536 dimensions, 62.3 MTEB
  • text-embedding-3-large: 3072 dimensions, 64.6 MTEB

Le modèle large est en 4è position du classement MTEB. (Ada2 était à 61 MTEB)

Le prix du small est 5x moins cher que Ada2 (0.00002$ 1K token) et le large est ~ le même prix (0.00013$ pour 1K token)

La fenêtre de contexte est toujours de 8196 token, ce qui est toujours peu par rapport à celle des embeddings VoyageAI (16K) ou même de GPT4