Daily Shaarli

All links of one day in a single page.

April 19, 2024

Lessons after a half-billion GPT tokens

Un retour d'expérience sur l'utilisation de GPT4 pour un usage modéré (500M tokens sur 6 mois).

Les retours d'expérience que je partage:

  • Langchain et LlamaIndex ça apporte une couche d'abstraction supplémentaire difficile à maitriser alors que le SDK simple suffit
  • le streaming pour faire attendre les utilisateurs est indispensable
  • GPT4 a du mal à ne pas halluciner plutôt que de se taire lorsqu'il n'a pas d'info suffisantes
  • la fenêtre de contexte de 128K c'est que en input, pour l'output ça n'a pas bougé et c'est toujours 4K tokens seulement
  • les bases de données vectorielle sont inutiles dans la majorité des cas
@GroqInc is serving LLaMA 3 at over 800 tokens per second!

LlaMA 3 sur Groq est d'une vitesse incroyable: 800 token/sec.

Les modèles sont disponible sur l'API de Groq Cloud

Ils n'ont pas encore d'offre entreprise payante mais on peut déjà essayer avec le free tiers

InstructLab - synthetic data-based alignment tuning method for Large Language Models
thumbnail

Un framework de fine tuning de LLMs.

Afin de pouvoir fine tuner des modèles même avec très peu de données (5-10 question/answer), ils ont une méthode pour générer de la donnée supplémentaire.

D'ailleurs, on voit qu'ils ont prévu les cas de RAG car on peut aussi renseigner un contexte

C'est une contribution en provenance des labo de recherche d'IBM.