Daily Shaarli

All links of one day in a single page.

January 6, 2024

GroqChat - Fastest inference Engine

Groq propose une technologie pour accélérer la vitesse d'inférence des LLMs.

Le résultat est impressionnant, ils arrivent à générer plus de 300 tokens/seconde avec Llama 2 70B.

  • Il faut 8 GPU A100 à 30$ de l'heure chez Amazon pour arriver au même résultat
  • la génération est de 35 tokens/seconde sur le GPU d'un particulier (Nvidia 4090)

Le moteur qu'il utilise s'appelle Groq LPU. Je suppose qu'ils utilisent la quantization et d'autres techniques comme PowerInfer

Ils développent aussi leur propre hardware, ce sont des puces spécialisés dans l'inférence.

Les opérations couteuses comme les multiplications de matrice sont gravés directement dans le silicium ce qui multiplie la vitesse par plusieurs ordres de grandeur.

Après les TPU de Google et les NPU de Microsoft, Groq propose une alternative hardware crédible sur un marché très dur à adresser.

Inflection - Pi
thumbnail

Un LLM qui met l'accent sur la qualité de la conversation de la même manière qu'un humain.

Notamment il va très souvent relancer l'utilisateur avec des questions pour explorer en profondeur les sujets proposés.