Daily Shaarli

All links of one day in a single page.

December 18, 2023

Phi-2 - Slow inference times on gpu
thumbnail

A priori le modèle Phi-2 de Microsoft est assez lent, même sur des GPUs.

Sur CPU c'est plusieurs minutes pour générer ~200 tokens.

Aussi le modèle hallucine pas mal donc succès vraiment mitigé pour Microsoft.

Mamba-Chat: A chat LLM based on the state-space model architecture 🐍
thumbnail

Un LLM qui ne se base pas sur l'architecture Transformers.

C'est intéressant de voir qu'il y a toujours des expérimentations sur d'autres architectures, à voir si celle-ci se révèle meilleure

Unlimiformer: Long-Range Transformers with Unlimited Length Input

Papier présenté durant la conférence NeurIPS 2023, qui propose une méthode pour modifier les modèles encodeur-décodeurs pour permettre une taille infinie de la fenêtre de contexte.