Daily - December 18, 2023 - Dernières news des IA Génératives

Daily Shaarli

Previous day

All links of one day in a single page.

Next day

December 18, 2023

Phi-2 - Slow inference times on gpu

A priori le modèle Phi-2 de Microsoft est assez lent, même sur des GPUs.

Sur CPU c'est plusieurs minutes pour générer ~200 tokens.

Aussi le modèle hallucine pas mal donc succès vraiment mitigé pour Microsoft.

text-ai nano-ai

Mamba-Chat: A chat LLM based on the state-space model architecture 🐍

Un LLM qui ne se base pas sur l'architecture Transformers.

C'est intéressant de voir qu'il y a toujours des expérimentations sur d'autres architectures, à voir si celle-ci se révèle meilleure

text-ai

Unlimiformer: Long-Range Transformers with Unlimited Length Input

Papier présenté durant la conférence NeurIPS 2023, qui propose une méthode pour modifier les modèles encodeur-décodeurs pour permettre une taille infinie de la fenêtre de contexte.

text-ai