300 shaares
Le nouvel modèle de Mistral AI est un LLM composé de 8 modèles de 7B exploitant ainsi, probablement, l'architecture Mixture of Experts: https://twitter.com/MistralAI/status/1733150512395038967
Il a été d'ailleurs été établi que GPT-4 est un modèle composé de 8 modèles de 220 milliards de paramètres avec un modèle "router" permettant de choisir entre un de ces 8 experts.
Cette vidéo est une présentation complète du concept de Mixture of Experts.