Luma AI sort un modèle de génération vidéo d'une qualité comparable à Sora de OpenAI.
Il reste encore des limitations, notamment sur la représentation du mouvement, des objets qui changent entre les frames ou la difficulté à représenter du texte mais le résultat est déjà de très bonne qualité !
La course aux modèles de génération vidéo semble être lancée mais j'ai l'intuition qu'il y aura beaucoup moins de participants que pour le texte ou l'image car les coûts d'entraînement GPU de ces modèles vidéo sont exorbitants
Un modèle d'IA capable de réaliser des clips vidéos de têtes de personnes en incluant des mouvements avancés du visage comme des émotions.
En entrée, il lui suffit d'une image et d'un clip audio.
Impressionnant et en même temps ça fait peur pour les deepfakes
Un modèle open source de Text to Video.
Pour l'instant les vidéos générées sont soit courtes en 1024 (<3sec), soit plus longues en 512 (<10sec)
La cohérence de génération n'est pas parfaite non plus mais c'est un bon début!
L'avantage de ce genre de modèle Open Source c'est que la génération offrira beaucoup plus de contrôle qu'avec les modèles "API only" comme Sora.
Un modèle d'animation des lèvres.
Le nouveau modèle de OpenAI pour générer des vidéos.
Ça génère des vidéo de plus d'une minute quasiment sans artefact visible et avec un cohérence complètement maîtrisée entre les trames. C'est juste impressionnant.
Encore une fois OpenAI sort un modèle ayant plusieurs mois d'avance sur ses concurrents
Un modèle pour enlever le flou des vidéos.
Google sort un nouveau modèle de génération de vidéo.
Le modèle est capable de conserver le style entre chaque image de la séquence pour créer de courtes vidéo.
VideoPoet fonctionne à partir d'un prompt seul ou même une image et d'un prompt.
Toutes les démo sont visibles ici https://sites.research.google/videopoet/
Le nouvel modèle de Mistral AI est un LLM composé de 8 modèles de 7B exploitant ainsi, probablement, l'architecture Mixture of Experts: https://twitter.com/MistralAI/status/1733150512395038967
Il a été d'ailleurs été établi que GPT-4 est un modèle composé de 8 modèles de 220 milliards de paramètres avec un modèle "router" permettant de choisir entre un de ces 8 experts.
Cette vidéo est une présentation complète du concept de Mixture of Experts.
La vidéo se développe de plus en plus avec tout ce qu'on retrouve dans la génération d'image mais en vidéo:
- upscaling (19:9 => 4:3)
- inpainting
- generation
Un repo GitHub qui propose une étude récente et très complète sur les outils de génération et d'édition de vidéos à partir de prompts.