Une expérimentation de manipulation automatique du browser avec GPT-4V en renfort pour la compréhension des interfaces.
Une étude complète sur les capacités de GPT-4Vision dans le domaine des voitures autonomes.
De nombreux critères sont testés: compréhension de l'environnement et des autres usagers de la route, cas limites, raisonnement avec plusieurs images, séquences temporelles, images aériennes et des cas d'usages en conditions réelles.
Une nouvelle technique à base d'IA générative pour faire bouger des parties d'une photo
Tout ce qu'il faut pour entraîner un LoRA depuis un set d'images.
Un LoRA est un sous modèle d'image qui permet de créer des images dans le même genre que ses images d'entraînement.
Une démo impressionnante avec un dessin à main levé qui se transforme en scène 3D dans le style d'un prompt