Daily - December 23, 2023 - Dernières news des IA Génératives

Daily Shaarli

Previous day

All links of one day in a single page.

Next day

December 23, 2023

Ferret: le MLLM d'Apple

Apple sort un MLLM, Multimodal Large Language Model, capable de comprendre les relations entre les objets d'une image.

image-ai papers

AppAgent: Multimodal Agents as Smartphone Users

Les auteurs proposent dans ce papier un framework pour pouvoir contrôler des applications sur un smartphone à partir d'agents. L'outil utilise GPT-4 vision pour analyser les applications et les contrôler. L'utilisateur peut exprimer ses besoins avec un simple prompt ("retouche moi cette photo pour la rendre belle", "envoi un mail...", etc.

image-ai papers