Daily Shaarli

All links of one day in a single page.

December 23, 2023

Ferret: le MLLM d'Apple
thumbnail

Apple sort un MLLM, Multimodal Large Language Model, capable de comprendre les relations entre les objets d'une image.

AppAgent: Multimodal Agents as Smartphone Users

Les auteurs proposent dans ce papier un framework pour pouvoir contrôler des applications sur un smartphone à partir d'agents. L'outil utilise GPT-4 vision pour analyser les applications et les contrôler. L'utilisateur peut exprimer ses besoins avec un simple prompt ("retouche moi cette photo pour la rendre belle", "envoi un mail...", etc.