Daily Shaarli
December 23, 2023
Apple sort un MLLM, Multimodal Large Language Model, capable de comprendre les relations entre les objets d'une image.
Les auteurs proposent dans ce papier un framework pour pouvoir contrôler des applications sur un smartphone à partir d'agents. L'outil utilise GPT-4 vision pour analyser les applications et les contrôler. L'utilisateur peut exprimer ses besoins avec un simple prompt ("retouche moi cette photo pour la rendre belle", "envoi un mail...", etc.