300 shaares
Les auteurs proposent dans ce papier un framework pour pouvoir contrôler des applications sur un smartphone à partir d'agents. L'outil utilise GPT-4 vision pour analyser les applications et les contrôler. L'utilisateur peut exprimer ses besoins avec un simple prompt ("retouche moi cette photo pour la rendre belle", "envoi un mail...", etc.