Les auteurs proposent une méthode dédiée à l'analyse de données structurées en tableaux. La méthode permet de générer des opérations sur la table en fonction de la question qui permet de transformer les données pour répondre à la question. Grâce à cette chaine d'opérations qui modifient les données itérativement, le LLM parvient à trouver la bonne réponse à l'inverse des méthodes classiques qui analysent directement les données ou génèrent du SQL.
Une étude synthétisant plus de 300 travaux dans le domaine de l'IA Générative, faisant un état des lieux complet de la recherche de ces dernièeres années, et les évolutions futures. L'étude se focalise sur les avancements dans le domaine des Mixture of Experts, de l'apprentissage multimodale et les avancées spéculatives en AGI.
Une étude qui récapitule l'ensemble des paradigmes du RAG: le RAG "naïf", les techniques de RAG avancées et le RAG modulaire.
Apple sort un MLLM, Multimodal Large Language Model, capable de comprendre les relations entre les objets d'une image.
Les auteurs proposent dans ce papier un framework pour pouvoir contrôler des applications sur un smartphone à partir d'agents. L'outil utilise GPT-4 vision pour analyser les applications et les contrôler. L'utilisateur peut exprimer ses besoins avec un simple prompt ("retouche moi cette photo pour la rendre belle", "envoi un mail...", etc.