Daily Shaarli

All links of one day in a single page.

December 2, 2023

GAIA: A Benchmark for General AI Assistants

Une méthode pour évaluer les performances des Agents LLM.

Pour chaque tâche, l'Agent doit utiliser un ou plusieurs outils comme un navigateur web, de l'exécution de code, une API custom, etc.

Les tâches sont réparties en 3 niveaux:

  • Niveau 1: entre 0 et 1 outil nécessaire, maximum 5 étapes
  • Niveau 2: entre 5 et 10 outils, plus de 5 étapes
  • Niveau 3: grand nombre d'outils et beaucoup d'étapes

Ils ont évalué GPT-4, AutoGPT et GPT-4 avec plugins et aucun n'arrive à réaliser des tâches de niveau 3