300 shaares
Une étude qui montre comment un LLM moyen peut égaler GPT-4 dans les benchmarks de façon artificielle, en entraînant le modèle avec des données proches du benchmark de test.
D'une manière général, cela soulève la question de la "triche" dans le monde de la recherche et de comment la détecter