Rethinking Benchmark and Contamination for Language Models with Rephrased Samples

300 shaares

Filters

Links per page

20 50 100

Rethinking Benchmark and Contamination for Language Models with Rephrased Samples

Une étude qui montre comment un LLM moyen peut égaler GPT-4 dans les benchmarks de façon artificielle, en entraînant le modèle avec des données proches du benchmark de test.

D'une manière général, cela soulève la question de la "triche" dans le monde de la recherche et de comment la détecter

text-ai

December 6, 2023 at 12:25:17 UTC * · permalink

https://arxiv.org/pdf/2311.04850.pdf

Filters

Links per page

20 50 100