Comment évaluer les modèles ouverts : les benchmarks qui importent
Chaque sortie de modèle vient avec les scores de benchmark. MMLU, HumanEval, GSM8K, HellaSwag — la soupe alphabétique d’évaluation. Mais quels benchmarks prédisent vraiment la performance du monde réel ? Et lesquels sont autant…