{"id":538,"date":"2026-03-21T17:15:30","date_gmt":"2026-03-21T17:15:30","guid":{"rendered":"https:\/\/laeka.org\/publications\/comment-evaluer-modeles-ouverts-benchmarks-importent\/"},"modified":"2026-03-21T17:15:30","modified_gmt":"2026-03-21T17:15:30","slug":"comment-evaluer-modeles-ouverts-benchmarks-importent","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/comment-evaluer-modeles-ouverts-benchmarks-importent\/","title":{"rendered":"Comment \u00e9valuer les mod\u00e8les ouverts : les benchmarks qui importent"},"content":{"rendered":"<p>Chaque sortie de mod\u00e8le vient avec les scores de benchmark. MMLU, HumanEval, GSM8K, HellaSwag \u2014 la soupe alphab\u00e9tique d&#8217;\u00e9valuation. Mais quels benchmarks pr\u00e9disent vraiment la performance du monde r\u00e9el ? Et lesquels sont autant gam\u00e9s qu&#8217;ils sont devenus insignifiants ? Conna\u00eetre la diff\u00e9rence te sauve de d\u00e9ployer les mod\u00e8les qui regardent bien sur le papier et \u00e9chouent en production.<\/p>\n<h2>Les benchmarks core qui valent la peine d&#8217;\u00eatre surveill\u00e9s<\/h2>\n<p><strong>MMLU (Massive Multitask Language Understanding)<\/strong> teste la connaissance large sur 57 sujets. Cela reste utile comme une jauge brute de la connaissance g\u00e9n\u00e9rale, bien que les scores au-dessus de 80% deviennent de plus en plus non fiables d\u00fb \u00e0 la contamination de donn\u00e9es. La variante MMLU-Pro ajoute des questions plus difficiles et des options \u00e0 choix multiple pour r\u00e9duire le gaming.<\/p>\n<p><strong>HumanEval et MBPP<\/strong> mesurent la capacit\u00e9 de g\u00e9n\u00e9ration de code. HumanEval demande aux mod\u00e8les d&#8217;\u00e9crire des fonctions Python \u00e0 partir de docstrings. MBPP teste des probl\u00e8mes de programmation plus simples. Ceux-ci correspondent bien avec l&#8217;utilit\u00e9 r\u00e9elle de coding, bien qu&#8217;ils testent seulement Python et des probl\u00e8mes relativement directs. EvalPlus \u00e9tend HumanEval avec des cas de test additionnels qui attrapent les mod\u00e8les qui passent les tests originaux par chance.<\/p>\n<p><strong>GSM8K<\/strong> teste les probl\u00e8mes de mots math grade-\u00e9cole. Malgr\u00e9 le framing simple, cela mesure effectivement le raisonnement multi-\u00e9tapes. Les mod\u00e8les qui scorent bien sur GSM8K tendent \u00e0 g\u00e9rer le raisonnement logique dans d&#8217;autres domaines aussi. MATH \u00e9tend ceci aux math\u00e9matiques au niveau comp\u00e9tition pour les mod\u00e8les poussant la fronti\u00e8re.<\/p>\n<p><strong>MT-Bench<\/strong> utilise GPT-4 comme juge pour \u00e9valuer la qualit\u00e9 de conversation multi-tour. C&#8217;est imparfait \u2014 le juge a ses propres biais \u2014 mais cela capture les aspects de qualit\u00e9 que les m\u00e9triques automatis\u00e9es manquent : la coh\u00e9rence sur les tours, le suivi d&#8217;instructions, et le flux de dialogue naturel.<\/p>\n<h2>Benchmarks pour \u00eatre sceptique<\/h2>\n<p><strong>HellaSwag<\/strong> \u00e9tait autrefois difficile. Maintenant la plupart des mod\u00e8les scorent au-dessus de 85%, comprimant le signal utile dans une bande \u00e9troite. Cela diff\u00e9rencie toujours faible d&#8217;ad\u00e9quat, mais cela te dit rien sur la diff\u00e9rence entre bon et excellent.<\/p>\n<p><strong>ARC (AI2 Reasoning Challenge)<\/strong> souffre du m\u00eame effet de plafond. ARC-Easy et ARC-Challenge ont \u00e9t\u00e9 tous deux satur\u00e9s par les mod\u00e8les actuels. Quand les scores de benchmark se groupent entre 90-95%, les diff\u00e9rences sont dans les marges de bruit.<\/p>\n<p><strong>TruthfulQA<\/strong> avait l&#8217;intention de mesurer l&#8217;honn\u00eatet\u00e9 et l&#8217;exactitude factuelle. En pratique, les mod\u00e8les apprennent les motifs sp\u00e9cifiques de r\u00e9ponses v\u00e9ridiques vs. trompeuses dans le benchmark sans devenir vraiment plus v\u00e9ridiques en g\u00e9n\u00e9ral. Les scores TruthfulQA \u00e9lev\u00e9s ne pr\u00e9disent pas fiablement moins d&#8217;hallucinations dans l&#8217;usage r\u00e9el.<\/p>\n<h2>Le probl\u00e8me de la contamination<\/h2>\n<p>La plus grande menace \u00e0 la validit\u00e9 de benchmark est la <strong>contamination de donn\u00e9es<\/strong>. Quand les questions de benchmark apparaissent dans les donn\u00e9es d&#8217;entra\u00eenement, les mod\u00e8les scorent plus haut sans \u00eatre plus intelligents. Cela arrive plus souvent que la communaut\u00e9 le reconna\u00eet. Les benchmarks populaires se grattent dans les web crawls, qui deviennent inclus dans les sets d&#8217;entra\u00eenement.<\/p>\n<p>Une contamination est accidentelle \u2014 les donn\u00e9es de benchmark \u00e9taient sur internet, et internet est dans le set d&#8217;entra\u00eenement. Une est d\u00e9lib\u00e9r\u00e9e \u2014 les cr\u00e9ateurs de mod\u00e8les incluent les donn\u00e9es adjacentes aux benchmarks pour gonfler les scores. De chaque fa\u00e7on, les scores contamin\u00e9s ne pr\u00e9disent pas la performance du monde r\u00e9el.<\/p>\n<p>La d\u00e9fense contre la contamination est la <strong>cr\u00e9ation continuelle de nouveaux benchmarks<\/strong>. Les ensembles d&#8217;\u00e9valuation priv\u00e9s qui n&#8217;ont jamais \u00e9t\u00e9 publi\u00e9s en ligne, les probl\u00e8mes g\u00e9n\u00e9r\u00e9s dynamiquement, et les plateformes d&#8217;\u00e9valuation en direct o\u00f9 les questions changent r\u00e9guli\u00e8rement. Le syst\u00e8me d&#8217;\u00e9valuation ELO de Chatbot Arena, bas\u00e9 sur les pr\u00e9f\u00e9rences humaines aveugles, est actuellement la plus r\u00e9sistante \u00e0 la contamination.<\/p>\n<h2>Construire ta propre \u00e9valuation<\/h2>\n<p>Les benchmarks publics te disent sur la capacit\u00e9 g\u00e9n\u00e9rale. Ils ne te disent pas si un mod\u00e8le fonctionne pour ton cas d&#8217;usage sp\u00e9cifique. L&#8217;\u00e9valuation la plus importante est celle que tu construis toi-m\u00eame.<\/p>\n<p>Commence avec <strong>50-100 exemples<\/strong> qui repr\u00e9sentent ta charge de travail r\u00e9elle. Les requ\u00eates clients r\u00e9elles, les vrais documents \u00e0 traiter, le vrai code \u00e0 examiner \u2014 quel que soit ton application g\u00e8re. Grade les sorties du mod\u00e8le sur les crit\u00e8res qui importent pour ton cas d&#8217;usage : exactitude, formatage, ton, compl\u00e9tude.<\/p>\n<p>Utilise <strong>LLM-as-judge<\/strong> pour l&#8217;\u00e9valuation scalable. Aie un mod\u00e8le plus fort (ou le m\u00eame mod\u00e8le avec une rubrique d\u00e9taill\u00e9e) score les sorties sur les dimensions sp\u00e9cifiques. Ceci n&#8217;est pas parfait, mais c&#8217;est assez fiable pour comparer les mod\u00e8les et tracker la qualit\u00e9 au fil du temps. La cl\u00e9 est la consistance \u2014 le m\u00eame juge, la m\u00eame rubrique, le m\u00eame test set sur toutes les \u00e9valuations.<\/p>\n<p><strong>A\/B testing avec les vrais utilisateurs<\/strong> est le gold standard quand c&#8217;est faisable. D\u00e9ploie deux mod\u00e8les c\u00f4te \u00e0 c\u00f4te, laisse les utilisateurs interagir avec les deux (sans conna\u00eetre lequel c&#8217;est lequel), et mesure les taux de pr\u00e9f\u00e9rence et la compl\u00e9tude de la t\u00e2che. Ceci capture tout ce que les benchmarks manquent : l&#8217;exp\u00e9rience utilisateur, la qualit\u00e9 per\u00e7ue, et l&#8217;utilit\u00e9 pratique.<\/p>\n<h2>La le\u00e7on m\u00e9ta<\/h2>\n<p>Aucun single benchmark raconte l&#8217;histoire compl\u00e8te. Les mod\u00e8les qui scorent le plus haut sur les benchmarks publics ne sont pas toujours les meilleurs en production. Les mod\u00e8les qui gagnent les classements de Chatbot Arena ne sont pas toujours les plus cost-efficaces. Les mod\u00e8les qui passent ton \u00e9valuation personnalis\u00e9e ne sont pas toujours les plus rapides.<\/p>\n<p>L&#8217;\u00e9valuation de mod\u00e8le efficace est multidimensionnelle. Qualit\u00e9, vitesse, co\u00fbt, s\u00e9curit\u00e9, fiabilit\u00e9 sous charge \u2014 ceux-ci importent tous, et ils se compensent mutuellement. La meilleure strat\u00e9gie d&#8217;\u00e9valuation mesure ce qui importe pour ton contexte sp\u00e9cifique et ignore le reste.<\/p>\n<p>Pour les cadres et outils pour \u00e9valuer les mod\u00e8les ouverts, visite <a href='https:\/\/lab.laeka.org'>Laeka Research<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Chaque sortie de mod\u00e8le vient avec les scores de benchmark. MMLU, HumanEval, GSM8K, HellaSwag \u2014 la soupe alphab\u00e9tique d&#8217;\u00e9valuation. Mais quels benchmarks pr\u00e9disent vraiment la performance du monde r\u00e9el ? Et lesquels sont autant&#8230;<\/p>\n","protected":false},"author":1,"featured_media":266,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[272],"tags":[],"class_list":["post-538","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ia-open-source"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/538","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=538"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/538\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/266"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=538"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=538"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=538"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}