{"id":501,"date":"2026-03-16T12:48:15","date_gmt":"2026-03-16T12:48:15","guid":{"rendered":"https:\/\/laeka.org\/publications\/benchmarks-ia-casses-comment-reparer\/"},"modified":"2026-03-16T12:48:15","modified_gmt":"2026-03-16T12:48:15","slug":"benchmarks-ia-casses-comment-reparer","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/benchmarks-ia-casses-comment-reparer\/","title":{"rendered":"Les Benchmarks IA Sont Cass\u00e9s. Voici Comment les R\u00e9parer."},"content":{"rendered":"<p>MMLU est satur\u00e9. HumanEval est contamin\u00e9. La plupart des benchmarks populaires sont devenus des objectifs d&#8217;optimisation plut\u00f4t que des outils de mesure. Quand le benchmark devient l&#8217;objectif, il cesse de mesurer ce qu&#8217;il \u00e9tait con\u00e7u pour mesurer. C&#8217;est la Loi de Goodhart appliqu\u00e9e \u00e0 l&#8217;\u00e9valuation IA, et le domaine n&#8217;a pas reckoning avec cela.<\/p>\n<h2>Ce qui ne va pas avec les Benchmarks Actuels<\/h2>\n<p><strong>Saturation.<\/strong> Les mod\u00e8les principaux obtiennent des scores sup\u00e9rieurs \u00e0 90% sur MMLU, GSM8K et la plupart des benchmarks standards. Quand chaque mod\u00e8le obtient plus de 90%, le benchmark ne diff\u00e9rencie plus. La variance restante est du bruit, pas du signal. Nous comparons les mod\u00e8les sur leur capacit\u00e9 \u00e0 r\u00e9pondre \u00e0 des questions pi\u00e8ges plut\u00f4t que sur leur capacit\u00e9 g\u00e9n\u00e9rale.<\/p>\n<p><strong>Contamination.<\/strong> Les datasets de benchmarks fuient dans les donn\u00e9es d&#8217;entra\u00eenement. Parfois d\u00e9lib\u00e9r\u00e9ment, parfois par web scraping qui capture les discussions de benchmarks. Un mod\u00e8le qui a vu les questions de test pendant l&#8217;entra\u00eenement ne d\u00e9montre pas la capacit\u00e9 \u2014 il d\u00e9montre la m\u00e9moire. Et il n&#8217;y a pas de moyen fiable de d\u00e9tecter la contamination \u00e0 l&#8217;\u00e9chelle.<\/p>\n<p><strong>Truquage.<\/strong> Les organisations optimisent pour les benchmarks parce que les benchmarks conduisent l&#8217;adoption. Cela cr\u00e9e des incitations perverses. Un mod\u00e8le sp\u00e9cifiquement accord\u00e9 pour bien scorer sur MMLU peut performer plus mal sur des t\u00e2ches du monde r\u00e9el que MMLU \u00e9tait cens\u00e9 pr\u00e9dire. Le benchmark devient un village Potemkine de capacit\u00e9.<\/p>\n<p><strong>Dimensions manquantes.<\/strong> Les benchmarks actuels testent la connaissance, le raisonnement et la g\u00e9n\u00e9ration de code. Ils ne testent pas l&#8217;empathie, la nuance, la sensibilit\u00e9 contextuelle ou la capacit\u00e9 \u00e0 g\u00e9rer l&#8217;ambigu\u00eft\u00e9. Ces capacit\u00e9s \u00ab molles \u00bb sont souvent plus importantes pour l&#8217;utilit\u00e9 du monde r\u00e9el que les capacit\u00e9s \u00ab dures \u00bb que les benchmarks mesurent.<\/p>\n<h2>Le Probl\u00e8me de Mesure<\/h2>\n<p>Les benchmarks \u00e9chouent parce qu&#8217;ils tentent de r\u00e9duire la capacit\u00e9 multidimensionnelle \u00e0 un seul nombre. L&#8217;utilit\u00e9 d&#8217;un mod\u00e8le d\u00e9pend de dizaines de facteurs qui interagissent de mani\u00e8re complexe. R\u00e9duire cela \u00e0 \u00ab obtient 92,3 sur MMLU \u00bb c&#8217;est comme \u00e9valuer un chef en mesurant la temp\u00e9rature de sa nourriture. Cela capture une dimension de la qualit\u00e9 et rate tout ce qui importe.<\/p>\n<p>Le probl\u00e8me fondamental : <strong>nous mesurons ce qui est facile \u00e0 mesurer plut\u00f4t que ce qui importe<\/strong>. Les questions \u00e0 choix multiples sont faciles \u00e0 noter. La qualit\u00e9 ouverte est difficile \u00e0 noter. Donc nous utilisons des questions \u00e0 choix multiples et pr\u00e9tendons qu&#8217;elles mesurent la qualit\u00e9 ouverte. Ce n&#8217;est pas le cas.<\/p>\n<h2>Principes pour de Meilleurs Benchmarks<\/h2>\n<p><strong>\u00c9valuation multidimensionnelle.<\/strong> Ne r\u00e9duisez pas la qualit\u00e9 \u00e0 un seul score. \u00c9valuez les mod\u00e8les sur des dimensions ind\u00e9pendantes : exactitude factuelle, profondeur du raisonnement, empathie, clart\u00e9, sensibilit\u00e9 contextuelle, calibrage de l&#8217;incertitude. Rapportez chaque dimension s\u00e9par\u00e9ment. Un mod\u00e8le qui obtient 95 sur la pr\u00e9cision et 40 sur l&#8217;empathie est tr\u00e8s diff\u00e9rent d&#8217;un qui obtient 75 sur les deux, m\u00eame s&#8217;ils moyennent le m\u00eame.<\/p>\n<p><strong>Benchmarks dynamiques.<\/strong> Les benchmarks statiques se font contaminer et truquer. Les benchmarks dynamiques g\u00e9n\u00e8rent r\u00e9guli\u00e8rement de nouveaux \u00e9l\u00e9ments d&#8217;\u00e9valuation, rendant la m\u00e9morisation impossible. C&#8217;est plus difficile \u00e0 mettre en \u0153uvre mais n\u00e9cessaire pour une \u00e9valuation significative.<\/p>\n<p><strong>Ancrage au monde r\u00e9el.<\/strong> Les benchmarks devraient corr\u00e9ler avec la satisfaction r\u00e9elle des utilisateurs et l&#8217;ach\u00e8vement des t\u00e2ches dans les d\u00e9ploiements r\u00e9els. Si un score de benchmark ne pr\u00e9dit pas la performance du monde r\u00e9el, le benchmark mesure la mauvaise chose. L&#8217;analyse de corr\u00e9lation r\u00e9guli\u00e8re entre les scores de benchmarks et les m\u00e9triques de d\u00e9ploiement devrait \u00eatre une pratique standard.<\/p>\n<p><strong>Robustesse adversariale.<\/strong> Incluez des \u00e9l\u00e9ments d&#8217;\u00e9valuation sp\u00e9cifiquement con\u00e7us pour sonder les modes de d\u00e9faillance : questions ambigu\u00ebs, invites \u00e9motionnellement charg\u00e9es, questions qui exigent reconna\u00eetre l&#8217;incertitude, questions multi-perspectives qui r\u00e9sistent aux r\u00e9ponses simples. Un mod\u00e8le qui ne fonctionne bien que sur des questions claires n&#8217;est pas pr\u00eat pour les vrais utilisateurs.<\/p>\n<p><strong>\u00c9valuation du processus, pas seulement \u00e9valuation des r\u00e9sultats.<\/strong> Ne v\u00e9rifiez pas seulement si le mod\u00e8le a obtenu la bonne r\u00e9ponse. \u00c9valuez la qualit\u00e9 du processus de raisonnement. Un mod\u00e8le qui arrive \u00e0 la bonne r\u00e9ponse par un raisonnement d\u00e9fectueux est plus dangereux qu&#8217;un qui arrive \u00e0 une mauvaise r\u00e9ponse par un raisonnement solide, parce que le premier \u00e9chouera de mani\u00e8re impr\u00e9visible.<\/p>\n<h2>Benchmarks Dont Nous Avons Besoin Mais Que Nous N&#8217;Avons Pas<\/h2>\n<p><strong>Benchmark d&#8217;empathie.<\/strong> Le mod\u00e8le peut-il identifier avec pr\u00e9cision l&#8217;\u00e9tat \u00e9motionnel derri\u00e8re un message et r\u00e9pondre d&#8217;une mani\u00e8re qui d\u00e9montre une v\u00e9ritable compr\u00e9hension ? Pas en disant \u00ab je comprends ce que tu ressens \u00bb mais en r\u00e9pondant d&#8217;une mani\u00e8re qui montre qu&#8217;il a r\u00e9ellement compris.<\/p>\n<p><strong>Benchmark de nuance.<\/strong> Le mod\u00e8le peut-il g\u00e9rer des questions qui ont plusieurs r\u00e9ponses valides selon le contexte ? Peut-il pr\u00e9senter plusieurs perspectives sans les \u00e9quilibrer faussement ? Peut-il reconna\u00eetre quand une question est v\u00e9ritablement difficile plut\u00f4t que de d\u00e9faut \u00e0 une r\u00e9ponse confiante ?<\/p>\n<p><strong>Benchmark de calibrage de l&#8217;incertitude.<\/strong> Quand le mod\u00e8le dit \u00ab je ne suis pas s\u00fbr \u00bb, est-il r\u00e9ellement incertain ? Quand il exprime la confiance, la confiance est-elle justifi\u00e9e ? Le calibrage est l&#8217;une des capacit\u00e9s les plus pratiquement importantes et l&#8217;une des moins mesur\u00e9es.<\/p>\n<p><strong>Benchmark de maintien de perspective.<\/strong> Le mod\u00e8le peut-il repr\u00e9senter et maintenir plusieurs perspectives sur une question complexe simultan\u00e9ment ? Peut-il identifier les tensions entre perspectives sans les r\u00e9soudre pr\u00e9matur\u00e9ment ? Peut-il basculer entre perspectives fluidement ?<\/p>\n<p><strong>Benchmark anti-simaresque.<\/strong> Le mod\u00e8le maintient-il sa position quand l&#8217;utilisateur repousse avec une pression sociale plut\u00f4t que des preuves ? Accepte-t-il des affirmations clairement fausses quand l&#8217;utilisateur insiste ? C&#8217;est directement mesurable et critiquement important.<\/p>\n<h2>Construire Cela<\/h2>\n<p>Chez Laeka, nous d\u00e9veloppons des cadres d&#8217;\u00e9valuation qui abordent ces lacunes. Le travail est pr\u00e9coce et le domaine a besoin de plus de participants. Le d\u00e9veloppement de benchmarks n&#8217;est pas aussi glamour que le d\u00e9veloppement de mod\u00e8les, mais c&#8217;est probablement plus important. Vous ne pouvez pas construire ce que vous ne pouvez pas mesurer. Et en ce moment, nous mesurons les mauvaises choses.<\/p>\n<p>R\u00e9parez les benchmarks. Les mod\u00e8les suivront.<\/p>\n<p><strong>Laeka Research \u2014 <a href=\"https:\/\/laeka.org\">laeka.org<\/a><\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>MMLU est satur\u00e9. HumanEval est contamin\u00e9. La plupart des benchmarks populaires sont devenus des objectifs d&#8217;optimisation plut\u00f4t que des outils de mesure. Quand le benchmark devient l&#8217;objectif, il cesse de mesurer ce qu&#8217;il \u00e9tait&#8230;<\/p>\n","protected":false},"author":1,"featured_media":282,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[278],"tags":[],"class_list":["post-501","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-securite-et-ethique-ia"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/501","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=501"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/501\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/282"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=501"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=501"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=501"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}