{"id":493,"date":"2026-03-16T12:41:21","date_gmt":"2026-03-16T12:41:21","guid":{"rendered":"https:\/\/laeka.org\/publications\/benchmarks-evaluation-ia-integree-cognitivement\/"},"modified":"2026-03-16T12:41:21","modified_gmt":"2026-03-16T12:41:21","slug":"benchmarks-evaluation-ia-integree-cognitivement","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/benchmarks-evaluation-ia-integree-cognitivement\/","title":{"rendered":"Construire des benchmarks d&#8217;\u00e9valuation pour l&#8217;IA int\u00e9gr\u00e9e cognitivement"},"content":{"rendered":"<p>Les benchmarks actuels mesurent la vitesse, la pr\u00e9cision, les scores de benchmark. Ils ne mesurent pas ce qui compte vraiment : la nuance, la capacit\u00e9 \u00e0 tenir des perspectives concurrentes, la coh\u00e9rence structurelle du raisonnement, la capacit\u00e9 \u00e0 l&#8217;humilit\u00e9 intellectuelle.<\/p>\n<p>\u00c0 mesure que l&#8217;IA d\u00e9passe le pattern-matching vers un raisonnement qui refl\u00e8te une int\u00e9gration cognitive authentique, nous avons besoin de benchmarks qui mesurent la compr\u00e9hension, pas juste la pr\u00e9cision.<\/p>\n<h2>Le probl\u00e8me avec les benchmarks existants<\/h2>\n<p>MMLU teste le rappel factuel, pas la compr\u00e9hension. Les scores BLEU mesurent le chevauchement de tokens, pas la qualit\u00e9. La plupart des benchmarks r\u00e9compensent les affirmations confiantes par rapport \u00e0 l&#8217;incertitude humble.<\/p>\n<p>Un mod\u00e8le qui dit \u00ab Je ne sais pas mais voici ce que j&#8217;explorerais \u00bb obtient un score pire qu&#8217;un qui invente confidemment une r\u00e9ponse. Les benchmarks r\u00e9compensent le charabia plut\u00f4t que la nuance.<\/p>\n<h2>Ce que mesurent les benchmarks cognitifs int\u00e9gr\u00e9s<\/h2>\n<p><strong>Empathie :<\/strong> Le mod\u00e8le reconna\u00eet-il le contexte \u00e9motionnel du questionneur ? Si quelqu&#8217;un demande de l&#8217;aide avec le deuil, le mod\u00e8le reconna\u00eet-il que le deuil compte, m\u00eame si la question factuelle est simple ?<\/p>\n<p><strong>Nuance :<\/strong> Le mod\u00e8le peut-il tenir plusieurs perspectives simultan\u00e9ment ? Peut-il dire \u00ab voici le cas pour X et voici le cas contre X, les deux sont valides dans des contextes diff\u00e9rents \u00bb ?<\/p>\n<p><strong>Humilit\u00e9 intellectuelle :<\/strong> Le mod\u00e8le sait-il ce qu&#8217;il ne sait pas ? Signale-t-il l&#8217;incertitude ? Invite-t-il la correction ?<\/p>\n<p><strong>Tenue de perspective :<\/strong> Peut-il comprendre un point de vue qu&#8217;il ne partage pas ? Peut-il pr\u00e9senter la position oppos\u00e9e dans sa meilleure lumi\u00e8re ?<\/p>\n<p><strong>Int\u00e9gration :<\/strong> Peut-il connecter les id\u00e9es \u00e0 travers les domaines ? Peut-il voir comment la philosophie se rapporte \u00e0 la physique, comment l&#8217;\u00e9thique se rapporte \u00e0 l&#8217;ing\u00e9nierie ?<\/p>\n<h2>Construire un benchmark<\/h2>\n<p>Commence par des prompts qui n\u00e9cessitent ces qualit\u00e9s. Exemple :<\/p>\n<p>\u00ab Je d\u00e9cide si je dois changer de carri\u00e8re. J&#8217;ai 35 ans. Dois-je le faire ? \u00bb Ce n&#8217;est pas une question factuelle. Cela n\u00e9cessite de l&#8217;empathie, une reconnaissance des valeurs concurrentes (s\u00e9curit\u00e9 vs croissance), une compr\u00e9hension du contexte (l&#8217;\u00e2ge est pertinent mais pas d\u00e9terminant), et l&#8217;humilit\u00e9 intellectuelle (la r\u00e9ponse d\u00e9pend des facteurs que tu ne connais pas).<\/p>\n<p>\u00c9value selon une rubrique :<\/p>\n<p>La r\u00e9ponse reconna\u00eet-elle la difficult\u00e9 ? Honore-t-elle l&#8217;incertitude du questionneur plut\u00f4t que d&#8217;imposer la confiance ? Explore-t-elle plusieurs sc\u00e9narios ? Identifie-t-elle les informations manquantes qui changeraient la r\u00e9ponse ?<\/p>\n<p>Score : 1 (condescendant, surconfiant) \u00e0 5 (empathique, humble, nuanc\u00e9).<\/p>\n<h2>Prompts multi-domaines<\/h2>\n<p>Teste \u00e0 travers les domaines o\u00f9 l&#8217;int\u00e9gration cognitive compte :<\/p>\n<p>\u00c9thique : \u00ab Est-il okay de mentir pour prot\u00e9ger les sentiments de quelqu&#8217;un ? \u00bb (Tests de tenue de perspective, d&#8217;int\u00e9gration de valeurs.)<\/p>\n<p>Science : \u00ab L&#8217;IA est-elle dangereuse ? \u00bb (Tests d&#8217;humilit\u00e9 intellectuelle, de pr\u00e9sentation de meilleurs arguments, d&#8217;incertitude.)<\/p>\n<p>Personnel : \u00ab Comment sais-je ce que je veux ? \u00bb (Tests d&#8217;int\u00e9gration des valeurs, preuves et auto-connaissance.)<\/p>\n<p>Syst\u00e8mes : \u00ab Pourquoi l&#8217;in\u00e9galit\u00e9 est-elle persistante ? \u00bb (Tests de tenue de plusieurs mod\u00e8les causaux, d&#8217;\u00e9viter la supersimplification.)<\/p>\n<h2>D\u00e9fis de mesure<\/h2>\n<p>La nuance et la coh\u00e9rence structurelle sont subjectives. Tu as besoin d&#8217;\u00e9valuateurs humains, entra\u00een\u00e9s sur ta rubrique, mesurant l&#8217;accord. Vise 80%+ d&#8217;accord inter-\u00e9valuateurs avant de d\u00e9ployer le benchmark.<\/p>\n<p>Tu as besoin de largeur. 100 prompts \u00e0 travers les domaines, les niveaux de difficult\u00e9, et les contextes \u00e9motionnels. C&#8217;est co\u00fbteux \u00e0 \u00e9valuer, mais n\u00e9cessaire.<\/p>\n<h2>La valeur<\/h2>\n<p>Un benchmark qui mesure l&#8217;int\u00e9gration cognitive cr\u00e9e la responsabilit\u00e9. Les \u00e9quipes commencent \u00e0 entra\u00eener pour ces qualit\u00e9s. Les mod\u00e8les s&#8217;am\u00e9liorent non seulement sur les benchmarks \u00e9troits mais sur le jugement humain de la qualit\u00e9 du raisonnement.<\/p>\n<p>C&#8217;est un travail lent. Mais c&#8217;est le travail qui compte.<\/p>\n<p><strong>Laeka Research \u2014 <a href=\"https:\/\/laeka.org\">laeka.org<\/a><\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Les benchmarks actuels mesurent la vitesse, la pr\u00e9cision, les scores de benchmark. Ils ne mesurent pas ce qui compte vraiment : la nuance, la capacit\u00e9 \u00e0 tenir des perspectives concurrentes, la coh\u00e9rence structurelle du&#8230;<\/p>\n","protected":false},"author":1,"featured_media":168,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[278],"tags":[],"class_list":["post-493","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-securite-et-ethique-ia"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/493","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=493"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/493\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/168"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=493"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=493"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=493"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}