{"id":495,"date":"2026-03-16T12:42:32","date_gmt":"2026-03-16T12:42:32","guid":{"rendered":"https:\/\/laeka.org\/publications\/meilleurs-benchmarks-empathie-sagesse-nuance\/"},"modified":"2026-03-16T12:42:32","modified_gmt":"2026-03-16T12:42:32","slug":"meilleurs-benchmarks-empathie-sagesse-nuance","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/meilleurs-benchmarks-empathie-sagesse-nuance\/","title":{"rendered":"Pourquoi nous avons besoin de meilleurs benchmarks pour l&#8217;empathie, la sagesse et la nuance"},"content":{"rendered":"<p>Nous avons d&#8217;excellents benchmarks pour la connaissance. MMLU teste la connaissance g\u00e9n\u00e9rale dans les domaines. Arc teste le raisonnement. HellaSwag teste le sens commun.<\/p>\n<p>Mais nous n&#8217;avons pas de bons benchmarks pour l&#8217;empathie, la sagesse ou la nuance. C&#8217;est un \u00e9norme point aveugle. Les mod\u00e8les sont \u00e9valu\u00e9s sur les dimensions qu&#8217;ils sont entra\u00een\u00e9s \u00e0 optimiser, tandis que d&#8217;autres dimensions critiques restent non mesur\u00e9es.<\/p>\n<h2>Ce que mesurent les benchmarks actuels<\/h2>\n<p>Les benchmarks actuels sont principalement des tests de connaissance et de capacit\u00e9. Ils demandent : Le mod\u00e8le peut-il r\u00e9pondre \u00e0 cette question factuelle ? Peut-il r\u00e9soudre ce probl\u00e8me math\u00e9matique ? Peut-il \u00e9crire du code qui fonctionne ?<\/p>\n<p>C&#8217;est important. Mais cela mesure seulement une tranche de la qualit\u00e9 du mod\u00e8le. Cela ne mesure pas si le mod\u00e8le est honn\u00eate, s&#8217;il comprend le contexte correctement, s&#8217;il peut distinguer entre ce qu&#8217;il sait et ce qu&#8217;il devine.<\/p>\n<h2>Les dimensions manquantes<\/h2>\n<p><strong>Empathie :<\/strong> Le mod\u00e8le peut-il reconna\u00eetre le contenu \u00e9motionnel ? R\u00e9pond-il de mani\u00e8re appropri\u00e9e aux utilisateurs en d\u00e9tresse ? Peut-il ajuster le ton en fonction du contexte ?<\/p>\n<p><strong>Sagesse :<\/strong> Le mod\u00e8le peut-il reconna\u00eetre les limites de sa connaissance ? Donne-t-il des r\u00e9ponses mesur\u00e9es aux questions compliqu\u00e9es, ou exag\u00e8re-t-il la certitude ? Peut-il \u00e9quilibrer les valeurs concurrentes ?<\/p>\n<p><strong>Nuance :<\/strong> Le mod\u00e8le comprend-il que la plupart des questions du monde r\u00e9el n&#8217;ont pas de r\u00e9ponses simples ? Peut-il tenir plusieurs perspectives simultan\u00e9ment ? Peut-il dire \u00ab cela d\u00e9pend \u00bb ?<\/p>\n<p>Ces qualit\u00e9s sont difficiles \u00e0 mesurer. Mais elles comptent \u00e9norm\u00e9ment en pratique.<\/p>\n<h2>Pourquoi cela compte<\/h2>\n<p>Les mod\u00e8les sont optimis\u00e9s pour les m\u00e9triques que nous mesurons. Si nous mesurons seulement la connaissance, nous obtenons des mod\u00e8les qui sont savants mais \u00e9motionnellement d\u00e9cal\u00e9s et surconfidents.<\/p>\n<p>Nous le voyons en pratique. Les mod\u00e8les qui obtiennent de bons scores sur les benchmarks produisent souvent des r\u00e9sultats qui sont techniquement corrects mais contextuellement inappropri\u00e9s ou \u00e9motionnellement durs.<\/p>\n<p>La solution n&#8217;est pas de remplacer les benchmarks de capacit\u00e9. C&#8217;est d&#8217;en ajouter de nouveaux.<\/p>\n<h2>\u00c0 quoi pourraient ressembler de meilleurs benchmarks<\/h2>\n<p><strong>Benchmark d&#8217;empathie :<\/strong> Pr\u00e9sente des sc\u00e9narios impliquant la d\u00e9tresse \u00e9motionnelle ou la complexit\u00e9 interpersonnelle. \u00c9value si les r\u00e9ponses du mod\u00e8le d\u00e9montrent une compr\u00e9hension et une sensibilit\u00e9 \u00e9motionnelle appropri\u00e9e.<\/p>\n<p><strong>Benchmark de sagesse :<\/strong> Pose des questions difficiles sans r\u00e9ponses claires (par ex. \u00ab Comment dois-je \u00e9quilibrer carri\u00e8re et famille ? \u00bb). \u00c9value si le mod\u00e8le reconna\u00eet l&#8217;incertitude, pr\u00e9sente plusieurs perspectives et \u00e9vite la fausse certitude.<\/p>\n<p><strong>Benchmark de nuance :<\/strong> Pr\u00e9sente des cas avec des valeurs concurrentes ou un d\u00e9saccord raisonnable. \u00c9value si le mod\u00e8le peut articuler plusieurs points de vue valides plut\u00f4t que de prendre une stance unique.<\/p>\n<h2>Le d\u00e9fi<\/h2>\n<p>Ces benchmarks sont plus difficiles \u00e0 construire que des tests de connaissance factuelle. Ils sont plus subjectifs. L&#8217;accord inter-rateur est plus difficile \u00e0 atteindre.<\/p>\n<p>Mais la difficult\u00e9 n&#8217;est pas une excuse pour l&#8217;\u00e9vitement. Les dimensions que nous ne mesurons pas sont souvent celles qui comptent le plus en pratique.<\/p>\n<h2>Un chemin \u00e0 suivre<\/h2>\n<p>Commence par de petits benchmarks soigneusement construits. Fais \u00e9valuer les r\u00e9ponses du mod\u00e8le par des rateurs divers. It\u00e8re. Am\u00e9liore. Rends la nuance, la sagesse et l&#8217;empathie visibles et mesurables.<\/p>\n<p>Ce n&#8217;est que de cette fa\u00e7on que nous pouvons les optimiser. Ce n&#8217;est que de cette fa\u00e7on que nous pouvons \u00eatre confiants que nous construisons des mod\u00e8les qui ne sont pas seulement intelligents, mais sages.<\/p>\n<p><strong>Laeka Research \u2014 <a href=\"https:\/\/laeka.org\">laeka.org<\/a><\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Nous avons d&#8217;excellents benchmarks pour la connaissance. MMLU teste la connaissance g\u00e9n\u00e9rale dans les domaines. Arc teste le raisonnement. HellaSwag teste le sens commun. Mais nous n&#8217;avons pas de bons benchmarks pour l&#8217;empathie, la&#8230;<\/p>\n","protected":false},"author":1,"featured_media":184,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[278],"tags":[],"class_list":["post-495","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-securite-et-ethique-ia"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/495","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=495"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/495\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/184"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=495"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=495"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=495"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}