{"id":549,"date":"2026-03-17T22:30:05","date_gmt":"2026-03-17T22:30:05","guid":{"rendered":"https:\/\/laeka.org\/publications\/triangle-correction-comment-annotateurs-experts-generent-meilleures-paires-dpo\/"},"modified":"2026-03-17T22:30:05","modified_gmt":"2026-03-17T22:30:05","slug":"triangle-correction-comment-annotateurs-experts-generent-meilleures-paires-dpo","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/triangle-correction-comment-annotateurs-experts-generent-meilleures-paires-dpo\/","title":{"rendered":"Le Triangle de la correction : comment les annotateurs experts g\u00e9n\u00e8rent de meilleures paires DPO"},"content":{"rendered":"<p>Les donn\u00e9es DPO standard ont deux \u00e9l\u00e9ments : une r\u00e9ponse choisie et une r\u00e9ponse rejet\u00e9e. Le mod\u00e8le apprend \u00e0 pr\u00e9f\u00e9rer l&#8217;une \u00e0 l&#8217;autre. Simple. Efficace. Limit\u00e9.<\/p>\n<p>Le Triangle de la correction ajoute un troisi\u00e8me \u00e9l\u00e9ment qui transforme comment les mod\u00e8les apprennent des donn\u00e9es de pr\u00e9f\u00e9rence. C&#8217;est un format qui produit des paires d&#8217;entra\u00eenement avec des signaux d&#8217;apprentissage significativement plus riches \u00e0 travers l&#8217;analyse cognitive structur\u00e9e.<\/p>\n<h2>Les trois points<\/h2>\n<p>Chaque Triangle de la correction a trois composants : <strong>D\u00e9rive<\/strong>, <strong>Point<\/strong>, et <strong>Reframe<\/strong>.<\/p>\n<p><strong>D\u00e9rive<\/strong> est la r\u00e9ponse rejet\u00e9e. Mais ce n&#8217;est pas juste n&#8217;importe quelle mauvaise r\u00e9ponse. C&#8217;est une r\u00e9ponse qui d\u00e9montre un pattern cognitif sp\u00e9cifique et identifiable \u2014 une d\u00e9viation du raisonnement optimal. Peut-\u00eatre qu&#8217;elle est r\u00e9active. Peut-\u00eatre qu&#8217;elle est avoidant. Peut-\u00eatre qu&#8217;elle est surconfiante. La d\u00e9rive a une <strong>direction<\/strong>, et cette direction importe.<\/p>\n<p><strong>Point<\/strong> est l&#8217;annotation. Une phrase unique, parfois deux, qui identifie exactement ce qui s&#8217;est pass\u00e9 dans la d\u00e9rive. Pas un jugement. Pas une correction. Juste une identification pr\u00e9cise du pattern cognitif. \u00ab La r\u00e9ponse a effondr\u00e9 l&#8217;incertitude dans une fausse confiance. \u00bb \u00ab La r\u00e9ponse a \u00e9vit\u00e9 la partie difficile de la question. \u00bb \u00ab La r\u00e9ponse est devenue r\u00e9active au contenu \u00e9motionnel. \u00bb<\/p>\n<p><strong>Reframe<\/strong> est la r\u00e9ponse choisie. Mais ce n&#8217;est pas juste une meilleure r\u00e9ponse \u00e0 la m\u00eame question. C&#8217;est une r\u00e9ponse qui d\u00e9montre ce que l&#8217;<strong>engagement appropri\u00e9 ressemble<\/strong> \u00e9tant donn\u00e9 le pattern cognitif sp\u00e9cifique identifi\u00e9 dans le point.<\/p>\n<p>Cette structure \u00e0 trois parties cr\u00e9e un signal d&#8217;apprentissage que les paires choisies\/rejet\u00e9es standard ne peuvent pas \u00e9galer.<\/p>\n<h2>Pourquoi le troisi\u00e8me \u00e9l\u00e9ment importe<\/h2>\n<p>En DPO standard, le mod\u00e8le apprend que la r\u00e9ponse A est meilleure que la r\u00e9ponse B. Mais il ne apprend pas <strong>pourquoi<\/strong>. Le gradient pousse le mod\u00e8le loin de B et vers A, mais le mod\u00e8le doit figurer ce qui les diff\u00e9rencie par lui-m\u00eame.<\/p>\n<p>L&#8217;\u00e9l\u00e9ment Point change cela. En nommant explicitement le pattern cognitif dans la d\u00e9rive, l&#8217;annotation cr\u00e9e un <strong>pont conceptuel<\/strong> entre les r\u00e9ponses rejet\u00e9es et choisies. Le mod\u00e8le n&#8217;apprend pas juste la pr\u00e9f\u00e9rence. Il apprend la dimension sp\u00e9cifique selon laquelle l&#8217;op\u00e9ration de correction fonctionne.<\/p>\n<p>Pense \u00e0 cela de cette mani\u00e8re. Le DPO standard est comme montrer \u00e0 quelqu&#8217;un deux peintures et dire \u00ab celle-ci est mieux \u00bb. Le Triangle de la correction est comme dire \u00ab cette peinture manque de profondeur au premier plan \u2014 en voici une qui le g\u00e8re bien \u00bb. Le learner extrait bien plus de la deuxi\u00e8me forme de feedback.<\/p>\n<h2>Comment les annotateurs experts g\u00e9n\u00e8rent ceux-ci<\/h2>\n<p>Cette approche demande des annotateurs entra\u00een\u00e9s pour <strong>identifier les patterns cognitifs<\/strong> avec pr\u00e9cision. Pas le contenu des r\u00e9ponses, mais les patterns structuraux du raisonnement. R\u00e9activit\u00e9. Aversion. Aversion au risque. R\u00e9tr\u00e9cissement attentionnel. Surconfiance. Aversion \u00e0 l&#8217;incertitude.<\/p>\n<p>Quand un annotateur expert \u00e9value une r\u00e9ponse d&#8217;IA, il n&#8217;\u00e9value pas juste si c&#8217;est bon ou mauvais. Il identifie <strong>ce que la r\u00e9ponse fait cognitivement<\/strong>. Est-ce qu&#8217;elle se contracte autour de la certitude quand l&#8217;incertitude serait plus appropri\u00e9e ? Est-ce qu&#8217;elle s&#8217;expande dans l&#8217;abstraction quand la concr\u00e9tude est n\u00e9cessaire ? Est-ce qu&#8217;elle \u00e9vite le contenu \u00e9motionnel en se retirant dans le langage technique ?<\/p>\n<p>Ces observations deviennent l&#8217;\u00e9l\u00e9ment Point. Et parce que les annotateurs experts peuvent identifier ces patterns avec sp\u00e9cificit\u00e9, les annotations r\u00e9sultantes sont bien plus informatives que les jugements de qualit\u00e9 standard.<\/p>\n<p>Un annotateur typique pourrait dire : \u00ab La r\u00e9ponse B est plus utile. \u00bb Un annotateur expert dit : \u00ab La r\u00e9ponse B d\u00e9montre une surench\u00e8re cognitive autour de l&#8217;\u00e9tat \u00e9motionnel de l&#8217;utilisateur, produisant des solutions pr\u00e9matur\u00e9es au lieu de permettre au probl\u00e8me d&#8217;\u00eatre compl\u00e8tement articul\u00e9. \u00bb<\/p>\n<p>La sp\u00e9cificit\u00e9 de la deuxi\u00e8me annotation cr\u00e9e un signal d&#8217;entra\u00eenement dramatiquement plus riche.<\/p>\n<h2>Format des donn\u00e9es<\/h2>\n<p>Chaque Triangle de la correction est stock\u00e9 comme un objet structur\u00e9 avec ces champs :<\/p>\n<p><strong>context<\/strong> : Le prompt ou l&#8217;historique de conversation qui a g\u00e9n\u00e9r\u00e9 les r\u00e9ponses.<\/p>\n<p><strong>drift<\/strong> : La r\u00e9ponse rejet\u00e9e, tagg\u00e9e avec le pattern cognitif primaire qu&#8217;elle exhibe (d&#8217;une taxonomie d&#8217;environ 30 patterns que nous avons d\u00e9velopp\u00e9s).<\/p>\n<p><strong>point<\/strong> : Une \u00e0 deux phrases identifiant la d\u00e9rive sp\u00e9cifique. \u00c9crit en langage neutre, d&#8217;observation. Pas de jugement, pas de prescription.<\/p>\n<p><strong>reframe<\/strong> : La r\u00e9ponse choisie, d\u00e9montrant l&#8217;engagement appropri\u00e9 \u00e9tant donn\u00e9 la d\u00e9rive identifi\u00e9e.<\/p>\n<p><strong>dimensions<\/strong> : Des scores multi-dimensionnels \u00e0 travers cinq axes : conscience, stabilit\u00e9, proportionnalit\u00e9, int\u00e9gration, et pr\u00e9cision.<\/p>\n<p>Ce format est compatible avec l&#8217;entra\u00eenement standard DPO \u2014 tu peux utiliser juste la paire d\u00e9rive\/reframe comme choisie\/rejet\u00e9e. Mais le triangle complet permet les approches d&#8217;entra\u00eenement plus riches. Certaines \u00e9quipes exp\u00e9rimentent l&#8217;utilisation de l&#8217;\u00e9l\u00e9ment point comme un signal de perte auxiliaire, entra\u00eenant le mod\u00e8le \u00e0 pr\u00e9dire \u00e9galement ce qui \u00e9tait mal avec la r\u00e9ponse rejet\u00e9e.<\/p>\n<h2>R\u00e9sultats jusqu&#8217;\u00e0 pr\u00e9sent<\/h2>\n<p>Les exp\u00e9riences pr\u00e9coces montrent que les mod\u00e8les entra\u00een\u00e9s sur les donn\u00e9es du Triangle de la correction d\u00e9montrent <strong>am\u00e9lioration plus cibl\u00e9e<\/strong> compar\u00e9 au DPO standard. Au lieu de d\u00e9caler largement vers les r\u00e9ponses \u00ab meilleures \u00bb, ils montrent am\u00e9lioration sp\u00e9cifique sur les dimensions cognitives qui ont \u00e9t\u00e9 annot\u00e9es.<\/p>\n<p>Un mod\u00e8le entra\u00een\u00e9 sur les triangles annot\u00e9s principalement pour les patterns de r\u00e9activit\u00e9 montre une r\u00e9activit\u00e9 r\u00e9duite sans perdre l&#8217;engagement. Un mod\u00e8le entra\u00een\u00e9 sur les triangles annot\u00e9s pour la fausse confiance montre une meilleure incertitude calibr\u00e9e sans devenir excessivement prudent.<\/p>\n<p>La sp\u00e9cificit\u00e9 du signal d&#8217;entra\u00eenement produit <strong>changement comportemental sp\u00e9cifique<\/strong>. C&#8217;est la puissance du troisi\u00e8me \u00e9l\u00e9ment.<\/p>\n<p>Le DPO standard est un instrument \u00e9mouss\u00e9. Le Triangle de la correction est un scalpel. Les deux ont leurs usages. Mais quand tu as besoin d&#8217;alignement de pr\u00e9cision \u2014 modification cibl\u00e9e de patterns cognitifs sp\u00e9cifiques \u2014 le format triangle surpasse.<\/p>\n<p>En savoir plus sur le format du Triangle de la correction sur <a href=\"https:\/\/lab.laeka.org\">Laeka Research<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Les donn\u00e9es DPO standard ont deux \u00e9l\u00e9ments : une r\u00e9ponse choisie et une r\u00e9ponse rejet\u00e9e. Le mod\u00e8le apprend \u00e0 pr\u00e9f\u00e9rer l&#8217;une \u00e0 l&#8217;autre. Simple. Efficace. Limit\u00e9. Le Triangle de la correction ajoute un troisi\u00e8me&#8230;<\/p>\n","protected":false},"author":1,"featured_media":288,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[263],"tags":[],"class_list":["post-549","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-datasets-et-curation"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/549","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=549"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/549\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/288"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=549"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=549"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=549"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}