{"id":487,"date":"2026-03-16T12:40:27","date_gmt":"2026-03-16T12:40:27","guid":{"rendered":"https:\/\/laeka.org\/publications\/humain-rlhf-maillon-faible-remplace-structure\/"},"modified":"2026-03-16T12:40:27","modified_gmt":"2026-03-16T12:40:27","slug":"humain-rlhf-maillon-faible-remplace-structure","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/humain-rlhf-maillon-faible-remplace-structure\/","title":{"rendered":"L&#8217;humain dans RLHF est le maillon le plus faible. Remplace-le par la structure."},"content":{"rendered":"<p>RLHF fonctionne parce que les humains fournissent des jugements. Mais les humains sont la partie la plus faible du pipeline. Ils sont fatigu\u00e9s, biais\u00e9s, inconsistants et chers. Pouvons-nous remplacer le jugement humain par la structure ?<\/p>\n<p>Pas enti\u00e8rement. Mais nous pouvons r\u00e9duire notre d\u00e9pendance envers lui.<\/p>\n<h2>O\u00f9 les humains \u00e9chouent dans RLHF<\/h2>\n<p>Incoh\u00e9rence : La m\u00eame r\u00e9ponse est marqu\u00e9e \u00ab bonne \u00bb un jour et \u00ab m\u00e9diocre \u00bb le lendemain, selon l&#8217;humeur et le contexte de l&#8217;annotateur.<\/p>\n<p>Biais : Les humains pr\u00e9f\u00e8rent les r\u00e9ponses qui semblent confiantes, qui les flattent, qui correspondent \u00e0 leurs croyances ant\u00e9rieures. L&#8217;exactitude compte moins que le ton.<\/p>\n<p>Fatigue : Apr\u00e8s 100 jugements, la qualit\u00e9 se d\u00e9grade. Les annotateurs arr\u00eatent de d\u00e9lib\u00e9rer et commencent \u00e0 reconna\u00eetre les motifs.<\/p>\n<p>Co\u00fbt : Payer les humains pour juger les r\u00e9ponses ne s&#8217;\u00e9chelonne pas bien. Un dataset de 100k paires n\u00e9cessite des milliers d&#8217;heures d&#8217;annotation humaine.<\/p>\n<h2>L&#8217;alternative structurelle<\/h2>\n<p>Au lieu de demander aux humains de juger directement, d\u00e9finis ce qui ressemble \u00e0 bien structurellement. Construis des rubriques. D\u00e9compose l&#8217;\u00e9valuation en composants. Utilise les contr\u00f4les automatis\u00e9s aux c\u00f4t\u00e9s du jugement humain.<\/p>\n<p>Exemple : Au lieu de \u00ab cette r\u00e9ponse de service client est-elle bonne ? \u00bb, demande : Cette r\u00e9ponse r\u00e9pond-elle \u00e0 la question du client ? Reconna\u00eet-elle sa frustration ? Est-elle grammaticalement correcte ? Est-elle conforme \u00e0 la limite de longueur ? Y a-t-il une prochaine \u00e9tape claire ?<\/p>\n<p>Maintenant l&#8217;\u00e9valuation est 80% structurelle (contr\u00f4les automatis\u00e9s) et 20% jugement humain sur les appels plus difficiles.<\/p>\n<h2>Impl\u00e9mentation pratique<\/h2>\n<p>\u00c9tape 1 : D\u00e9compose la qualit\u00e9. Qu&#8217;est-ce qui rend une r\u00e9ponse bonne dans ton domaine ? Liste 5-10 dimensions.<\/p>\n<p>\u00c9tape 2 : Automatise ce que tu peux. Utilise regex, la recherche s\u00e9mantique, ou les classificateurs simples pour v\u00e9rifier chaque dimension. Cela filtre les d\u00e9faillances \u00e9videntes.<\/p>\n<p>\u00c9tape 3 : Demande aux humains seulement les cas difficiles. Ils \u00e9valuent seulement les r\u00e9ponses qui passent les v\u00e9rifications automatis\u00e9es mais qui sont encore ambigu\u00ebs.<\/p>\n<p>\u00c9tape 4 : Assure la coh\u00e9rence. Tous les humains utilisent la m\u00eame rubrique, les m\u00eames exemples, le m\u00eame contexte. Mesure l&#8217;accord ; supprime les annotateurs inconsistants.<\/p>\n<h2>Pourquoi cela r\u00e9duit le bruit<\/h2>\n<p>L&#8217;\u00e9valuation structurelle est d\u00e9terministe. La m\u00eame r\u00e9ponse obtient le m\u00eame score \u00e0 chaque fois. Les humains fournissent toujours un jugement pour les cas limites, mais leur jugement est ancr\u00e9 dans les crit\u00e8res d\u00e9finis, pas l&#8217;intuition.<\/p>\n<p>Cela r\u00e9duit la variance de ton signal d&#8217;entra\u00eenement. Les mod\u00e8les convergent plus vite. Les r\u00e9sultats sont plus stables.<\/p>\n<h2>Le compromis<\/h2>\n<p>Tu ne peux pas automatiser la beaut\u00e9 ou la brillance subjectives. L&#8217;\u00e9valuation structurelle fonctionne mieux pour les t\u00e2ches sp\u00e9cifiques au domaine avec des crit\u00e8res de succ\u00e8s clairs : support client, r\u00e9daction technique, r\u00e9vision de code.<\/p>\n<p>Pour les t\u00e2ches cr\u00e9atives ouvertes, tu as besoin de plus de jugement humain. Mais m\u00eame l\u00e0, la structure aide. D\u00e9finis ce que \u00ab cr\u00e9atif \u00bb signifie pour toi avant de demander aux humains de le juger.<\/p>\n<p><strong>Laeka Research \u2014 <a href=\"https:\/\/laeka.org\">laeka.org<\/a><\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>RLHF fonctionne parce que les humains fournissent des jugements. Mais les humains sont la partie la plus faible du pipeline. Ils sont fatigu\u00e9s, biais\u00e9s, inconsistants et chers. Pouvons-nous remplacer le jugement humain par la&#8230;<\/p>\n","protected":false},"author":1,"featured_media":163,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[266],"tags":[],"class_list":["post-487","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-dpo-et-alignement"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/487","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=487"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/487\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/163"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=487"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=487"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=487"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}