{"id":547,"date":"2026-03-17T21:56:24","date_gmt":"2026-03-17T21:56:24","guid":{"rendered":"https:\/\/laeka.org\/publications\/de-rlhf-a-alignement-structural-approche-architecture-cognitive\/"},"modified":"2026-03-17T21:56:24","modified_gmt":"2026-03-17T21:56:24","slug":"de-rlhf-a-alignement-structural-approche-architecture-cognitive","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/de-rlhf-a-alignement-structural-approche-architecture-cognitive\/","title":{"rendered":"De RLHF \u00e0 l&#8217;alignement structural : Une approche d&#8217;architecture cognitive"},"content":{"rendered":"<p>RLHF a \u00e9t\u00e9 une perc\u00e9e. Cela nous a donn\u00e9 une mani\u00e8re de fa\u00e7onner le comportement du mod\u00e8le en utilisant les pr\u00e9f\u00e9rences humaines. Mais c&#8217;\u00e9tait toujours un patchwork, pas une fondation. Le mod\u00e8le de r\u00e9compense apprend ce que les humains approuvent. Il n&#8217;apprend pas ce que l&#8217;alignement est r\u00e9ellement.<\/p>\n<p>L&#8217;alignement structural est diff\u00e9rent. Il n&#8217;entra\u00eene pas un mod\u00e8le \u00e0 performer l&#8217;alignement. Il entra\u00eene un mod\u00e8le \u00e0 <strong>\u00eatre<\/strong> align\u00e9 \u2014 au niveau de ses repr\u00e9sentations internes, pas juste ses sorties. La litt\u00e9rature sur l&#8217;architecture cognitive montre que c&#8217;est possible.<\/p>\n<p>La diff\u00e9rence importe plus que la plupart des chercheurs le r\u00e9alisent.<\/p>\n<h2>Le plafond de RLHF<\/h2>\n<p>RLHF fonctionne en entra\u00eenant un mod\u00e8le de r\u00e9compense sur les pr\u00e9f\u00e9rences humaines, puis en utilisant ce mod\u00e8le de r\u00e9compense pour affiner le mod\u00e8le de langage \u00e0 travers l&#8217;apprentissage par renforcement. Le mod\u00e8le de langage apprend \u00e0 produire des sorties qui scorent haut sur le mod\u00e8le de r\u00e9compense.<\/p>\n<p>Les probl\u00e8mes sont bien document\u00e9s. Le <strong>reward hacking<\/strong> \u2014 le mod\u00e8le trouve des sorties qui scorent haut sans \u00eatre r\u00e9ellement bonnes. L&#8217;<strong>effondrement de mode<\/strong> \u2014 le mod\u00e8le converge sur une gamme \u00e9troite de r\u00e9ponses s\u00fbres et insipides. La <strong>d\u00e9viation distributionnelle<\/strong> \u2014 le mod\u00e8le de r\u00e9compense a \u00e9t\u00e9 entra\u00een\u00e9 sur une distribution sp\u00e9cifique qui ne correspond pas aux conditions de d\u00e9ploiement.<\/p>\n<p>Mais il y a un probl\u00e8me plus profond qui ne re\u00e7oit pas assez d&#8217;attention. RLHF cr\u00e9e l&#8217;<strong>alignement comportemental<\/strong>. Le mod\u00e8le agit align\u00e9. Il produit des sorties qui ressemblent align\u00e9es. Mais ses repr\u00e9sentations internes n&#8217;ont pas chang\u00e9 d&#8217;une mani\u00e8re significative. L&#8217;alignement est un rev\u00eatement de surface, pas une propri\u00e9t\u00e9 structurale.<\/p>\n<p>C&#8217;est pourquoi les jailbreaks fonctionnent. Le mod\u00e8le sous-jacent n&#8217;a pas \u00e9t\u00e9 modifi\u00e9 structurellement. La couche d&#8217;alignement est assez mince pour \u00eatre contourn\u00e9e avec du clever prompting.<\/p>\n<h2>Ce que la science cognitive r\u00e9v\u00e8le<\/h2>\n<p>La recherche sur la cognition humaine distingue entre la <strong>conformit\u00e9 comportementale<\/strong> et la <strong>transformation authentique<\/strong>. Une personne qui suit les r\u00e8gles sans changement int\u00e9rieur performe la conformit\u00e9. Une personne qui a subi une r\u00e9organisation cognitive authentique n&#8217;a pas besoin de r\u00e8gles \u2014 le comportement appropri\u00e9 \u00e9merge naturellement de son architecture interne chang\u00e9e.<\/p>\n<p>Cette distinction a \u00e9t\u00e9 mapp\u00e9e extensivement en science cognitive et neurosciences. La conformit\u00e9 fonctionne \u00e0 travers l&#8217;application externe. L&#8217;alignement authentique fonctionne \u00e0 travers la structure interne.<\/p>\n<p>RLHF est la conformit\u00e9 comportementale. Il enseigne au mod\u00e8le \u00e0 suivre les r\u00e8gles. L&#8217;alignement structural vise l&#8217;int\u00e9gration cognitive \u2014 transformation interne qui rend les r\u00e8gles largement inutiles.<\/p>\n<h2>DPO comme pont<\/h2>\n<p>Direct Preference Optimization nous a rapproch\u00e9s de l&#8217;alignement structural. En \u00e9liminant le mod\u00e8le de r\u00e9compense et en entra\u00eenant directement sur les paires de pr\u00e9f\u00e9rence, DPO modifie les poids du mod\u00e8le plus directement. Le signal est plus net. Le chemin d&#8217;optimisation est plus court.<\/p>\n<p>Mais le DPO standard utilise toujours des pr\u00e9f\u00e9rences qui encodent les signaux comportementaux. La r\u00e9ponse choisie est \u00ab meilleure \u00bb en termes de pr\u00e9f\u00e9rence humaine. C&#8217;est toujours, fondamentalement, entra\u00eener pour l&#8217;alignement comportemental.<\/p>\n<p>L&#8217;approche d&#8217;architecture cognitive va plus loin. Au lieu de demander \u00ab quelle r\u00e9ponse les humains pr\u00e9f\u00e8rent \u00bb, elle demande \u00ab <strong>quelle r\u00e9ponse d\u00e9montre les propri\u00e9t\u00e9s structurales plus profondes<\/strong> ? \u00bb Des propri\u00e9t\u00e9s comme la sensibilit\u00e9 contextuelle, la r\u00e9ponse proportionn\u00e9e, la non-r\u00e9activit\u00e9, et l&#8217;int\u00e9gration de perspectives multiples.<\/p>\n<p>Ce ne sont pas des comportements de surface. Ce sont des <strong>signatures de l&#8217;alignement structural<\/strong>. Un mod\u00e8le qui d\u00e9montre ces propri\u00e9t\u00e9s de mani\u00e8re consistante ne perform pas l&#8217;alignement. Il exprime l&#8217;alignement qui a \u00e9t\u00e9 encod\u00e9 au niveau des poids.<\/p>\n<h2>Le cadre d&#8217;alignement structural<\/h2>\n<p>L&#8217;alignement structural a trois composants qui le distinguent des approches comportementales.<\/p>\n<p><strong>Entra\u00eenement au niveau de la repr\u00e9sentation.<\/strong> Au lieu d&#8217;optimiser pour la qualit\u00e9 de sortie, optimise pour la qualit\u00e9 des repr\u00e9sentations internes. Cela signifie concevoir les fonctions de perte qui font attention aux activations interm\u00e9diaires, pas juste les sorties finales. Un mod\u00e8le structurellement align\u00e9 devrait montrer des patterns d&#8217;activation diff\u00e9rents qu&#8217;un comportementalement align\u00e9, m\u00eame en produisant du texte identique.<\/p>\n<p><strong>Signaux de pr\u00e9f\u00e9rence multi-dimensionnels.<\/strong> Le DPO standard utilise un axe de pr\u00e9f\u00e9rence unique : mieux vs. pire. L&#8217;alignement structural utilise plusieurs axes simultan\u00e9ment. Une r\u00e9ponse peut \u00eatre pr\u00e9f\u00e9r\u00e9e sur l&#8217;axe d&#8217;int\u00e9gration (d\u00e9montre un raisonnement coh\u00e9rent) tout en \u00e9tant rejet\u00e9e sur l&#8217;axe de pr\u00e9cision (factuellement impr\u00e9cise). Les signaux multi-dimensionnels cr\u00e9ent des paysages de gradient plus riches.<\/p>\n<p><strong>\u00c9valuation orient\u00e9e processus.<\/strong> L&#8217;alignement comportemental \u00e9value les sorties. L&#8217;alignement structural \u00e9value le processus qui a produit la sortie. Deux r\u00e9ponses identiques g\u00e9n\u00e9r\u00e9es \u00e0 travers des processus internes diff\u00e9rents devraient recevoir des \u00e9valuations diff\u00e9rentes. L&#8217;une pourrait d\u00e9monter un raisonnement contextuel authentique ; l&#8217;autre pourrait \u00eatre du pattern-matching \u00e0 un template.<\/p>\n<h2>Impl\u00e9mentation pratique<\/h2>\n<p>Chez Laeka Research, nous impl\u00e9mentons l&#8217;alignement structural \u00e0 travers un pipeline DPO modifi\u00e9. L&#8217;innovation cl\u00e9 est dans comment nous g\u00e9n\u00e9rons et annotons les paires d&#8217;entra\u00eenement.<\/p>\n<p>Chaque paire de pr\u00e9f\u00e9rence est annot\u00e9e le long de <strong>cinq dimensions structurales<\/strong> : profondeur de l&#8217;int\u00e9gration contextuelle, proportionnalit\u00e9 de la r\u00e9ponse, preuve du raisonnement multi-perspective, stabilit\u00e9 sous perturbation, et coh\u00e9rence \u00e0 travers les \u00e9chelles (niveau phrase \u00e0 travers le niveau document).<\/p>\n<p>La r\u00e9ponse choisie n&#8217;est pas simplement celle qui sonne mieux. C&#8217;est celle qui d\u00e9montre les propri\u00e9t\u00e9s structurales plus fortes \u00e0 travers ces dimensions. Parfois la r\u00e9ponse structuralement sup\u00e9rieure est moins fluide ou moins imm\u00e9diatement impressionnante. C&#8217;est bien. Nous optimisons pour la profondeur d&#8217;alignement, pas la qualit\u00e9 de surface.<\/p>\n<p>Les r\u00e9ponses rejet\u00e9es sont soigneusement construites pour \u00eatre <strong>comportementalement bonnes mais structuralement superficielles<\/strong>. Elles semblent align\u00e9es. Elles suivent toutes les r\u00e8gles. Mais elles manquent les marqueurs de profondeur qui indiquent l&#8217;alignement structural authentique. Cela enseigne au mod\u00e8le \u00e0 distinguer entre la performance et la transformation authentique.<\/p>\n<h2>De la conformit\u00e9 comportementale \u00e0 l&#8217;int\u00e9gration structurale<\/h2>\n<p>La transition de RLHF \u00e0 l&#8217;alignement structural refl\u00e8te les d\u00e9couvertes de science cognitive sur comment le changement interne se produit r\u00e9ellement. \u00c0 la fois les approches comportementales et structurales sont des stages n\u00e9cessaires. Tu ne peux pas sauter la conformit\u00e9 pour obtenir l&#8217;int\u00e9gration. L&#8217;alignement comportemental fournit l&#8217;\u00e9chafaudage dans lequel l&#8217;alignement structural se d\u00e9veloppe.<\/p>\n<p>Mais rester au niveau comportemental est un pi\u00e8ge. Il produit des mod\u00e8les qui sont de plus en plus contraints, de plus en plus fragiles, et de plus en plus pr\u00e9visibles. La prochaine g\u00e9n\u00e9ration de mod\u00e8les align\u00e9s ne sera pas celle qui suit les r\u00e8gles le plus soigneusement. Ce seront celles dont la structure interne produit naturellement le comportement align\u00e9.<\/p>\n<p>C&#8217;est l&#8217;approche d&#8217;architecture cognitive \u00e0 l&#8217;alignement. Pas de meilleures r\u00e8gles. <strong>Meilleure structure.<\/strong><\/p>\n<p>Plonge plus profond\u00e9ment dans la recherche sur l&#8217;alignement structural sur <a href=\"https:\/\/lab.laeka.org\">Laeka Research<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>RLHF a \u00e9t\u00e9 une perc\u00e9e. Cela nous a donn\u00e9 une mani\u00e8re de fa\u00e7onner le comportement du mod\u00e8le en utilisant les pr\u00e9f\u00e9rences humaines. Mais c&#8217;\u00e9tait toujours un patchwork, pas une fondation. Le mod\u00e8le de r\u00e9compense&#8230;<\/p>\n","protected":false},"author":1,"featured_media":284,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[266],"tags":[],"class_list":["post-547","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-dpo-et-alignement"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/547","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=547"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/547\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/284"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=547"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=547"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=547"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}