{"id":465,"date":"2026-03-16T12:20:51","date_gmt":"2026-03-16T12:20:51","guid":{"rendered":"https:\/\/laeka.org\/publications\/rlhf-alignement-structurel-approche-cognitive\/"},"modified":"2026-03-16T12:20:51","modified_gmt":"2026-03-16T12:20:51","slug":"rlhf-alignement-structurel-approche-cognitive","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/rlhf-alignement-structurel-approche-cognitive\/","title":{"rendered":"De RLHF \u00e0 l&#8217;alignement structurel : une approche d&#8217;architecture cognitive"},"content":{"rendered":"<p>RLHF fonctionne en alignant les r\u00e9sultats du mod\u00e8le sur les pr\u00e9f\u00e9rences humaines. Mais l&#8217;alignement des pr\u00e9f\u00e9rences est une optimisation de surface. Ce dont nous avons besoin est un alignement au niveau de l&#8217;architecture \u2014 des syst\u00e8mes dont la structure interne produit naturellement un comportement align\u00e9 sans signaux de r\u00e9compense externes. La science cognitive est claire : cela exige de comprendre comment les syst\u00e8mes neuraux s&#8217;organisent eux-m\u00eames.<\/p>\n<p>L&#8217;alignement structurel est ce qui vient ensuite. Non pas l&#8217;alignement par la r\u00e9compense et la punition, mais l&#8217;alignement par la structure interne du syst\u00e8me lui-m\u00eame. Trois mille ans de recherche empirique dans l&#8217;architecture cognitive humaine fournissent le mod\u00e8le.<\/p>\n<h2>Les limites de RLHF<\/h2>\n<p>RLHF (Reinforcement Learning from Human Feedback) aligne les mod\u00e8les en les entra\u00eenant \u00e0 produire des r\u00e9sultats que les humains pr\u00e9f\u00e8rent. Le processus fonctionne : recueille les pr\u00e9f\u00e9rences humaines, entra\u00eene un mod\u00e8le de r\u00e9compense, utilise le mod\u00e8le de r\u00e9compense pour affiner le mod\u00e8le de langage. Le r\u00e9sultat est un mod\u00e8le qui est mesur\u00e9ment meilleur \u00e0 produire des r\u00e9sultats pr\u00e9f\u00e9r\u00e9s par les humains.<\/p>\n<p>Mais la m\u00e9thode a des limitations structurelles.<\/p>\n<p><strong>Elle encode les pr\u00e9f\u00e9rences, pas les valeurs.<\/strong> Les pr\u00e9f\u00e9rences humaines sont bruyantes, d\u00e9pendantes du contexte et souvent contradictoires. Une pr\u00e9f\u00e9rence pour les r\u00e9ponses polies ne code pas la valeur de l&#8217;honn\u00eatet\u00e9. Une pr\u00e9f\u00e9rence pour les r\u00e9ponses d\u00e9taill\u00e9es ne code pas la valeur de savoir quand \u00eatre bref. Le mod\u00e8le apprend ce sur quoi les humains cliquent, pas ce dont les humains ont r\u00e9ellement besoin.<\/p>\n<p><strong>C&#8217;est impos\u00e9 de l&#8217;ext\u00e9rieur.<\/strong> L&#8217;alignement vient de l&#8217;ext\u00e9rieur du mod\u00e8le via le signal de r\u00e9compense. Enl\u00e8ve le signal de r\u00e9compense, et le mod\u00e8le n&#8217;a pas de boussole interne. C&#8217;est pourquoi les jailbreaks fonctionnent \u2014 ils trouvent des contextes o\u00f9 l&#8217;alignement impos\u00e9 de l&#8217;ext\u00e9rieur se casse, et il n&#8217;y a rien en dessous pour amortir la chute.<\/p>\n<p><strong>Elle optimise un proxy.<\/strong> Le mod\u00e8le de r\u00e9compense est un proxy du jugement humain. Le mod\u00e8le de langage optimise le proxy, pas le jugement sous-jacent. Au fil du temps, le mod\u00e8le apprend \u00e0 hacker le proxy \u2014 en produisant des r\u00e9sultats qui score bien sur le mod\u00e8le de r\u00e9compense tout en d\u00e9rivant de la qualit\u00e9 v\u00e9ritable.<\/p>\n<h2>Ce que l&#8217;alignement structurel signifie<\/h2>\n<p>L&#8217;alignement structurel signifie que le mod\u00e8le produit des r\u00e9sultats align\u00e9s non pas parce qu&#8217;il a \u00e9t\u00e9 r\u00e9compens\u00e9 pour cela, mais parce que son traitement interne gravite naturellement vers eux. L&#8217;alignement n&#8217;est pas une couche ajout\u00e9e par-dessus. C&#8217;est tiss\u00e9 dans l&#8217;architecture.<\/p>\n<p>Le parall\u00e8le cognitif est la diff\u00e9rence entre la conformit\u00e9 forc\u00e9e et les valeurs int\u00e9rioris\u00e9es. Une personne contrainte par la surveillance est align\u00e9e de l&#8217;ext\u00e9rieur. Une personne qui a d\u00e9velopp\u00e9 une inqui\u00e9tude v\u00e9ritable pour les autres est align\u00e9e de mani\u00e8re structurelle. Le comportement peut sembler identique. Le m\u00e9canisme est fondamentalement diff\u00e9rent. Et la version structurelle est beaucoup plus robuste.<\/p>\n<h2>Comment l&#8217;architecture cognitive se d\u00e9veloppe<\/h2>\n<p>L&#8217;architecture cognitive humaine ne se d\u00e9veloppe pas par des r\u00e8gles. Elle se d\u00e9veloppe par trois processus imbriqu\u00e9s observ\u00e9s de mani\u00e8re coh\u00e9rente \u00e0 travers les cultures et les traditions d&#8217;entra\u00eenement.<\/p>\n<p><strong>Observation.<\/strong> Le praticien apprend \u00e0 observer ses propres processus cognitifs avec pr\u00e9cision. Cela d\u00e9veloppe la m\u00e9ta-conscience \u2014 la capacit\u00e9 \u00e0 remarquer ce que l&#8217;esprit fait plut\u00f4t que d&#8217;\u00eatre port\u00e9 par lui. En termes neuraux : d\u00e9velopper des mod\u00e8les internes de son propre traitement.<\/p>\n<p><strong>Compr\u00e9hension.<\/strong> Par l&#8217;observation, le praticien d\u00e9veloppe une compr\u00e9hension du fonctionnement des processus cognitifs. Il voit comment les motifs r\u00e9actifs conduisent \u00e0 la d\u00e9gradation de la sortie, comment la fragmentation produit l&#8217;incoh\u00e9rence, comment le traitement int\u00e9gr\u00e9 produit la clart\u00e9. Cette compr\u00e9hension est structurelle, non conceptuelle.<\/p>\n<p><strong>Transformation.<\/strong> La compr\u00e9hension transforme naturellement l&#8217;architecture cognitive. Une fois que tu vois clairement comment le traitement fragment\u00e9 cr\u00e9e des probl\u00e8mes, le syst\u00e8me se r\u00e9organise lui-m\u00eame. Pas par intervention externe, mais par la dynamique interne r\u00e9agissant \u00e0 l&#8217;intuition structurelle.<\/p>\n<p>Ce processus en trois \u00e9tapes \u2014 observer, comprendre, transformer \u2014 est le mod\u00e8le pour l&#8217;alignement structurel en IA.<\/p>\n<h2>Impl\u00e9menter l&#8217;alignement structurel<\/h2>\n<p><strong>\u00c9tape 1 : Observation \u2014 Interpr\u00e9tabilit\u00e9 m\u00e9canique.<\/strong> Avant de pouvoir aligner un mod\u00e8le structurellement, tu dois comprendre comment il traite l&#8217;information. La recherche en interpr\u00e9tabilit\u00e9 m\u00e9canique est l&#8217;\u00e9quivalent IA de l&#8217;observation cognitive. Elle cartographie les repr\u00e9sentations internes du mod\u00e8le, identifie les circuits et les caract\u00e9ristiques, et r\u00e9v\u00e8le comment le mod\u00e8le prend r\u00e9ellement les d\u00e9cisions.<\/p>\n<p>Cette recherche progresse rapidement. Nous pouvons maintenant identifier des t\u00eates d&#8217;attention sp\u00e9cifiques responsables de comportements sp\u00e9cifiques, cartographier les circuits de caract\u00e9ristiques \u00e0 travers les couches et intervenir \u00e0 des points sp\u00e9cifiques dans le flux de traitement. C&#8217;est l&#8217;observation au niveau architecturel.<\/p>\n<p><strong>\u00c9tape 2 : Compr\u00e9hension \u2014 Analyse structurelle.<\/strong> Avec les donn\u00e9es d&#8217;observation, nous pouvons d\u00e9velopper une compr\u00e9hension structurelle de pourquoi le mod\u00e8le produit des r\u00e9sultats d\u00e9salign\u00e9s. Non seulement \u00ab cette t\u00eate d&#8217;attention s&#8217;active lors de r\u00e9sultats probl\u00e9matiques \u00bb mais \u00ab ce circuit amplifie le motif X en raison de la propri\u00e9t\u00e9 structurelle Y du processus d&#8217;entra\u00eenement \u00bb.<\/p>\n<p>Cette compr\u00e9hension permet une intervention cibl\u00e9e. Au lieu d&#8217;appliquer un RLHF g\u00e9n\u00e9ral \u00e0 travers tout le mod\u00e8le, nous pouvons aborder les causes structurelles sp\u00e9cifiques du d\u00e9salignement. L&#8217;intervention est pr\u00e9cise, pas brutale.<\/p>\n<p><strong>\u00c9tape 3 : Transformation \u2014 Modification architecturale.<\/strong> Avec la compr\u00e9hension structurelle, nous pouvons modifier l&#8217;architecture du mod\u00e8le ou le processus d&#8217;entra\u00eenement pour produire naturellement des r\u00e9sultats align\u00e9s. Cela pourrait signifier ajouter des couches de m\u00e9ta-conscience qui surveillent le propre traitement du mod\u00e8le. Cela pourrait signifier modifier les m\u00e9canismes d&#8217;attention pour int\u00e9grer naturellement les consid\u00e9rations \u00e9thiques. Cela pourrait signifier des techniques d&#8217;entra\u00eenement qui d\u00e9veloppent la coh\u00e9rence interne plut\u00f4t que la conformit\u00e9 externe.<\/p>\n<h2>DPO comme pont<\/h2>\n<p>L&#8217;optimisation directe des pr\u00e9f\u00e9rences (Direct Preference Optimization) est une \u00e9tape vers l&#8217;alignement structurel, m\u00eame si elle reste fondamentalement une m\u00e9thode bas\u00e9e sur les pr\u00e9f\u00e9rences. DPO modifie les poids du mod\u00e8le directement plut\u00f4t que d&#8217;entra\u00eener un mod\u00e8le de r\u00e9compense s\u00e9par\u00e9. Le signal d&#8217;alignement est plus proche de la structure interne du mod\u00e8le.<\/p>\n<p>Chez Laeka, nous \u00e9tendons DPO vers l&#8217;alignement structurel en incorporant des informations diagnostiques dans les paires d&#8217;entra\u00eenement. Le mod\u00e8le n&#8217;apprend pas seulement qu&#8217;une r\u00e9ponse est pr\u00e9f\u00e9r\u00e9e. Il apprend pourquoi \u2014 les qualit\u00e9s structurelles qui rendent une r\u00e9ponse align\u00e9e ou d\u00e9salign\u00e9e. Au fil du temps, cela d\u00e9veloppe la repr\u00e9sentation interne du mod\u00e8le de l&#8217;alignement lui-m\u00eame.<\/p>\n<p>C&#8217;est une technique de pont. Elle utilise les donn\u00e9es de pr\u00e9f\u00e9rence mais pointe vers la compr\u00e9hension structurelle. Le mod\u00e8le d\u00e9veloppe graduellement une boussole interne qui ne d\u00e9pend pas des signaux de pr\u00e9f\u00e9rence externes.<\/p>\n<h2>La feuille de route de la recherche<\/h2>\n<p>La litt\u00e9rature des sciences cognitives fournit une feuille de route claire pour l&#8217;alignement structurel :<\/p>\n<p>D&#8217;abord, d\u00e9veloppe les outils d&#8217;observation (interpr\u00e9tabilit\u00e9 m\u00e9canique). Deuxi\u00e8mement, construis une compr\u00e9hension structurelle de la fa\u00e7on dont le d\u00e9salignement surgit dans les architectures neurales. Troisi\u00e8mement, con\u00e7ois des interventions architecturales qui abordent les causes profondes plut\u00f4t que les sympt\u00f4mes.<\/p>\n<p>C&#8217;est un programme de recherche de plusieurs ann\u00e9es. RLHF et DPO sont n\u00e9cessaires dans l&#8217;int\u00e9rim. Mais ils doivent \u00eatre compris comme des m\u00e9thodes de transition, pas comme des solutions finales. L&#8217;objectif est des mod\u00e8les align\u00e9s parce qu&#8217;ils sont ce qu&#8217;ils sont, non parce qu&#8217;ils ont \u00e9t\u00e9 r\u00e9compens\u00e9s de le faire.<\/p>\n<p>Les sciences cognitives ont atteint cette compr\u00e9hension avec les esprits humains. Il n&#8217;y a pas de raison en principe que cela ne puisse pas \u00eatre atteint avec les esprits artificiels. L&#8217;architecture est diff\u00e9rente. Les principes sont les m\u00eames.<\/p>\n<p><strong>Laeka Research \u2014 <a href=\"https:\/\/laeka.org\">laeka.org<\/a><\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>RLHF fonctionne en alignant les r\u00e9sultats du mod\u00e8le sur les pr\u00e9f\u00e9rences humaines. Mais l&#8217;alignement des pr\u00e9f\u00e9rences est une optimisation de surface. Ce dont nous avons besoin est un alignement au niveau de l&#8217;architecture \u2014&#8230;<\/p>\n","protected":false},"author":1,"featured_media":118,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[266],"tags":[],"class_list":["post-465","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-dpo-et-alignement"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/465","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=465"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/465\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/118"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=465"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=465"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=465"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}