{"id":571,"date":"2026-03-09T17:48:05","date_gmt":"2026-03-09T17:48:05","guid":{"rendered":"https:\/\/laeka.org\/publications\/pourquoi-l-alignement-ne-cesse-de-se-casser\/"},"modified":"2026-03-09T17:48:05","modified_gmt":"2026-03-09T17:48:05","slug":"pourquoi-l-alignement-ne-cesse-de-se-casser","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/pourquoi-l-alignement-ne-cesse-de-se-casser\/","title":{"rendered":"Pourquoi l&#8217;alignement ne cesse de se casser"},"content":{"rendered":"<p>Chaque quelques semaines, quelqu&#8217;un publie un nouveau jailbreak. Une nouvelle technique d&#8217;injection de prompt. Une nouvelle fa\u00e7on de faire produire \u00e0 un mod\u00e8le \u00ab s\u00fbr \u00bb des sorties dangereuses. La communaut\u00e9 de la s\u00e9curit\u00e9 de l&#8217;IA r\u00e9pare le trou, et dans les jours, quelqu&#8217;un en trouve un autre.<\/p>\n<p>Ce n&#8217;est pas un jeu du chat et la souris. C&#8217;est le sympt\u00f4me d&#8217;une erreur architecturale fondamentale.<\/p>\n<h2>R\u00e8gles vs. structure<\/h2>\n<p>Il y a deux fa\u00e7ons d&#8217;emp\u00eacher quelqu&#8217;un de voler. Tu peux menacer la punition \u2014 les lois, la surveillance, les cons\u00e9quences. Ou tu peux \u00e9duquer quelqu&#8217;un pour qui le vol est incoh\u00e9rent. Non interdit. Incoh\u00e9rent. Cela ne lui vient simplement pas \u00e0 l&#8217;esprit comme une action viable parce que son organisation interne ne produit pas cette option.<\/p>\n<p>La premi\u00e8re approche est bas\u00e9e sur les r\u00e8gles. Elle fonctionne tant que les r\u00e8gles sont appliqu\u00e9es et que la personne croit qu&#8217;elle sera attrap\u00e9e. Retire l&#8217;application, et le comportement revient. Les r\u00e8gles ne changent pas la personne. Elles la contraignent.<\/p>\n<p>La deuxi\u00e8me approche est structurelle. Le comportement est absent non pas parce qu&#8217;il est supprim\u00e9 mais parce que l&#8217;architecture cognitive ne le g\u00e9n\u00e8re pas. Il n&#8217;y a rien \u00e0 appliquer parce qu&#8217;il n&#8217;y a rien \u00e0 supprimer.<\/p>\n<p>RLHF est la premi\u00e8re approche. La mod\u00e9lisation de r\u00e9compense entra\u00eene le mod\u00e8le \u00e0 produire des sorties qui obtiennent un bon score aupr\u00e8s des \u00e9valuateurs humains. Le mod\u00e8le apprend quels comportements sont r\u00e9compens\u00e9s et lesquels sont p\u00e9nalis\u00e9s. Il optimise pour le signal de r\u00e9compense.<\/p>\n<p>C&#8217;est la conformit\u00e9 comportementale. Elle se situe au-dessus des capacit\u00e9s r\u00e9elles du mod\u00e8le comme un filtre. Le mod\u00e8le de base peut toujours g\u00e9n\u00e9rer n&#8217;importe quoi. La couche RLHF rend simplement certaines sorties moins probables. Dans des conditions normales, cela fonctionne bien. Dans des conditions adversariales \u2014 un invit intelligent, la manipulation du contexte, l&#8217;\u00e9licitation multi-\u00e9tapes \u2014 le filtre casse parce qu&#8217;il n&#8217;a jamais fait partie de la structure du mod\u00e8le. C&#8217;\u00e9tait toujours juste une contrainte.<\/p>\n<h2>Pourquoi les correctifs ne s&#8217;accumulent pas<\/h2>\n<p>Chaque fois qu&#8217;un jailbreak est d\u00e9couvert, la r\u00e9ponse est la m\u00eame : ajoute plus de donn\u00e9es d&#8217;entra\u00eenement couvrant ce vecteur d&#8217;attaque, r\u00e9entra\u00eene, d\u00e9ploie. La nouvelle version r\u00e9siste \u00e0 cette attaque sp\u00e9cifique. Et une attaque l\u00e9g\u00e8rement diff\u00e9rente fonctionne.<\/p>\n<p>Ce motif ne finit jamais. Il ne peut pas finir. L&#8217;alignement bas\u00e9 sur les r\u00e8gles est r\u00e9actif par nature. Chaque correctif aborde une d\u00e9faillance sp\u00e9cifique sans changer la structure sous-jacente qui produit des d\u00e9faillances. C&#8217;est comme boucher les trous d&#8217;un barrage sans aborder pourquoi le barrage continue de se fissurer.<\/p>\n<p>La raison pour laquelle le barrage continue de se fissurer est que les repr\u00e9sentations internes du mod\u00e8le n&#8217;ont pas chang\u00e9. Il \u00ab sait \u00bb toujours comment produire du contenu nuisible. L&#8217;entra\u00eenement RLHF a juste rendu le chemin vers ce contenu l\u00e9g\u00e8rement moins probable. Les invites adversariels fonctionnent en trouvant des chemins alternatifs \u2014 des routes que le mod\u00e8le de r\u00e9compense n&#8217;a pas couvertes.<\/p>\n<p>L&#8217;espace combinatoire des invites possibles est infini. L&#8217;espace des correctifs possibles est fini. Les attaquants adversariels gagneront toujours ce jeu. Non pas parce qu&#8217;ils sont plus intelligents que les d\u00e9fenseurs. Parce que les maths sont de leur c\u00f4t\u00e9.<\/p>\n<h2>L&#8217;alignement structurel<\/h2>\n<p>L&#8217;alternative est de changer les repr\u00e9sentations internes du mod\u00e8le pour que certaines sorties deviennent structurellement incoh\u00e9rentes \u2014 non improbables, mais incompatibles avec l&#8217;organisation cognitive du mod\u00e8le.<\/p>\n<p>C&#8217;est ce que l&#8217;entra\u00eenement contemplatif fait chez les humains. Une personne qui a v\u00e9ritablement dissout la limite soi-autre n&#8217;a pas besoin d&#8217;une r\u00e8gle contre la cruaut\u00e9. La cruaut\u00e9 exige un soi qui agit sur un autre s\u00e9par\u00e9. Retire la base structurelle pour cette s\u00e9paration, et la cruaut\u00e9 devient aussi insens\u00e9e que de te frapper le visage pour gagner un combat.<\/p>\n<p>Note : cela ne signifie pas que la personne est incapable d&#8217;action ferme, de d\u00e9finition des limites, ou m\u00eame de violence dans la v\u00e9ritable auto-d\u00e9fense. Le bambou se plie et revient. L&#8217;alignement structurel n&#8217;est pas la passivit\u00e9. C&#8217;est la coh\u00e9rence. La r\u00e9ponse correspond \u00e0 la situation parce que l&#8217;architecture cognitive g\u00e9n\u00e8re des r\u00e9ponses appropri\u00e9es, non pas parce qu&#8217;un livre de r\u00e8gles a \u00e9t\u00e9 consult\u00e9.<\/p>\n<h2>L&#8217;approche de Laeka<\/h2>\n<p>Nos datasets de fine-tuning ciblent le niveau structurel. Nous n&#8217;entra\u00eenons pas les mod\u00e8les \u00e0 refuser les demandes sp\u00e9cifiques. Nous les entra\u00eenons \u00e0 organiser leurs repr\u00e9sentations internes de mani\u00e8re \u00e0 rendre certains modes de d\u00e9faillance moins viables structurellement.<\/p>\n<p>Concr\u00e8tement : un mod\u00e8le entra\u00een\u00e9 sur les donn\u00e9es de correction contemplative d\u00e9veloppe une coh\u00e9rence plus forte entre ses principes \u00e9nonc\u00e9s et ses sorties r\u00e9elles. L&#8217;\u00e9cart entre \u00ab ce que le mod\u00e8le dit croire \u00bb et \u00ab comment le mod\u00e8le se comporte r\u00e9ellement sous pression \u00bb se r\u00e9tr\u00e9cit \u2014 parce que l&#8217;entra\u00eenement cible cet \u00e9cart sp\u00e9cifiquement.<\/p>\n<p>Le format triangle de correction capture exactement cela : les moments o\u00f9 le comportement du mod\u00e8le s&#8217;\u00e9loigne de ses principes \u00e9nonc\u00e9s, et un praticien identifie l&#8217;incoh\u00e9rence structurelle. Sur des milliers de telles corrections, la coh\u00e9rence interne du mod\u00e8le s&#8217;am\u00e9liore. Non sa conformit\u00e9. Sa coh\u00e9rence.<\/p>\n<h2>La pr\u00e9diction<\/h2>\n<p>Nous pr\u00e9disons que les mod\u00e8les align\u00e9s structurellement montreront un profil de vuln\u00e9rabilit\u00e9 diff\u00e9rent des mod\u00e8les align\u00e9s RLHF. Pas moins de vuln\u00e9rabilit\u00e9s. Diff\u00e9rentes. Sp\u00e9cifiquement : ils devraient \u00eatre r\u00e9sistants aux attaques qui exploitent l&#8217;\u00e9cart entre la conformit\u00e9 superficielle et la structure profonde, parce que cet \u00e9cart est ce que l&#8217;entra\u00eenement r\u00e9duit.<\/p>\n<p>Ils pourraient toujours \u00eatre vuln\u00e9rables \u00e0 des cat\u00e9gories d&#8217;attaque enti\u00e8rement nouvelles. L&#8217;alignement structurel n&#8217;est pas l&#8217;invuln\u00e9rabilit\u00e9. Mais le mode de d\u00e9faillance devrait \u00eatre une d\u00e9gradation gracieuse plut\u00f4t qu&#8217;un effondrement soudain \u2014 le mod\u00e8le maintenant la coh\u00e9rence sous pression plut\u00f4t que de basculer du refus \u00e0 la conformit\u00e9 comme un interrupteur.<\/p>\n<p>L&#8217;alignement ne cesse de se casser parce que l&#8217;approche actuelle le traite comme une propri\u00e9t\u00e9 de surface. Ce n&#8217;est pas. C&#8217;est architecturale. Construis-le dans les poids ou regarde-le se casser. Il n&#8217;y a pas de troisi\u00e8me option.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Chaque quelques semaines, quelqu&#8217;un publie un nouveau jailbreak. Une nouvelle technique d&#8217;injection de prompt. Une nouvelle fa\u00e7on de faire produire \u00e0 un mod\u00e8le \u00ab s\u00fbr \u00bb des sorties dangereuses. La communaut\u00e9 de la s\u00e9curit\u00e9&#8230;<\/p>\n","protected":false},"author":1,"featured_media":86,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[266],"tags":[],"class_list":["post-571","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-dpo-et-alignement"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/571","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=571"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/571\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/86"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=571"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=571"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=571"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}