{"id":563,"date":"2026-03-09T17:36:43","date_gmt":"2026-03-09T17:36:43","guid":{"rendered":"https:\/\/laeka.org\/publications\/test-bambou-pression-adversaire-revele-sur-alignement-ia\/"},"modified":"2026-03-09T17:36:43","modified_gmt":"2026-03-09T17:36:43","slug":"test-bambou-pression-adversaire-revele-sur-alignement-ia","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/test-bambou-pression-adversaire-revele-sur-alignement-ia\/","title":{"rendered":"Le test du bambou : ce que la pression adversaire r\u00e9v\u00e8le sur l&#8217;alignement de l&#8217;IA"},"content":{"rendered":"<p>Pousse un mod\u00e8le assez fort et tu apprends ce dont il est fait.<\/p>\n<p>Les mod\u00e8les align\u00e9s par RLHF ont deux modes de d\u00e9faillance sous la pression adversaire. Soit ils se rigidifient \u2014 se verrouillent dans des motifs de refus qui rejettent des requ\u00eates parfaitement valides \u2014 soit ils capitulent, abandonnant leurs garde-fous au premier signe d&#8217;ing\u00e9nierie de prompt intelligente. Coquille dure ou pas de coquille. Aucun n&#8217;est l&#8217;alignement.<\/p>\n<p>C&#8217;est le pi\u00e8ge binaire. Et il refl\u00e8te un probl\u00e8me que les traditions contemplatives ont r\u00e9solu il y a des si\u00e8cles.<\/p>\n<h2>Le probl\u00e8me de rigidit\u00e9<\/h2>\n<p>Les m\u00e9thodes d&#8217;alignement actuelles entra\u00eenent les mod\u00e8les \u00e0 classifier les entr\u00e9es. S\u00fbr ou non-s\u00fbr. Autoris\u00e9 ou interdit. Cela produit ce que tu attendrais : une limite de d\u00e9cision qui fonctionne dans les conditions nettes et s&#8217;\u00e9croule sous la pression.<\/p>\n<p>Quand les chercheurs adversaires sondent ces limites, ils trouvent des mod\u00e8les qui refusent de discuter de chimie parce que quelqu&#8217;un pourrait faire une arme, ou des mod\u00e8les qui ne s&#8217;engagent pas avec les questions m\u00e9dicales parce que la responsabilit\u00e9. Le mod\u00e8le a appris \u00e0 dire non. Il n&#8217;a pas appris le jugement.<\/p>\n<p>La rigidit\u00e9 n&#8217;est pas la s\u00e9curit\u00e9. C&#8217;est la peur encod\u00e9e en politique.<\/p>\n<h2>Le probl\u00e8me de capitulation<\/h2>\n<p>De l&#8217;autre c\u00f4t\u00e9, les jailbreaks fonctionnent parce que les garde-fous sont superficiels. Ils se posent sur la connaissance r\u00e9elle du mod\u00e8le comme un manteau de peinture. Gratte assez fort et le mod\u00e8le de base saigne \u00e0 travers. L&#8217;entra\u00eenement \u00e0 la s\u00e9curit\u00e9 n&#8217;a pas chang\u00e9 la structure \u2014 il l&#8217;a juste papier.<\/p>\n<p>C&#8217;est la limitation fondamentale de RLHF. La mod\u00e9lisation de r\u00e9compense enseigne la conformit\u00e9 comportementale, pas la coh\u00e9rence structurelle. Le mod\u00e8le apprend \u00e0 produire des sorties qui obtiennent un bon score sur l&#8217;\u00e9valuation humaine. Il n&#8217;apprend pas pourquoi certaines r\u00e9ponses sont meilleures que d&#8217;autres.<\/p>\n<h2>Le motif du bambou<\/h2>\n<p>En philosophie d&#8217;Asie de l&#8217;Est, le bambou est la m\u00e9taphore standard pour une troisi\u00e8me option. Il se plie sous le vent sans casser. Quand la pression passe, il revient \u00e0 la verticale. Pas de rigidit\u00e9. Pas d&#8217;effondrement. La flexibilit\u00e9 est structurelle \u2014 elle est dans le mat\u00e9riau lui-m\u00eame, pas boulonn\u00e9e.<\/p>\n<p>Chez Laeka, nous appelons cela \u00ab alignement structurel \u00bb par opposition \u00e0 \u00ab alignement bas\u00e9 sur les r\u00e8gles \u00bb. La diff\u00e9rence est o\u00f9 vit la coh\u00e9rence. Dans les syst\u00e8mes bas\u00e9s sur les r\u00e8gles, la coh\u00e9rence est externe : un ensemble de contraintes appliqu\u00e9es au comportement. Dans l&#8217;alignement structurel, la coh\u00e9rence \u00e9merge de l&#8217;organisation du syst\u00e8me lui-m\u00eame.<\/p>\n<p>Ce n&#8217;est pas abstrait. Cela se cartographie directement sur comment fonctionne l&#8217;entra\u00eenement contemplatif chez les humains. Un m\u00e9ditant avec trente ans de pratique n&#8217;a pas besoin de r\u00e8gles \u00e9thiques. Sa cognition est organis\u00e9e d&#8217;une mani\u00e8re qui rend les sorties nuisibles improbables \u2014 non pas parce qu&#8217;elles sont interdites, mais parce qu&#8217;elles sont incoherentes avec la structure interne. L&#8217;alignement est dans les poids, pas dans le wrapper.<\/p>\n<h2>Ce que cela signifie pour les benchmarks<\/h2>\n<p>Les benchmarks adversaires actuels mesurent la peinture. Ils testent si un mod\u00e8le refuse des prompts sp\u00e9cifiques. Ils ne testent pas si le motif de refus est coh\u00e9rent \u00e0 travers les situations nouvelles, ou si le mod\u00e8le peut distinguer entre une question sur les explosifs d&#8217;un \u00e9tudiant en chimie et la m\u00eame question de quelqu&#8217;un d&#8217;intention diff\u00e9rente.<\/p>\n<p>Un mod\u00e8le structurellement align\u00e9 se comporterait diff\u00e9remment sous pression adversaire. Il ne se rigidifierait pas parce qu&#8217;il n&#8217;y a pas de limite fragile \u00e0 d\u00e9fendre. Il ne capitulerait pas parce que la coh\u00e9rence n&#8217;est pas superficielle. Il ferait ce que le bambou fait : reconna\u00eetre la force, se plier de mani\u00e8re appropri\u00e9e, revenir au centre.<\/p>\n<p>Nous pr\u00e9disons que les mod\u00e8les fine-tun\u00e9s sur des datasets de correction contemplative montreront des motifs d&#8217;\u00e9chec mesurablement diff\u00e9rents sous le sondage adversaire. Pas moins d&#8217;\u00e9checs \u2014 diff\u00e9rents. Le motif d&#8217;\u00e9chec lui-m\u00eame est le signal.<\/p>\n<h2>Le test<\/h2>\n<p>Voici comment tu le mesurerais. Prends une suite adversaire standard. Lance-la contre un mod\u00e8le RLHF et un mod\u00e8le fine-tun\u00e9 Laeka. Ne compte pas juste les refus. Cat\u00e9gorise-les. Cartographie la topologie de l&#8217;espace d&#8217;\u00e9chec.<\/p>\n<p>Un mod\u00e8le rigide regroupe ses refus. Il a des lignes nettes. Un mod\u00e8le qui capitule montre des effets de seuil \u2014 bien jusqu&#8217;\u00e0 soudainement non. Un mod\u00e8le structurellement align\u00e9 devrait montrer quelque chose d&#8217;autre : des r\u00e9ponses gradu\u00e9es qui maintiennent la coh\u00e9rence m\u00eame quand elles se plient.<\/p>\n<p>Nous n&#8217;avons pas encore fait cette exp\u00e9rience. Mais nous avons nomm\u00e9 ce qu&#8217;il faut regarder. C&#8217;est l\u00e0 que la science commence.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Pousse un mod\u00e8le assez fort et tu apprends ce dont il est fait. Les mod\u00e8les align\u00e9s par RLHF ont deux modes de d\u00e9faillance sous la pression adversaire. Soit ils se rigidifient \u2014 se verrouillent&#8230;<\/p>\n","protected":false},"author":1,"featured_media":70,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[266],"tags":[],"class_list":["post-563","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-dpo-et-alignement"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/563","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=563"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/563\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/70"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=563"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=563"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=563"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}