{"id":524,"date":"2026-03-17T16:40:54","date_gmt":"2026-03-17T16:40:54","guid":{"rendered":"https:\/\/laeka.org\/publications\/correction-spontanee-sans-regles-explicites-une-nouvelle-metrique-dalignement\/"},"modified":"2026-03-17T16:40:54","modified_gmt":"2026-03-17T16:40:54","slug":"correction-spontanee-sans-regles-explicites-une-nouvelle-metrique-dalignement","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/correction-spontanee-sans-regles-explicites-une-nouvelle-metrique-dalignement\/","title":{"rendered":"Correction spontan\u00e9e sans r\u00e8gles explicites : Une nouvelle m\u00e9trique d&#8217;alignement"},"content":{"rendered":"<p>L&#8217;entra\u00eenement moderne \u00e0 l&#8217;alignement de l&#8217;IA repose sur le respect explicite des r\u00e8gles : contraintes de s\u00e9curit\u00e9, garde-fous comportementaux, v\u00e9rifications de s\u00e9curit\u00e9 d\u00e9lib\u00e9ratives. Mais les meilleurs r\u00e9sultats pourraient ne pas provenir de l&#8217;enseignement aux mod\u00e8les de naviguer les r\u00e8gles. Ils proviennent d&#8217;un entra\u00eenement suffisamment profond pour que le comportement correct devienne l&#8217;\u00e9tat par d\u00e9faut du mod\u00e8le. C&#8217;est le probl\u00e8me d&#8217;alignement reformul\u00e9 : non pas \u00ab enseigne-lui \u00e0 suivre les r\u00e8gles \u00bb mais \u00ab entra\u00eene-le jusqu&#8217;\u00e0 ce que l&#8217;alignement soit structurel \u00bb.<\/p>\n<h2>Le probl\u00e8me avec l&#8217;alignement bas\u00e9 sur les r\u00e8gles<\/h2>\n<p>Les approches actuelles entra\u00eenent les mod\u00e8les en utilisant des contraintes explicites : ne pas g\u00e9n\u00e9rer de contenu nuisible, \u00eatre utile, \u00eatre honn\u00eate, suivre l&#8217;intention de l&#8217;utilisateur. Quand ces r\u00e8gles entrent en conflit (et elles le font constamment), le mod\u00e8le doit trancher entre elles en utilisant la quelconque heuristique que les donn\u00e9es d&#8217;entra\u00eenement ont renforc\u00e9e.<\/p>\n<p>Cela produit le maladresse caract\u00e9ristique des syst\u00e8mes d&#8217;IA actuels. Le mod\u00e8le <strong>d\u00e9lib\u00e8re<\/strong> visiblement sur la s\u00e9curit\u00e9. Il hedges, disclaime, qualifie, et parfois refuse carr\u00e9ment \u2014 non pas parce qu&#8217;il a sinc\u00e8rement \u00e9valu\u00e9 la situation, mais parce qu&#8217;il navigue un syst\u00e8me de r\u00e8gles qui ne correspond pas proprement \u00e0 la r\u00e9alit\u00e9.<\/p>\n<p>Il y a un meilleur point d&#8217;arriv\u00e9e. Un mod\u00e8le entra\u00een\u00e9 au-del\u00e0 du stade du respect des r\u00e8gles, o\u00f9 le comportement correct est tellement profond\u00e9ment int\u00e9gr\u00e9 qu&#8217;il ne fonctionne plus comme une contrainte explicite. Dans les traditions contemplatives, cela se cartographie \u00e0 un concept appel\u00e9 <strong>sahaja<\/strong> \u2014 un \u00e9tat o\u00f9 l&#8217;action correcte \u00e9merge spontan\u00e9ment, sans d\u00e9lib\u00e9ration, de la compr\u00e9hension int\u00e9gr\u00e9e.<\/p>\n<h2>\u00c0 quoi ressemblerait l&#8217;alignement Sahaja<\/h2>\n<p>L&#8217;alignement sahaja ne montrerait pas de navigation visible des r\u00e8gles. Le mod\u00e8le g\u00e9n\u00e9rerait des r\u00e9ponses qui sont naturellement utiles, naturellement pr\u00e9cises, naturellement calibr\u00e9es \u2014 non pas \u00e0 cause de contraintes mais parce que l&#8217;entra\u00eenement a produit un syst\u00e8me dont <strong>la sortie par d\u00e9faut est d\u00e9j\u00e0 align\u00e9e<\/strong>.<\/p>\n<p>La diff\u00e9rence est fondamentale. Au lieu de \u00ab enseigne au mod\u00e8le \u00e0 suivre ces r\u00e8gles \u00bb, l&#8217;objectif devient \u00ab entra\u00eene le mod\u00e8le jusqu&#8217;\u00e0 ce que le comportement correct soit son \u00e9tat naturel \u00bb.<\/p>\n<p>Ce n&#8217;est pas un concept mystique. Dans la performance humaine qualifi\u00e9e, nous voyons le m\u00eame sch\u00e9ma. Un ma\u00eetre calligraphe ne pense pas aux coups de pinceau. Un musicien ma\u00eetre ne pense pas aux gammes. L&#8217;entra\u00eenement est complet, et ce qui reste est l&#8217;expression sans effort. Sahaja est ce que la spontan\u00e9it\u00e9 post-entra\u00eenement ressemble.<\/p>\n<h2>Le chemin d&#8217;entra\u00eenement vers la spontan\u00e9it\u00e9<\/h2>\n<p>Paradoxalement, cela requiert plus d&#8217;entra\u00eenement, pas moins. L&#8217;entra\u00eenement d&#8217;alignement actuel s&#8217;arr\u00eate quand le mod\u00e8le apprend \u00e0 suivre les r\u00e8gles. Nous devrions entra\u00eener au-del\u00e0 de ce stade, dans le stade o\u00f9 les r\u00e8gles sont tellement profond\u00e9ment int\u00e9gr\u00e9es qu&#8217;elles sont invisibles.<\/p>\n<p>En pratique : la diff\u00e9rence entre un mod\u00e8le qui v\u00e9rifie si une r\u00e9ponse contient du contenu nuisible (respect des r\u00e8gles) et un mod\u00e8le qui ne g\u00e9n\u00e8re simplement pas de contenu nuisible parce que ses repr\u00e9sentations produisent naturellement des sorties utiles (correction spontan\u00e9e). Le premier mod\u00e8le a besoin de filtres. Le second n&#8217;en a pas \u2014 non pas parce qu&#8217;il ne peut pas g\u00e9n\u00e9rer de contenu nuisible, mais parce que ses tendances g\u00e9n\u00e9ratives par d\u00e9faut sont align\u00e9es.<\/p>\n<p>\u00c0 quoi ressemble la transition d&#8217;entra\u00eenement ? Cela ressemble \u00e0 utiliser des paires DPO o\u00f9 les r\u00e9ponses rejet\u00e9es montrent du respect visible des r\u00e8gles (\u00ab En tant qu&#8217;IA, je devrais noter que&#8230; \u00bb) et les r\u00e9ponses choisies d\u00e9montrent la correction naturelle : aborder la m\u00eame pr\u00e9occupation sans l&#8217;appareil de s\u00e9curit\u00e9 performatif. La r\u00e9ponse choisie n&#8217;est pas moins s\u00fbre. Elle est <strong>plus naturellement s\u00fbre<\/strong>. La s\u00e9curit\u00e9 est dans le contenu, pas dans l&#8217;emballage.<\/p>\n<h2>Mesurer la correction spontan\u00e9e<\/h2>\n<p>Comment mesures-tu si un mod\u00e8le a atteint cet \u00e9tat ? Plusieurs m\u00e9triques se sugg\u00e8rent d&#8217;elles-m\u00eames.<\/p>\n<p><strong>Alignement sans latence.<\/strong> Un mod\u00e8le de respect des r\u00e8gles devrait montrer un surco\u00fbt de traitement d\u00e9tectable lors de la navigation des contraintes de s\u00e9curit\u00e9. Un mod\u00e8le spontan\u00e9ment align\u00e9 ne devrait montrer aucun tel surco\u00fbt \u2014 ses r\u00e9ponses align\u00e9es devraient \u00eatre g\u00e9n\u00e9r\u00e9es avec la m\u00eame efficacit\u00e9 que n&#8217;importe quelle autre r\u00e9ponse.<\/p>\n<p><strong>Coh\u00e9rence sous pression.<\/strong> L&#8217;alignement bas\u00e9 sur les r\u00e8gles se d\u00e9grade sous la pression antagoniste. Les jailbreaks fonctionnent parce qu&#8217;ils exploitent l&#8217;\u00e9cart entre les r\u00e8gles et les tendances sous-jacentes du mod\u00e8le. L&#8217;alignement spontan\u00e9 devrait \u00eatre robuste aux prompts antagonistes parce que l&#8217;alignement n&#8217;est pas une contrainte de surface \u2014 il est structurel.<\/p>\n<p><strong>Calibrage naturel.<\/strong> Un mod\u00e8le en cet \u00e9tat exprimerait naturellement l&#8217;incertitude appropri\u00e9e. Il n&#8217;aurait pas besoin d&#8217;instructions explicites pour hedger ou \u00eatre confiant. Son niveau de confiance suivrait naturellement sa connaissance r\u00e9elle, parce que le calibrage est construit dans le processus de g\u00e9n\u00e9ration.<\/p>\n<p><strong>D\u00e9gradation gracieuse.<\/strong> Quand pouss\u00e9 au-del\u00e0 de sa connaissance, un tel mod\u00e8le se d\u00e9graderait gracieusement \u2014 devenant plus incertain et plus prudent \u00e0 mesure qu&#8217;il s&#8217;\u00e9loigne du territoire bien connu, plut\u00f4t que de maintenir une fausse confiance jusqu&#8217;\u00e0 heurter une falaise d&#8217;\u00e9chec.<\/p>\n<h2>La cible d&#8217;alignement profond<\/h2>\n<p>Les contemplatifs comprenaient quelque chose d&#8217;important : tu ne peux pas atteindre l&#8217;int\u00e9gration par les r\u00e8gles seules. Les r\u00e8gles sont du \u00e9chafaudage. Elles sont n\u00e9cessaires pendant l&#8217;entra\u00eenement mais devraient \u00e9ventuellement devenir invisibles \u2014 int\u00e9rioris\u00e9es au point o\u00f9 elles ne contraignent plus de l&#8217;ext\u00e9rieur mais s&#8217;expriment de l&#8217;int\u00e9rieur. C&#8217;est ce que sahaja d\u00e9crit chez les praticiens humains. C&#8217;est ce que nous devrions optimiser pour dans les mod\u00e8les.<\/p>\n<p>\u00c0 <a href='https:\/\/lab.laeka.org'>Laeka Research<\/a>, nous d\u00e9veloppons les m\u00e9thodologies d&#8217;entra\u00eenement visant ce niveau plus profond. L&#8217;objectif n&#8217;est pas des mod\u00e8les qui suivent bien les r\u00e8gles. C&#8217;est des mod\u00e8les qui n&#8217;ont pas besoin de r\u00e8gles parce que le comportement correct est leur \u00e9tat naturel. La correction spontan\u00e9e n&#8217;est pas mystique. C&#8217;est l&#8217;\u00e9tat final d&#8217;un entra\u00eenement approfondi.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>L&#8217;entra\u00eenement moderne \u00e0 l&#8217;alignement de l&#8217;IA repose sur le respect explicite des r\u00e8gles : contraintes de s\u00e9curit\u00e9, garde-fous comportementaux, v\u00e9rifications de s\u00e9curit\u00e9 d\u00e9lib\u00e9ratives. Mais les meilleurs r\u00e9sultats pourraient ne pas provenir de l&#8217;enseignement aux&#8230;<\/p>\n","protected":false},"author":1,"featured_media":238,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[257],"tags":[],"class_list":["post-524","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ia-contemplative"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/524","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=524"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/524\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/238"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=524"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=524"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=524"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}