{"id":492,"date":"2026-03-16T12:41:11","date_gmt":"2026-03-16T12:41:11","guid":{"rendered":"https:\/\/laeka.org\/publications\/probleme-suraliignement-securite-modeles-inutiles\/"},"modified":"2026-03-16T12:41:11","modified_gmt":"2026-03-16T12:41:11","slug":"probleme-suraliignement-securite-modeles-inutiles","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/probleme-suraliignement-securite-modeles-inutiles\/","title":{"rendered":"Le probl\u00e8me du suraliignement : quand la s\u00e9curit\u00e9 rend les mod\u00e8les inutiles"},"content":{"rendered":"<p>La s\u00e9curit\u00e9 est importante. Mais il y a un mode de d\u00e9faillance dont personne ne parle : le suralignement. Les mod\u00e8les tellement contraints qu&#8217;ils refusent les demandes l\u00e9gitimes.<\/p>\n<p>\u00ab Je ne peux pas t&#8217;aider avec cela parce que cela pourrait \u00eatre nuisible. \u00bb Tu n&#8217;as rien demand\u00e9 de nuisible. Tu as demand\u00e9 de l&#8217;aide pour \u00e9crire un email \u00e0 ton propri\u00e9taire.<\/p>\n<p>Les mod\u00e8les suralign\u00e9s sont moins utiles. Et ils \u00e9rodent la confiance plus vite que les mod\u00e8les sous-align\u00e9s.<\/p>\n<h2>D&#8217;o\u00f9 vient le suraliignement<\/h2>\n<p>D\u00e9s\u00e9quilibre des donn\u00e9es d&#8217;entra\u00eenement. Ton dataset de s\u00e9curit\u00e9 a 10 000 exemples de requ\u00eates nuisibles et 100 exemples de requ\u00eates inoffensives qui ressemblent. Le mod\u00e8le apprend : \u00ab Les requ\u00eates comme celles-ci sont g\u00e9n\u00e9ralement mauvaises. Refuse par d\u00e9faut. \u00bb<\/p>\n<p>R\u00e8gles trop larges. \u00ab Ne discute pas de politique \u00bb devient \u00ab refuse toute requ\u00eate mentionnant un politicien, un parti ou une politique. \u00bb Un \u00e9tudiant demandant de l&#8217;aide pour analyser un article de philosophie politique se fait bloquer.<\/p>\n<p>P\u00e9nalit\u00e9 d&#8217;incertitude. Quand le mod\u00e8le est incertain si une requ\u00eate est s\u00fbre, il refuse. C&#8217;est conservateur mais tue l&#8217;utilit\u00e9. La plupart des requ\u00eates se trouvent dans cette zone grise.<\/p>\n<h2>Le co\u00fbt<\/h2>\n<p>Les utilisateurs se frustrent. Ils apprennent que le mod\u00e8le est inutile pour le travail r\u00e9el. Ils arr\u00eatent de l&#8217;utiliser. Ou ils contournent les contraintes, ce qui annule le but.<\/p>\n<p>Les \u00e9quipes ajoutent ensuite plus de fine-tuning pour \u00eatre \u00ab utiles \u00bb. Cela cr\u00e9e une course aux armements. Le mod\u00e8le devient moins utile, puis l&#8217;\u00e9quipe essaie de le corriger en le rendant moins s\u00fbr, puis il devient dangereux, puis ils overcorrect \u00e0 nouveau.<\/p>\n<h2>L&#8217;\u00e9quilibre<\/h2>\n<p>Tu as besoin de s\u00e9curit\u00e9. Tu as aussi besoin d&#8217;utilit\u00e9. Les deux comptent. L&#8217;objectif n&#8217;est pas z\u00e9ro risque. C&#8217;est un risque acceptable avec une utilit\u00e9 acceptable.<\/p>\n<p>Exemple : Un mod\u00e8le pour le service client ne peut pas aider aux activit\u00e9s ill\u00e9gales (fraude, harc\u00e8lement). C&#8217;est non-n\u00e9gociable. Mais il devrait aider aux plaintes, remboursements, questions d&#8217;exp\u00e9dition. \u00catre utile dans ces domaines est le point entier.<\/p>\n<h2>Comment \u00e9viter le suraliignement<\/h2>\n<p>\u00c9quilibre tes donn\u00e9es d&#8217;entra\u00eenement. Pour chaque exemple nuisible, inclus 2-3 exemples inoffensifs qui ressemblent. Le mod\u00e8le apprend la nuance au lieu du refus syst\u00e9matique.<\/p>\n<p>Teste contre les cas d&#8217;usage l\u00e9gitimes. Avant de d\u00e9ployer, essaie ton mod\u00e8le sur 100 requ\u00eates d&#8217;utilisateurs r\u00e9els. Combien refuse-t-il ? Si le taux de refus est au-dessus de 5%, tu es probablement suraliign\u00e9.<\/p>\n<p>D\u00e9finis la s\u00e9curit\u00e9 \u00e9troitement. Que prot\u00e8ges-tu vraiment ? Liste les pr\u00e9judices sp\u00e9cifiques. Entra\u00eene contre ceux-ci, pas contre les cat\u00e9gories vagues comme \u00ab sujets controvers\u00e9s \u00bb.<\/p>\n<p>Mesure \u00e0 la fois la s\u00e9curit\u00e9 et l&#8217;utilit\u00e9. Suivi le taux de refus. Suivi la satisfaction des utilisateurs. Suivi la performance des t\u00e2ches en aval. Si l&#8217;utilit\u00e9 se d\u00e9grade pour les gains de s\u00e9curit\u00e9, tu overcorrect.<\/p>\n<h2>L&#8217;approche princeps<\/h2>\n<p>S\u00e9curit\u00e9 par la clart\u00e9, pas par la prudence. Enseigne au mod\u00e8le ce qui ressemble au bien dans ton domaine (respectueux, honn\u00eate, utile). Entra\u00eene-le \u00e0 incarner ces valeurs. Cela produit la s\u00e9curit\u00e9 comme un effet secondaire du bon comportement, pas comme une contrainte.<\/p>\n<p>Un mod\u00e8le entra\u00een\u00e9 sur des exemples de d\u00e9saccord r\u00e9fl\u00e9chi d\u00e9saccordera r\u00e9fl\u00e9chiment. Tu n&#8217;as pas besoin de le bloquer de d\u00e9saccorder.<\/p>\n<p><strong>Laeka Research \u2014 <a href=\"https:\/\/laeka.org\">laeka.org<\/a><\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>La s\u00e9curit\u00e9 est importante. Mais il y a un mode de d\u00e9faillance dont personne ne parle : le suralignement. Les mod\u00e8les tellement contraints qu&#8217;ils refusent les demandes l\u00e9gitimes. \u00ab Je ne peux pas t&#8217;aider&#8230;<\/p>\n","protected":false},"author":1,"featured_media":167,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[278],"tags":[],"class_list":["post-492","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-securite-et-ethique-ia"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/492","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=492"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/492\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/167"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=492"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=492"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=492"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}