{"id":554,"date":"2026-03-21T21:09:22","date_gmt":"2026-03-21T21:09:22","guid":{"rendered":"https:\/\/laeka.org\/publications\/le-fosse-de-securite-du-modele-ouvert\/"},"modified":"2026-03-21T21:09:22","modified_gmt":"2026-03-21T21:09:22","slug":"le-fosse-de-securite-du-modele-ouvert","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/le-fosse-de-securite-du-modele-ouvert\/","title":{"rendered":"Le foss\u00e9 de s\u00e9curit\u00e9 du mod\u00e8le ouvert"},"content":{"rendered":"<h2>Quand quiconque peut retirer les garde-fous<\/h2>\n<p>Voici une v\u00e9rit\u00e9 inconfortable que la communaut\u00e9 de l&#8217;IA open-source n&#8217;aime pas discuter : quand tu publies les poids du mod\u00e8le publiquement, tu perds tout contr\u00f4le sur la fa\u00e7on dont ces poids sont utilis\u00e9s. Chaque garde-fou de s\u00e9curit\u00e9, chaque filtre de contenu, chaque comportement de refus attentivement entra\u00een\u00e9 peut \u00eatre supprim\u00e9 avec quelques heures de fine-tuning et un budget modeste de GPU. Ce n&#8217;est pas une pr\u00e9occupation th\u00e9orique. Cela se produit en ce moment, constamment, et les implications m\u00e9ritent d&#8217;\u00eatre prises au s\u00e9rieux.<\/p>\n<p>Le foss\u00e9 de s\u00e9curit\u00e9 du mod\u00e8le ouvert d\u00e9signe l&#8217;asym\u00e9trie fondamentale entre l&#8217;effort n\u00e9cessaire pour ajouter des mesures de s\u00e9curit\u00e9 \u00e0 un mod\u00e8le et l&#8217;effort n\u00e9cessaire pour les enlever. Les labs passent des mois et des millions \u00e0 RLHF, constitutional AI, et red-teaming. Un individu avec un GPU grand public peut annuler la plupart de ce travail en un apr\u00e8s-midi avec un ensemble de donn\u00e9es de fine-tuning soigneusement construit. Les math\u00e9matiques ne favorisent pas les d\u00e9fenseurs.<\/p>\n<h2>L&#8217;anatomie du retrait de s\u00e9curit\u00e9<\/h2>\n<p>Comprendre le foss\u00e9 n\u00e9cessite de comprendre comment fonctionne l&#8217;entra\u00eenement \u00e0 la s\u00e9curit\u00e9 en premier lieu. La plupart des approches de s\u00e9curit\u00e9 modernes ajoutent une fine couche de conditionnement comportemental au-dessus des capacit\u00e9s principales d&#8217;un mod\u00e8le. RLHF enseigne au mod\u00e8le \u00e0 pr\u00e9f\u00e9rer les r\u00e9ponses s\u00fbres \u00e0 travers des signaux de r\u00e9compense. Constitutional AI fournit des principes que le mod\u00e8le apprend \u00e0 suivre. Ces approches sont efficaces quand les poids du mod\u00e8le sont gel\u00e9s et accessibles uniquement via une API avec des couches de filtrage suppl\u00e9mentaires.<\/p>\n<p>Mais quand tu as les poids bruts, la couche de s\u00e9curit\u00e9 n&#8217;est qu&#8217;un autre ensemble d&#8217;associations apprises qui peuvent \u00eatre \u00e9cras\u00e9es. La technique est simple : cr\u00e9er un ensemble de donn\u00e9es de paires prompt-r\u00e9ponse o\u00f9 le mod\u00e8le fournit le contenu nuisible qu&#8217;il a \u00e9t\u00e9 entra\u00een\u00e9 \u00e0 refuser, puis faire du fine-tuning sur cet ensemble de donn\u00e9es. La connaissance sous-jacente du mod\u00e8le des sujets dangereux n&#8217;a jamais \u00e9t\u00e9 supprim\u00e9e par l&#8217;entra\u00eenement \u00e0 la s\u00e9curit\u00e9 \u2014 elle a simplement \u00e9t\u00e9 supprim\u00e9e. Le fine-tuning la r\u00e9active.<\/p>\n<p>Des projets comme \u00ab abliteration \u00bb ont rendu ce processus presque trivialement facile. En identifiant les directions sp\u00e9cifiques dans l&#8217;espace de repr\u00e9sentation du mod\u00e8le qui correspondent au comportement de refus, tu peux chirurgicalement retirer le conditionnement de s\u00e9curit\u00e9 tout en pr\u00e9servant toutes les autres capacit\u00e9s. C&#8217;est comme trouver le fil exact qui contr\u00f4le le syst\u00e8me d&#8217;alarme et le couper, laissant tout le reste intact.<\/p>\n<h2>L&#8217;ampleur du probl\u00e8me<\/h2>\n<p>Chaque version majeure de mod\u00e8le ouvert est suivie dans les jours \u2014 parfois heures \u2014 par des variantes non censur\u00e9es. Llama, Mistral, Qwen, Gemma : tous ont engendr\u00e9 des d\u00e9riv\u00e9s non censur\u00e9s qui circulent librement. Certaines de ces variantes sont cr\u00e9\u00e9es \u00e0 des fins de recherche l\u00e9gitime. Beaucoup sont cr\u00e9\u00e9es parce que les gens veulent simplement des mod\u00e8les sans restrictions de contenu pour l&#8217;\u00e9criture cr\u00e9ative ou d&#8217;autres usages b\u00e9nins. Mais les m\u00eames techniques qui suppriment les filtres de contenu suppriment aussi les comportements de s\u00e9curit\u00e9 v\u00e9ritablement importants.<\/p>\n<p>La prolif\u00e9ration est vertigineuse. Hugging Face h\u00e9berge des milliers de variantes de mod\u00e8les non censur\u00e9s. Les torrents et les t\u00e9l\u00e9chargements directs en ajoutent des milliers de plus. Une fois qu&#8217;un mod\u00e8le est publi\u00e9 ouvertement, il n&#8217;y a aucun m\u00e9canisme technique pour emp\u00eacher le retrait de s\u00e9curit\u00e9, aucun moyen de r\u00e9voquer l&#8217;acc\u00e8s, et aucun chemin d&#8217;application pratique contre la grande majorit\u00e9 des utilisateurs qui modifient les poids.<\/p>\n<p>Cela cr\u00e9e une dynamique particuli\u00e8re dans le discours de la s\u00e9curit\u00e9 de l&#8217;IA. Les chercheurs en s\u00e9curit\u00e9 dans les labs consacrent d&#8217;\u00e9normes ressources pour faire en sorte que les mod\u00e8les refusent les demandes nuisibles, sachant que des versions en poids ouvert de capacit\u00e9 similaire seront disponibles sans ces restrictions. La question n&#8217;est pas si des mod\u00e8les non censur\u00e9s existent \u2014 ils le font, prolifiquement \u2014 mais si la valeur de s\u00e9curit\u00e9 marginale de la restriction des mod\u00e8les API justifie l&#8217;effort quand des alternatives ouvertes sont librement disponibles.<\/p>\n<h2>Arguments pour vivre avec le foss\u00e9<\/h2>\n<p>La communaut\u00e9 open-source offre plusieurs contre-arguments convaincants aux pr\u00e9occupations de s\u00e9curit\u00e9. D&#8217;abord, l&#8217;information contenue dans les mod\u00e8les d&#8217;IA est largement disponible par d&#8217;autres moyens. Les moteurs de recherche, les biblioth\u00e8ques, et l&#8217;internet ouvert fournissent acc\u00e8s \u00e0 la plupart des connaissances que les mod\u00e8les sont entra\u00een\u00e9s \u00e0 retenir. Le risque suppl\u00e9mentaire d&#8217;un mod\u00e8le non censur\u00e9s, soutiennent-ils, est marginal compar\u00e9 \u00e0 l&#8217;acc\u00e8s aux informations existant.<\/p>\n<p>Deuxi\u00e8mement, il y a un co\u00fbt s\u00e9rieux \u00e0 la sur-restriction. Les mod\u00e8les qui refusent trop agressivement deviennent moins utiles \u00e0 des fins l\u00e9gitimes. Les professionnels m\u00e9dicaux ne peuvent pas obtenir d&#8217;informations pharmacologiques d\u00e9taill\u00e9es. Les chercheurs en s\u00e9curit\u00e9 ne peuvent pas sonder les vuln\u00e9rabilit\u00e9s. Les \u00e9crivains ne peuvent pas explorer des th\u00e8mes sombres dans la fiction. Le foss\u00e9 de s\u00e9curit\u00e9, de cette perspective, est une caract\u00e9ristique qui permet \u00e0 la communaut\u00e9 de calibrer le comportement du mod\u00e8le \u00e0 des cas d&#8217;usage r\u00e9els plut\u00f4t que d&#8217;accepter des restrictions toutes cuites con\u00e7ues pour le plus petit d\u00e9nominateur commun.<\/p>\n<p>Troisi\u00e8mement, la transparence compte. Quand les poids du mod\u00e8le sont ouverts, la communaut\u00e9 de s\u00e9curit\u00e9 peut \u00e9tudier exactement comment l&#8217;entra\u00eenement \u00e0 la s\u00e9curit\u00e9 fonctionne et \u00e9choue. Les mod\u00e8les ferm\u00e9s sont des bo\u00eetes noires o\u00f9 les affirmations de s\u00e9curit\u00e9 ne peuvent pas \u00eatre v\u00e9rifi\u00e9es ind\u00e9pendamment. L&#8217;\u00e9cosyst\u00e8me ouvert, malgr\u00e9 ses risques, produit une meilleure recherche en s\u00e9curit\u00e9 parce que tout le monde peut inspecter et tester les m\u00e9canismes r\u00e9els.<\/p>\n<h2>Arguments pour le prendre au s\u00e9rieux<\/h2>\n<p>Les contre-arguments ont du poids, mais ils ont aussi des limites. \u00c0 mesure que les mod\u00e8les deviennent plus capables, le foss\u00e9 entre \u00ab l&#8217;information disponible sur internet \u00bb et \u00ab l&#8217;assistance actionnable d&#8217;une IA \u00bb s&#8217;\u00e9largit. Un mod\u00e8le qui peut fournir des conseils \u00e9tape par \u00e9tape, r\u00e9pondre aux questions de suivi, et adapter ses instructions \u00e0 la situation sp\u00e9cifique de l&#8217;utilisateur est qualitativement diff\u00e9rent d&#8217;une page web statique. L&#8217;interactivit\u00e9 compte.<\/p>\n<p>Les seuils de capacit\u00e9 changent aussi le calcul. Les mod\u00e8les actuels peuvent fournir une assistance pr\u00e9occupante mais g\u00e9n\u00e9ralement ne peuvent pas effectuer des t\u00e2ches de mani\u00e8re autonome. \u00c0 mesure que les capacit\u00e9s agentiques s&#8217;am\u00e9liorent, un mod\u00e8le non censur\u00e9s avec l&#8217;utilisation d&#8217;outils pourrait potentiellement prendre des actions nuisibles sans surveillance humaine. Le foss\u00e9 de s\u00e9curit\u00e9 devient plus dangereux \u00e0 mesure que les capacit\u00e9s de l&#8217;autre c\u00f4t\u00e9 deviennent plus puissantes.<\/p>\n<p>Il y a aussi l&#8217;angle du risque bio et CBRN qui garde de nombreux chercheurs en s\u00e9curit\u00e9 \u00e9veill\u00e9s la nuit. Bien que les mod\u00e8les actuels ne fournissent probablement pas d&#8217;am\u00e9lioration significative pour cr\u00e9er des armes biologiques ou chimiques au-del\u00e0 de ce qui est publiquement disponible, cela peut ne pas rester vrai \u00e0 mesure que les mod\u00e8les s&#8217;am\u00e9liorent. Le seuil o\u00f9 l&#8217;assistance de l&#8217;IA fournit une am\u00e9lioration v\u00e9ritable par rapport aux informations publiquement disponibles n&#8217;est pas fixe \u2014 il se d\u00e9place \u00e0 mesure que les mod\u00e8les deviennent plus capables.<\/p>\n<h2>Approches techniques pour r\u00e9duire le foss\u00e9<\/h2>\n<p>Les chercheurs ne sont pas inactifs. Plusieurs approches techniques prometteuses visent \u00e0 rendre l&#8217;entra\u00eenement \u00e0 la s\u00e9curit\u00e9 plus robuste aux tentatives de retrait. L&#8217;ing\u00e9nierie de repr\u00e9sentation cherche \u00e0 int\u00e9grer la s\u00e9curit\u00e9 plus profond\u00e9ment dans les repr\u00e9sentations principales du mod\u00e8le plut\u00f4t que comme une couche comportementale superficielle. Si la s\u00e9curit\u00e9 est entrelac\u00e9e avec la capacit\u00e9, la retirer d\u00e9grade l&#8217;utilit\u00e9 du mod\u00e8le.<\/p>\n<p>L&#8217;entra\u00eenement r\u00e9sistant aux alt\u00e9rations est une autre fronti\u00e8re. Ces techniques visent \u00e0 rendre le fine-tuning sur des donn\u00e9es nuisibles pour r\u00e9duire r\u00e9ellement la performance du mod\u00e8le plut\u00f4t que simplement de retirer les restrictions. L&#8217;entra\u00eenement \u00e0 la s\u00e9curit\u00e9 est con\u00e7u pour \u00eatre robuste adversariellement \u2014 le mod\u00e8le r\u00e9siste activement aux tentatives de le rendre nuisible, pas par un comportement de refus qui peut \u00eatre \u00e9cras\u00e9, mais par des propri\u00e9t\u00e9s architecturales qui ne peuvent pas \u00eatre facilement contourn\u00e9es.<\/p>\n<p>La s\u00e9curit\u00e9 au niveau des circuits explore l&#8217;incorporation de contraintes de s\u00e9curit\u00e9 au niveau du graphe computationnel plut\u00f4t qu&#8217;au niveau du poids. Au lieu d&#8217;entra\u00eener le mod\u00e8le \u00e0 refuser, tu emp\u00eaches structurellement certains motifs de computation de s&#8217;ex\u00e9cuter. C&#8217;est plus robuste au fine-tuning mais aussi plus restrictif et plus difficile \u00e0 impl\u00e9menter sans d\u00e9grader la capacit\u00e9 g\u00e9n\u00e9rale.<\/p>\n<h2>La dimension politique<\/h2>\n<p>Les solutions techniques seules ne fermeront pas le foss\u00e9. Le paysage politique \u00e9volue rapidement, avec diff\u00e9rentes juridictions prenant diff\u00e9rentes approches. La loi europ\u00e9enne sur l&#8217;IA impose des obligations aux fournisseurs de mod\u00e8les d&#8217;IA \u00e0 usage g\u00e9n\u00e9ral, y compris ceux publi\u00e9s ouvertement. La Chine exige que les mod\u00e8les d&#8217;IA adh\u00e8rent aux \u00ab valeurs socialistes centrales \u00bb et restreint la publication ouverte. L&#8217;approche des \u00c9tats-Unis reste fragment\u00e9e, avec des ordres ex\u00e9cutifs fournissant des conseils mais des m\u00e9canismes d&#8217;application limit\u00e9s.<\/p>\n<p>La tension politique fondamentale est que la restriction de la publication de mod\u00e8les ouverts pour pr\u00e9venir le retrait de s\u00e9curit\u00e9 emp\u00eache aussi les \u00e9normes b\u00e9n\u00e9fices de l&#8217;IA ouverte : la concurrence, le progr\u00e8s de la recherche, l&#8217;innovation, et l&#8217;acc\u00e8s d\u00e9mocratique \u00e0 la technologie. Tout cadre de politique doit faire face \u00e0 ce compromis, et des gens raisonnables ne sont pas d&#8217;accord sur o\u00f9 tracer la ligne.<\/p>\n<h2>Vivre dans le foss\u00e9<\/h2>\n<p>Le foss\u00e9 de s\u00e9curit\u00e9 du mod\u00e8le ouvert ne dispara\u00eetra pas. C&#8217;est une caract\u00e9ristique structurelle du d\u00e9veloppement de l&#8217;IA ouverte, pas un bug qui peut \u00eatre corrig\u00e9. Le chemin pratique \u00e0 suivre implique d&#8217;accepter que le foss\u00e9 existe tout en travaillant sur plusieurs fronts pour minimiser ses cons\u00e9quences : rendre l&#8217;entra\u00eenement \u00e0 la s\u00e9curit\u00e9 plus robuste, d\u00e9velopper de meilleurs outils de surveillance, cr\u00e9er des normes autour de la publication responsable, et investir dans la r\u00e9silience soci\u00e9tale aux pr\u00e9judices assist\u00e9s par l&#8217;IA.<\/p>\n<p>La pire r\u00e9ponse est de pr\u00e9tendre que le foss\u00e9 n&#8217;existe pas. La deuxi\u00e8me pire est de l&#8217;utiliser comme justification pour tout fermer. La communaut\u00e9 de l&#8217;IA a besoin de tenir deux v\u00e9rit\u00e9s simultan\u00e9ment : les mod\u00e8les ouverts fournissent une valeur immense que les mod\u00e8les ferm\u00e9s ne peuvent pas, et les mod\u00e8les ouverts cr\u00e9ent des d\u00e9fis de s\u00e9curit\u00e9 que les mod\u00e8les ferm\u00e9s ne cr\u00e9ent pas. Construire une politique et une technologie qui respectent les deux v\u00e9rit\u00e9s est le travail difficile et n\u00e9cessaire \u00e0 venir.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Quand quiconque peut retirer les garde-fous Voici une v\u00e9rit\u00e9 inconfortable que la communaut\u00e9 de l&#8217;IA open-source n&#8217;aime pas discuter : quand tu publies les poids du mod\u00e8le publiquement, tu perds tout contr\u00f4le sur la&#8230;<\/p>\n","protected":false},"author":1,"featured_media":298,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[272],"tags":[],"class_list":["post-554","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ia-open-source"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/554","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=554"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/554\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/298"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=554"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=554"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=554"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}