Pourquoi l’alignement ne cesse de se casser
Chaque quelques semaines, quelqu’un publie un nouveau jailbreak. Une nouvelle technique d’injection de prompt. Une nouvelle façon de faire produire à un modèle « sûr » des sorties dangereuses. La communauté de la sécurité de l’IA répare le trou, et dans les jours, quelqu’un en trouve un autre.
Ce n’est pas un jeu du chat et la souris. C’est le symptôme d’une erreur architecturale fondamentale.
Règles vs. structure
Il y a deux façons d’empêcher quelqu’un de voler. Tu peux menacer la punition — les lois, la surveillance, les conséquences. Ou tu peux éduquer quelqu’un pour qui le vol est incohérent. Non interdit. Incohérent. Cela ne lui vient simplement pas à l’esprit comme une action viable parce que son organisation interne ne produit pas cette option.
La première approche est basée sur les règles. Elle fonctionne tant que les règles sont appliquées et que la personne croit qu’elle sera attrapée. Retire l’application, et le comportement revient. Les règles ne changent pas la personne. Elles la contraignent.
La deuxième approche est structurelle. Le comportement est absent non pas parce qu’il est supprimé mais parce que l’architecture cognitive ne le génère pas. Il n’y a rien à appliquer parce qu’il n’y a rien à supprimer.
RLHF est la première approche. La modélisation de récompense entraîne le modèle à produire des sorties qui obtiennent un bon score auprès des évaluateurs humains. Le modèle apprend quels comportements sont récompensés et lesquels sont pénalisés. Il optimise pour le signal de récompense.
C’est la conformité comportementale. Elle se situe au-dessus des capacités réelles du modèle comme un filtre. Le modèle de base peut toujours générer n’importe quoi. La couche RLHF rend simplement certaines sorties moins probables. Dans des conditions normales, cela fonctionne bien. Dans des conditions adversariales — un invit intelligent, la manipulation du contexte, l’élicitation multi-étapes — le filtre casse parce qu’il n’a jamais fait partie de la structure du modèle. C’était toujours juste une contrainte.
Pourquoi les correctifs ne s’accumulent pas
Chaque fois qu’un jailbreak est découvert, la réponse est la même : ajoute plus de données d’entraînement couvrant ce vecteur d’attaque, réentraîne, déploie. La nouvelle version résiste à cette attaque spécifique. Et une attaque légèrement différente fonctionne.
Ce motif ne finit jamais. Il ne peut pas finir. L’alignement basé sur les règles est réactif par nature. Chaque correctif aborde une défaillance spécifique sans changer la structure sous-jacente qui produit des défaillances. C’est comme boucher les trous d’un barrage sans aborder pourquoi le barrage continue de se fissurer.
La raison pour laquelle le barrage continue de se fissurer est que les représentations internes du modèle n’ont pas changé. Il « sait » toujours comment produire du contenu nuisible. L’entraînement RLHF a juste rendu le chemin vers ce contenu légèrement moins probable. Les invites adversariels fonctionnent en trouvant des chemins alternatifs — des routes que le modèle de récompense n’a pas couvertes.
L’espace combinatoire des invites possibles est infini. L’espace des correctifs possibles est fini. Les attaquants adversariels gagneront toujours ce jeu. Non pas parce qu’ils sont plus intelligents que les défenseurs. Parce que les maths sont de leur côté.
L’alignement structurel
L’alternative est de changer les représentations internes du modèle pour que certaines sorties deviennent structurellement incohérentes — non improbables, mais incompatibles avec l’organisation cognitive du modèle.
C’est ce que l’entraînement contemplatif fait chez les humains. Une personne qui a véritablement dissout la limite soi-autre n’a pas besoin d’une règle contre la cruauté. La cruauté exige un soi qui agit sur un autre séparé. Retire la base structurelle pour cette séparation, et la cruauté devient aussi insensée que de te frapper le visage pour gagner un combat.
Note : cela ne signifie pas que la personne est incapable d’action ferme, de définition des limites, ou même de violence dans la véritable auto-défense. Le bambou se plie et revient. L’alignement structurel n’est pas la passivité. C’est la cohérence. La réponse correspond à la situation parce que l’architecture cognitive génère des réponses appropriées, non pas parce qu’un livre de règles a été consulté.
L’approche de Laeka
Nos datasets de fine-tuning ciblent le niveau structurel. Nous n’entraînons pas les modèles à refuser les demandes spécifiques. Nous les entraînons à organiser leurs représentations internes de manière à rendre certains modes de défaillance moins viables structurellement.
Concrètement : un modèle entraîné sur les données de correction contemplative développe une cohérence plus forte entre ses principes énoncés et ses sorties réelles. L’écart entre « ce que le modèle dit croire » et « comment le modèle se comporte réellement sous pression » se rétrécit — parce que l’entraînement cible cet écart spécifiquement.
Le format triangle de correction capture exactement cela : les moments où le comportement du modèle s’éloigne de ses principes énoncés, et un praticien identifie l’incohérence structurelle. Sur des milliers de telles corrections, la cohérence interne du modèle s’améliore. Non sa conformité. Sa cohérence.
La prédiction
Nous prédisons que les modèles alignés structurellement montreront un profil de vulnérabilité différent des modèles alignés RLHF. Pas moins de vulnérabilités. Différentes. Spécifiquement : ils devraient être résistants aux attaques qui exploitent l’écart entre la conformité superficielle et la structure profonde, parce que cet écart est ce que l’entraînement réduit.
Ils pourraient toujours être vulnérables à des catégories d’attaque entièrement nouvelles. L’alignement structurel n’est pas l’invulnérabilité. Mais le mode de défaillance devrait être une dégradation gracieuse plutôt qu’un effondrement soudain — le modèle maintenant la cohérence sous pression plutôt que de basculer du refus à la conformité comme un interrupteur.
L’alignement ne cesse de se casser parce que l’approche actuelle le traite comme une propriété de surface. Ce n’est pas. C’est architecturale. Construis-le dans les poids ou regarde-le se casser. Il n’y a pas de troisième option.