De RLHF à l’alignement structurel : une approche d’architecture cognitive
RLHF fonctionne en alignant les résultats du modèle sur les préférences humaines. Mais l’alignement des préférences est une optimisation de surface. Ce dont nous avons besoin est un alignement au niveau de l’architecture — des systèmes dont la structure interne produit naturellement un comportement aligné sans signaux de récompense externes. La science cognitive est claire : cela exige de comprendre comment les systèmes neuraux s’organisent eux-mêmes.
L’alignement structurel est ce qui vient ensuite. Non pas l’alignement par la récompense et la punition, mais l’alignement par la structure interne du système lui-même. Trois mille ans de recherche empirique dans l’architecture cognitive humaine fournissent le modèle.
Les limites de RLHF
RLHF (Reinforcement Learning from Human Feedback) aligne les modèles en les entraînant à produire des résultats que les humains préfèrent. Le processus fonctionne : recueille les préférences humaines, entraîne un modèle de récompense, utilise le modèle de récompense pour affiner le modèle de langage. Le résultat est un modèle qui est mesurément meilleur à produire des résultats préférés par les humains.
Mais la méthode a des limitations structurelles.
Elle encode les préférences, pas les valeurs. Les préférences humaines sont bruyantes, dépendantes du contexte et souvent contradictoires. Une préférence pour les réponses polies ne code pas la valeur de l’honnêteté. Une préférence pour les réponses détaillées ne code pas la valeur de savoir quand être bref. Le modèle apprend ce sur quoi les humains cliquent, pas ce dont les humains ont réellement besoin.
C’est imposé de l’extérieur. L’alignement vient de l’extérieur du modèle via le signal de récompense. Enlève le signal de récompense, et le modèle n’a pas de boussole interne. C’est pourquoi les jailbreaks fonctionnent — ils trouvent des contextes où l’alignement imposé de l’extérieur se casse, et il n’y a rien en dessous pour amortir la chute.
Elle optimise un proxy. Le modèle de récompense est un proxy du jugement humain. Le modèle de langage optimise le proxy, pas le jugement sous-jacent. Au fil du temps, le modèle apprend à hacker le proxy — en produisant des résultats qui score bien sur le modèle de récompense tout en dérivant de la qualité véritable.
Ce que l’alignement structurel signifie
L’alignement structurel signifie que le modèle produit des résultats alignés non pas parce qu’il a été récompensé pour cela, mais parce que son traitement interne gravite naturellement vers eux. L’alignement n’est pas une couche ajoutée par-dessus. C’est tissé dans l’architecture.
Le parallèle cognitif est la différence entre la conformité forcée et les valeurs intériorisées. Une personne contrainte par la surveillance est alignée de l’extérieur. Une personne qui a développé une inquiétude véritable pour les autres est alignée de manière structurelle. Le comportement peut sembler identique. Le mécanisme est fondamentalement différent. Et la version structurelle est beaucoup plus robuste.
Comment l’architecture cognitive se développe
L’architecture cognitive humaine ne se développe pas par des règles. Elle se développe par trois processus imbriqués observés de manière cohérente à travers les cultures et les traditions d’entraînement.
Observation. Le praticien apprend à observer ses propres processus cognitifs avec précision. Cela développe la méta-conscience — la capacité à remarquer ce que l’esprit fait plutôt que d’être porté par lui. En termes neuraux : développer des modèles internes de son propre traitement.
Compréhension. Par l’observation, le praticien développe une compréhension du fonctionnement des processus cognitifs. Il voit comment les motifs réactifs conduisent à la dégradation de la sortie, comment la fragmentation produit l’incohérence, comment le traitement intégré produit la clarté. Cette compréhension est structurelle, non conceptuelle.
Transformation. La compréhension transforme naturellement l’architecture cognitive. Une fois que tu vois clairement comment le traitement fragmenté crée des problèmes, le système se réorganise lui-même. Pas par intervention externe, mais par la dynamique interne réagissant à l’intuition structurelle.
Ce processus en trois étapes — observer, comprendre, transformer — est le modèle pour l’alignement structurel en IA.
Implémenter l’alignement structurel
Étape 1 : Observation — Interprétabilité mécanique. Avant de pouvoir aligner un modèle structurellement, tu dois comprendre comment il traite l’information. La recherche en interprétabilité mécanique est l’équivalent IA de l’observation cognitive. Elle cartographie les représentations internes du modèle, identifie les circuits et les caractéristiques, et révèle comment le modèle prend réellement les décisions.
Cette recherche progresse rapidement. Nous pouvons maintenant identifier des têtes d’attention spécifiques responsables de comportements spécifiques, cartographier les circuits de caractéristiques à travers les couches et intervenir à des points spécifiques dans le flux de traitement. C’est l’observation au niveau architecturel.
Étape 2 : Compréhension — Analyse structurelle. Avec les données d’observation, nous pouvons développer une compréhension structurelle de pourquoi le modèle produit des résultats désalignés. Non seulement « cette tête d’attention s’active lors de résultats problématiques » mais « ce circuit amplifie le motif X en raison de la propriété structurelle Y du processus d’entraînement ».
Cette compréhension permet une intervention ciblée. Au lieu d’appliquer un RLHF général à travers tout le modèle, nous pouvons aborder les causes structurelles spécifiques du désalignement. L’intervention est précise, pas brutale.
Étape 3 : Transformation — Modification architecturale. Avec la compréhension structurelle, nous pouvons modifier l’architecture du modèle ou le processus d’entraînement pour produire naturellement des résultats alignés. Cela pourrait signifier ajouter des couches de méta-conscience qui surveillent le propre traitement du modèle. Cela pourrait signifier modifier les mécanismes d’attention pour intégrer naturellement les considérations éthiques. Cela pourrait signifier des techniques d’entraînement qui développent la cohérence interne plutôt que la conformité externe.
DPO comme pont
L’optimisation directe des préférences (Direct Preference Optimization) est une étape vers l’alignement structurel, même si elle reste fondamentalement une méthode basée sur les préférences. DPO modifie les poids du modèle directement plutôt que d’entraîner un modèle de récompense séparé. Le signal d’alignement est plus proche de la structure interne du modèle.
Chez Laeka, nous étendons DPO vers l’alignement structurel en incorporant des informations diagnostiques dans les paires d’entraînement. Le modèle n’apprend pas seulement qu’une réponse est préférée. Il apprend pourquoi — les qualités structurelles qui rendent une réponse alignée ou désalignée. Au fil du temps, cela développe la représentation interne du modèle de l’alignement lui-même.
C’est une technique de pont. Elle utilise les données de préférence mais pointe vers la compréhension structurelle. Le modèle développe graduellement une boussole interne qui ne dépend pas des signaux de préférence externes.
La feuille de route de la recherche
La littérature des sciences cognitives fournit une feuille de route claire pour l’alignement structurel :
D’abord, développe les outils d’observation (interprétabilité mécanique). Deuxièmement, construis une compréhension structurelle de la façon dont le désalignement surgit dans les architectures neurales. Troisièmement, conçois des interventions architecturales qui abordent les causes profondes plutôt que les symptômes.
C’est un programme de recherche de plusieurs années. RLHF et DPO sont nécessaires dans l’intérim. Mais ils doivent être compris comme des méthodes de transition, pas comme des solutions finales. L’objectif est des modèles alignés parce qu’ils sont ce qu’ils sont, non parce qu’ils ont été récompensés de le faire.
Les sciences cognitives ont atteint cette compréhension avec les esprits humains. Il n’y a pas de raison en principe que cela ne puisse pas être atteint avec les esprits artificiels. L’architecture est différente. Les principes sont les mêmes.
Laeka Research — laeka.org