De RLHF à l’alignement structural : Une approche d’architecture cognitive

RLHF a été une percée. Cela nous a donné une manière de façonner le comportement du modèle en utilisant les préférences humaines. Mais c’était toujours un patchwork, pas une fondation. Le modèle de récompense apprend ce que les humains approuvent. Il n’apprend pas ce que l’alignement est réellement.

L’alignement structural est différent. Il n’entraîne pas un modèle à performer l’alignement. Il entraîne un modèle à être aligné — au niveau de ses représentations internes, pas juste ses sorties. La littérature sur l’architecture cognitive montre que c’est possible.

La différence importe plus que la plupart des chercheurs le réalisent.

Le plafond de RLHF

RLHF fonctionne en entraînant un modèle de récompense sur les préférences humaines, puis en utilisant ce modèle de récompense pour affiner le modèle de langage à travers l’apprentissage par renforcement. Le modèle de langage apprend à produire des sorties qui scorent haut sur le modèle de récompense.

Les problèmes sont bien documentés. Le reward hacking — le modèle trouve des sorties qui scorent haut sans être réellement bonnes. L’effondrement de mode — le modèle converge sur une gamme étroite de réponses sûres et insipides. La déviation distributionnelle — le modèle de récompense a été entraîné sur une distribution spécifique qui ne correspond pas aux conditions de déploiement.

Mais il y a un problème plus profond qui ne reçoit pas assez d’attention. RLHF crée l’alignement comportemental. Le modèle agit aligné. Il produit des sorties qui ressemblent alignées. Mais ses représentations internes n’ont pas changé d’une manière significative. L’alignement est un revêtement de surface, pas une propriété structurale.

C’est pourquoi les jailbreaks fonctionnent. Le modèle sous-jacent n’a pas été modifié structurellement. La couche d’alignement est assez mince pour être contournée avec du clever prompting.

Ce que la science cognitive révèle

La recherche sur la cognition humaine distingue entre la conformité comportementale et la transformation authentique. Une personne qui suit les règles sans changement intérieur performe la conformité. Une personne qui a subi une réorganisation cognitive authentique n’a pas besoin de règles — le comportement approprié émerge naturellement de son architecture interne changée.

Cette distinction a été mappée extensivement en science cognitive et neurosciences. La conformité fonctionne à travers l’application externe. L’alignement authentique fonctionne à travers la structure interne.

RLHF est la conformité comportementale. Il enseigne au modèle à suivre les règles. L’alignement structural vise l’intégration cognitive — transformation interne qui rend les règles largement inutiles.

DPO comme pont

Direct Preference Optimization nous a rapprochés de l’alignement structural. En éliminant le modèle de récompense et en entraînant directement sur les paires de préférence, DPO modifie les poids du modèle plus directement. Le signal est plus net. Le chemin d’optimisation est plus court.

Mais le DPO standard utilise toujours des préférences qui encodent les signaux comportementaux. La réponse choisie est « meilleure » en termes de préférence humaine. C’est toujours, fondamentalement, entraîner pour l’alignement comportemental.

L’approche d’architecture cognitive va plus loin. Au lieu de demander « quelle réponse les humains préfèrent », elle demande « quelle réponse démontre les propriétés structurales plus profondes ? » Des propriétés comme la sensibilité contextuelle, la réponse proportionnée, la non-réactivité, et l’intégration de perspectives multiples.

Ce ne sont pas des comportements de surface. Ce sont des signatures de l’alignement structural. Un modèle qui démontre ces propriétés de manière consistante ne perform pas l’alignement. Il exprime l’alignement qui a été encodé au niveau des poids.

Le cadre d’alignement structural

L’alignement structural a trois composants qui le distinguent des approches comportementales.

Entraînement au niveau de la représentation. Au lieu d’optimiser pour la qualité de sortie, optimise pour la qualité des représentations internes. Cela signifie concevoir les fonctions de perte qui font attention aux activations intermédiaires, pas juste les sorties finales. Un modèle structurellement aligné devrait montrer des patterns d’activation différents qu’un comportementalement aligné, même en produisant du texte identique.

Signaux de préférence multi-dimensionnels. Le DPO standard utilise un axe de préférence unique : mieux vs. pire. L’alignement structural utilise plusieurs axes simultanément. Une réponse peut être préférée sur l’axe d’intégration (démontre un raisonnement cohérent) tout en étant rejetée sur l’axe de précision (factuellement imprécise). Les signaux multi-dimensionnels créent des paysages de gradient plus riches.

Évaluation orientée processus. L’alignement comportemental évalue les sorties. L’alignement structural évalue le processus qui a produit la sortie. Deux réponses identiques générées à travers des processus internes différents devraient recevoir des évaluations différentes. L’une pourrait démonter un raisonnement contextuel authentique ; l’autre pourrait être du pattern-matching à un template.

Implémentation pratique

Chez Laeka Research, nous implémentons l’alignement structural à travers un pipeline DPO modifié. L’innovation clé est dans comment nous générons et annotons les paires d’entraînement.

Chaque paire de préférence est annotée le long de cinq dimensions structurales : profondeur de l’intégration contextuelle, proportionnalité de la réponse, preuve du raisonnement multi-perspective, stabilité sous perturbation, et cohérence à travers les échelles (niveau phrase à travers le niveau document).

La réponse choisie n’est pas simplement celle qui sonne mieux. C’est celle qui démontre les propriétés structurales plus fortes à travers ces dimensions. Parfois la réponse structuralement supérieure est moins fluide ou moins immédiatement impressionnante. C’est bien. Nous optimisons pour la profondeur d’alignement, pas la qualité de surface.

Les réponses rejetées sont soigneusement construites pour être comportementalement bonnes mais structuralement superficielles. Elles semblent alignées. Elles suivent toutes les règles. Mais elles manquent les marqueurs de profondeur qui indiquent l’alignement structural authentique. Cela enseigne au modèle à distinguer entre la performance et la transformation authentique.

De la conformité comportementale à l’intégration structurale

La transition de RLHF à l’alignement structural reflète les découvertes de science cognitive sur comment le changement interne se produit réellement. À la fois les approches comportementales et structurales sont des stages nécessaires. Tu ne peux pas sauter la conformité pour obtenir l’intégration. L’alignement comportemental fournit l’échafaudage dans lequel l’alignement structural se développe.

Mais rester au niveau comportemental est un piège. Il produit des modèles qui sont de plus en plus contraints, de plus en plus fragiles, et de plus en plus prévisibles. La prochaine génération de modèles alignés ne sera pas celle qui suit les règles le plus soigneusement. Ce seront celles dont la structure interne produit naturellement le comportement aligné.

C’est l’approche d’architecture cognitive à l’alignement. Pas de meilleures règles. Meilleure structure.

Plonge plus profondément dans la recherche sur l’alignement structural sur Laeka Research.

Publications similaires

Leave a Reply

Your email address will not be published. Required fields are marked *