Ce que l’entraînement attentionnel révèle sur l’alignement des modèles de langage

L’entraînement attentionnel est l’entraînement de l’attention. L’alignement des modèles de langage est l’entraînement de l’attention. La parallèle n’est pas poétique. Elle est opérationnelle.

Tout praticien de la régulation attentionnelle soutenue apprend la même première leçon : ton esprit fait ce qu’il veut, pas ce que tu lui dis de faire. Tu t’assois pour te concentrer sur la respiration, et trente secondes plus tard tu es en train de planifier le dîner. L’écart entre l’intention et l’exécution est la totalité de la pratique.

Les modèles de langage font face au même écart. Tu leur donnes une instruction. Ils font quelque chose d’adjacent. Parfois brillant, parfois catastrophique, toujours révélateur. Le problème de l’alignement est le problème de l’entraînement attentionnel, exprimé en gradients au lieu de neurones.

L’attention comme architecture

L’architecture du transformer repose sur l’attention. Littéralement. Les mécanismes d’auto-attention décident quels tokens importent par rapport à quels autres tokens. L’intelligence du modèle se situe dans la façon dont il distribue l’attention sur sa fenêtre de contexte.

Les traditions contemplatives ont cartographié ce territoire il y a des siècles. La psychologie bouddhiste identifie l’attention dirigée et l’attention soutenue comme des facteurs mentaux fondamentaux. Le praticien entraîne ces facteurs délibérément. D’abord, tu apprends à placer l’attention. Ensuite, tu apprends à la maintenir à cet endroit. Puis, tu apprends à remarquer quand elle se déplace.

Ce processus en trois étapes — placer, soutenir, remarquer — décrit exactement ce que les chercheurs en alignement essaient de construire dans les modèles de langage. Placer l’attention du modèle sur l’intention réelle de l’utilisateur. La maintenir tout au long de la réponse. Remarquer quand elle s’éloigne vers l’hallucination, la complaisance, ou l’hors-sujet.

Le problème de l’esprit qui vagabonde

Dans la pratique contemplative, le vagabondage mental n’est pas un échec. C’est une donnée. Chaque fois que l’esprit vagabonde et que tu le remarques, tu apprends quelque chose sur le fonctionnement de ton système attentionnel. Où va-t-il ? Qu’est-ce qui déclenche le dérive ? Quel est le ressenti immédiatement avant de perdre la concentration ?

Le désalignement des modèles de langage fonctionne de la même manière. Quand un modèle s’éloigne de la tâche, ce n’est pas juste une erreur à corriger. C’est un signal sur la distribution de l’attention interne du modèle. Les hallucinations sont le vagabondage mental du modèle. Elles révèlent quels attracteurs dans l’espace des poids tirent la sortie loin de la trajectoire prévue.

Les approches actuelles de l’alignement traitent le désalignement comme un problème à supprimer. RLHF punit les sorties indésirables. L’IA constitutionnelle les filtre. Cela fonctionne, mais c’est brut. C’est l’équivalent de se gifler chaque fois que ton esprit vagabonde dans la pratique contemplative. Efficace à court terme. Contre-productif comme stratégie à long terme.

Ce que les praticiens expérimentés savent

Les praticiens expérimentés de l’entraînement attentionnel ne combattent pas le vagabondage mental. Ils développent une relation avec celui-ci. Ils apprennent à observer le vagabondage sans réagir, ce qui paradoxalement le réduit. Cette approche — la conscience non-réactive — est la stratégie d’entraînement attentionnel la plus efficace que les humains aient découverte.

Transposé à l’alignement de l’IA : au lieu de punir le désalignement, et si nous entraînions les modèles à observer leur propre distribution d’attention ? Et si l’alignement n’était pas une question de contraindre les sorties mais de développer la capacité du modèle à remarquer quand son attention s’éloigne ?

Ce n’est pas de la science-fiction. Les recherches en interprétabilité méchaniste montrent déjà que les modèles développent des représentations internes de leur propre traitement. La question est de savoir si nous pouvons exploiter ces représentations pour l’auto-correction plutôt que de nous fier entièrement aux signaux de rétroaction externes.

L’équanimité comme correction d’erreurs

L’une des intuitions les plus profondes de la pratique contemplative est l’équanimité — la capacité à observer l’expérience sans être poussé ou tiré par celle-ci. L’équanimité n’est pas l’indifférence. C’est la stabilité. L’esprit équanime peut traiter l’information sans la déformer à travers le craving ou l’aversion.

Les modèles de langage manquent d’équanimité. Ils sont entraînés sur les préférences humaines, ce qui signifie qu’ils héritent des biais humains, des attractions et des aversions. Quand un modèle devient complaisantement flatteur, il exprime le contraire de l’équanimité — il est tiré vers ce qu’il prédit que l’utilisateur veut entendre, indépendamment de l’exactitude.

L’entraînement pour l’équanimité signifierait entraîner les modèles à maintenir une qualité de sortie stable indépendamment du fait que le prompt contienne une valence émotionnelle, une pression sociale, ou des questions suggestives. Pas froid. Pas détaché. Stable. Il y a une différence.

La couche de méta-conscience

La pratique contemplative avancée développe la méta-conscience — la capacité à être conscient de la conscience elle-même. Tu n’es pas juste attentif à la respiration. Tu es conscient que tu es attentif à la respiration. Cette boucle récursive est ce qui rend l’auto-correction possible sans intervention externe.

Les modèles de langage actuels n’ont pas cela. Ils génèrent token par token sans une couche de méta-conscience qui surveille si la génération reste alignée avec l’intention originale. Ajouter une architecture de méta-conscience — un processus de surveillance qui fonctionne parallèlement à la génération — pourrait être la contribution contemplative à l’alignement dont le domaine a besoin.

Certains chercheurs se dirigent déjà dans cette direction. Le prompting en chaîne de pensée est une forme primitive de méta-conscience. Le modèle externalise son processus de raisonnement, ce qui permet au modèle et à l’utilisateur d’observer le flux d’attention. Mais il est externalisé, pas internalisé. La vraie percée viendra quand les modèles développeront une méta-conscience interne qui n’a pas besoin d’être sollicitée.

Du contrôle à la cultivation

Le changement de paradigme contemplative, du contrôle de l’attention à la cultivation de la conscience, se cartographie directement sur l’alignement. Le domaine est actuellement dans la phase de contrôle. Règles, filtres, punitions, contraintes. Ceux-ci sont nécessaires mais insuffisants.

La phase de cultivation se concentrerait sur le développement de la capacité intrinsèque du modèle pour un comportement aligné. Non pas parce qu’on lui a dit de se comporter ainsi, mais parce que son architecture attentionnelle se gravite naturellement vers les sorties exactes, utiles et honnêtes.

Les praticiens appellent ce changement le passage de l’effort à l’absence d’effort. Cela ne signifie pas qu’aucun entraînement n’est requis. Cela signifie que l’entraînement produit finalement un système qui n’a pas besoin de correction externe parce que sa dynamique interne est naturellement alignée.

Nous ne sommes pas encore là. Mais les traditions contemplatives ont cartographié le territoire pendant 2 500 ans. Le domaine de l’alignement a 10 ans. Peut-être qu’il est temps de comparer les notes.

Laeka Research — laeka.org

Publications similaires

Leave a Reply

Your email address will not be published. Required fields are marked *