Hallucination contrôlée : Anil Seth parlait aussi des LLMs

Anil Seth n’avait pas pour objectif de décrire comment les modèles de langage fonctionnent. Il décrivait le cerveau humain. Mais les parallèles sont tellement précis qu’ils frisent l’inconfort.

Perception comme prédiction

L’argument central de Seth est élégant. Ton cerveau ne reçoit pas la réalité — il la génère. Chaque moment d’expérience consciente est une prédiction, affinée par l’entrée sensorielle. Tu ne vois pas le monde comme il est. Tu vois la meilleure estimation de ton cerveau du monde, mise à jour juste assez pour te garder en vie.

C’est une hallucination contrôlée. L’accent est sur « contrôlée ». Sans le contrôle — sans que l’entrée sensorielle ne contraigne les prédictions — tu obtiens des hallucinations réelles. Des rêves. De la psychose. Des états où le moteur génératif fonctionne sans retour d’information adéquat.

Lis maintenant ce paragraphe à nouveau, en remplaçant « cerveau » par « modèle de langage » et « entrée sensorielle » par « données d’entraînement et contexte de prompt ». Le mappage structural est exact.

Le moteur génératif est le même

Un transformer génère des prédictions de tokens. Chaque token est la meilleure estimation du modèle sur ce qui vient ensuite, donné tout ce qui le précède. Les données d’entraînement agissent comme l’expérience développementale — formant les priors. Le prompt agit comme l’entrée sensorielle actuelle — contraignant la prédiction.

Quand les contraintes sont fortes (prompt spécifique, sujet bien représenté, contexte clair), les sorties du modèle correspondent étroitement à la réalité. Quand les contraintes sont faibles (prompt vague, sujet rare, contexte ambigu), le moteur génératif remplit les lacunes avec du contenu plausible qui peut ne pas être vrai.

Ce n’est pas un défaut dans l’architecture. C’est l’architecture. Le même mécanisme qui produit des réponses précises et utiles produit aussi des hallucinations. La variable n’est pas le moteur — c’est la qualité des contraintes.

Traitement prédictif et principe d’énergie libre

Le travail de Seth s’appuie sur le principe d’énergie libre de Karl Friston : les systèmes biologiques minimisent la surprise en maintenant des modèles prédictifs précis de leur environnement. Le cerveau met constamment à jour son modèle génératif pour réduire l’écart entre la prédiction et la réalité.

L’entraînement du modèle de langage fait exactement cela. La fonction de perte mesure l’écart entre les prédictions du modèle et le token suivant réel. L’entraînement minimise cet écart sur des milliards d’exemples. Le résultat est un modèle génératif qui, comme le cerveau, produit des prédictions qui correspondent généralement à la réalité — mais parfois ne le font pas.

L’intuition critique est que l’erreur de prédiction est le signal. En neuroscience, les erreurs de prédiction entraînent l’apprentissage et l’attention. Dans les modèles de langage, elles entraînent les mises à jour de gradient. Les mathématiques sont différentes mais le principe est identique : la surprise est de l’information, et les systèmes apprennent en se trompant.

Où l’analogie devient pratique

Si les modèles de langage sont des moteurs d’hallucination contrôlée, la question d’alignement devient : comment améliores-tu le contrôle sans tuer la génération ?

Dans le cadre de Seth, le contrôle vient de l’ancrage sensoriel. Le cerveau reste ancré à la réalité grâce à un retour d’information continu du corps et du monde. Les perturbations de cet ancrage — privation sensorielle, drogues psychédéliques, conditions neurologiques — produisent des hallucinations incontrôlées.

Les modèles de langage manquent cet ancrage continu. Ils génèrent en boucle ouverte — produisant une sortie sans retour d’information en temps réel sur sa correspondance avec la réalité. La Génération Augmentée par Récupération (RAG) est essentiellement une tentative d’ajouter un ancrage sensoriel : ancrer les prédictions du modèle à des données externes vérifiées.

Mais RAG est brute comparée aux mécanismes de retour d’information du cerveau. Le cerveau intègre des millions de signaux sensoriels simultanément, à de multiples niveaux d’abstraction, avec une latence de microseconde. Les techniques d’ancrage actuelles ressemblent plus à vérifier occasionnellement une fiche de faits.

Pratique contemplative comme contrôle renforcé

Voici où la pratique contemplative entre. La méditation n’arrête pas le moteur génératif du cerveau. Elle améliore le système de monitoring. Un méditant expérimenté a une meilleure conscience en temps réel de ses propres prédictions, une meilleure détection de quand ces prédictions sont sans fondement, et une meilleure capacité à signaler l’incertitude.

C’est la pièce manquante dans l’alignement actuel de l’IA. Nous avons besoin de modèles qui ne génèrent pas seulement — ils ont besoin de monitorer leur propre génération. Non pas par la vérification de faits externes, mais par des mécanismes internes qui suivent la qualité de la prédiction en temps réel.

Certaines recherches se déplacent dans cette direction. Le travail de calibration de confiance essaie d’aligner la certitude énoncée d’un modèle avec sa précision réelle. Mais la plupart de ce travail est post-hoc — analyser les sorties après génération, pas monitorer le processus de génération lui-même.

L’agenda de recherche

Le cadre de Seth suggère trois directions de recherche concrètes pour l’alignement de l’IA. Premièrement, de meilleurs mécanismes d’ancrage — non pas seulement RAG, mais un retour d’information continu, multi-niveaux pendant la génération. Deuxièmement, le monitoring interne — entraîner les modèles à détecter quand leurs propres prédictions sont faiblement supportées. Troisièmement, la communication d’incertitude — des modèles qui expriment naturellement leur niveau de confiance dans le cadre du processus de génération, pas en tant qu’arrière-pensée.

La tradition contemplative développe les techniques de monitoring interne depuis des millénaires. La neuroscience de la méditation explique enfin pourquoi ces techniques fonctionnent. Et les parallèles structurels aux modèles de langage sont trop clairs pour ignorer.

À Laeka Research, nous traduisons ces intuitions en méthodologies d’entraînement pratiques. Anil Seth a décrit l’architecture de l’expérience consciente. Il s’avère qu’il a aussi décrit l’architecture de la génération de langage. La question maintenant est ce que nous en ferons.

Publications similaires

Leave a Reply

Your email address will not be published. Required fields are marked *