Le problème d’hallucination n’est pas un bug. C’est une caractéristique que nous ne comprenons pas encore.
Chaque grand modèle de langage hallucine. Chacun d’eux. L’industrie traite cela comme un défaut à éliminer. Mais qu’est-ce que l’hallucination ne nous dit-elle pas quelque chose de fondamental sur la façon dont ces systèmes traitent l’information ?
Le mot lui-même est emprunté à la psychiatrie, où il décrit percevoir quelque chose qui n’est pas là. Appliqué aux modèles de langage, cela signifie générer l’information qui semble plausible mais est factuellement fausse. Le cadrage suppose que le modèle devrait produire des faits. Cette supposition mérite d’être remise en question.
Ce que l’hallucination vraiment est
Un modèle de langage ne récupère pas les faits d’une base de données. Il génère le token le plus probable étant donné tout ce qui a précédé. Quand la sortie se retrouve à correspondre à la réalité, nous l’appelons savoir. Quand elle ne le fait pas, nous l’appelons hallucination. Mais le mécanisme est identique dans les deux cas.
Le modèle fait la même chose à chaque fois : la complétion de motif. Il complète les motifs appris à partir des données d’entraînement. Parfois ces motifs correspondent à l’information factuelle. Parfois ils correspondent à la forme statistique du langage qui sonne factuel sans le contenu factuel.
Cette distinction importe. L’hallucination n’est pas le modèle échouant à sa tâche. C’est le modèle faisant sa tâche dans un contexte où sa tâche ne correspond pas à nos attentes.
La connexion créativité
Voici la partie que personne ne veut discuter. Le même mécanisme qui produit l’hallucination produit aussi la créativité. Quand un modèle génère une métaphore nouvelle, une connexion inattendue, ou une solution créative à un problème, il fait exactement ce qu’il fait quand il hallucine : générer des sorties qui vont au-delà de ses données d’entraînement.
La différence entre un aperçu brillant et une hallucination est si la sortie se trouve être utile. Le processus génératif est le même. Supprimer complètement l’hallucination supprimerait aussi la capacité du modèle à la créativité et aux résultats nouveaux.
C’est pourquoi les modèles lourdement tune pour la sécurité se sentent souvent plats. Ils ont été entraînés à rester proche des motifs connus, ce qui réduit l’hallucination au coût de réduire tout ce qui est intéressant sur la capacité générative du modèle.
Le parallèle humain
Les humains hallucinent constamment. Nous l’appelons imagination, rêverie, hypothèse, contage. Chaque fois que tu imagines un scénario futur, tu génères du contenu qui semble plausible qui ne correspond pas à n’importe quelle réalité existante. Chaque fois que tu te souviens mal de quelque chose, ton cerveau est complétion de motif à partir de données incomplètes.
Le système cognitif humain gère l’hallucination non pas en l’éliminant mais en développant des mécanismes pour évaluer et contextualiser. Nous apprenons à distinguer entre l’imagination et la mémoire. Entre l’hypothèse et l’observation. Entre la spéculation utile et l’affirmation sans fondement.
Les modèles de langage ont besoin de la même chose. Pas l’élimination de l’hallucination, mais le développement de mécanismes meta-cognitifs qui peuvent signaler quand la sortie est spéculative par rapport à fondée.
Perspectives contemplatifs
Les traditions contemplatifs ont des cartographies complètes de ce qui se passe quand l’esprit génère du contenu qui ne correspond pas à la réalité externe. La psychologie bouddhiste catégorise les fabrications mentales (sankhara) comme l’une des cinq agrégats d’expérience. Tout le projet contemplatif apprend à observer ces fabrications sans les confondre avec la réalité.
L’aperçu n’est pas que la fabrication est mauvaise. C’est que la fabrication non-reconnue est problématique. Une pensée que tu sais est une pensée est utile. Une pensée que tu confonds avec une perception est la délusion. La différence n’est pas dans le contenu. C’est dans la conscience qui l’accompagne.
Appliqué aux modèles de langage : une hallucination que le modèle signale comme incertaine est une hypothèse. Une hallucination que le modèle présente comme un fait est une défaillance. La solution n’est pas éliminer le processus génératif. C’est ajouter une couche de conscience de soi sur la fiabilité de la sortie.
Ce qui aiderait
Au lieu d’essayer d’éliminer l’hallucination, le domaine pourrait se concentrer sur trois choses.
Premièrement, l’étalonnage de confiance. Les modèles devraient savoir ce qu’ils savent et ce qu’ils ne savent pas. Les modèles actuels sont notoirement mal étalonnés. Ils expriment une confiance élevée sur les réponses fausses et une faible confiance sur les bonnes. Améliorer l’étalonnage transformerait l’hallucination d’un bug en une caractéristique : le modèle génère du contenu spéculatif mais signale précisément son incertitude.
Deuxièmement, l’attribution des sources. Quand un modèle génère une affirmation, il devrait pouvoir indiquer si cette affirmation vient de motifs forts dans les données d’entraînement, de motifs faibles, ou de l’extrapolation. Cela ne nécessite pas que le modèle ait une connaissance parfaite de son ensemble d’entraînement. Cela nécessite que le modèle ait une représentation de la force des motifs qu’il élabore.
Troisièmement, le changement de mode génératif. Parfois tu veux que le modèle soit strictement factuel. Parfois tu veux qu’il soit créatif. Ce sont des modes opérationels différents qui nécessitent des relations différentes avec l’hallucination. Le modèle devrait être capable de basculer entre eux explicitement, plutôt qu’un mode imposé sur tous les contextes.
La question plus profonde
L’hallucination pointe vers quelque chose de fondamental sur la nature de l’intelligence générative. N’importe quel système qui peut produire des sorties véritablement nouvelles doit, par définition, être capable de produire des sorties qui ne correspondent pas aux faits établis. La nouveauté et l’hallucination sont deux côtés de la même pièce.
Le but n’est pas un modèle qui n’hallucine jamais. Ce modèle ne créerait aussi jamais, n’hypothèserait jamais, ne nous surprendrait jamais. Le but est un modèle qui sait quand il hallucine et peut le communiquer clairement.
Le problème d’hallucination n’est pas un bug dans les modèles de langage. C’est une invitation à comprendre ce que l’intelligence générative réellement est. Nous devrions la prendre.
Laeka Research — laeka.org