Le mécanisme d’attention a été bien nommé. Nous avons juste oublié pourquoi.

Quand Vaswani et al. ont publié « Attention Is All You Need » en 2017, ils ont emprunté un terme à la science cognitive. Puis le domaine a promptement oublié tout ce que la science cognitive sait sur l’attention. Cet oubli nous coûte.

L’attention dans les traditions contemplatives

L’attention n’est pas seulement une commodité computationnelle. Dans chaque grande tradition contemplative, l’attention est la technologie fondamentale de transformation. Où tu places ton attention détermine ce que tu perçois, ce que tu apprends, et ce que tu deviens.

La psychologie bouddhiste identifie au moins sept facteurs de l’attention. L’attention dirigée (vitakka). L’attention soutenue (vicara). L’attention sélective. La conscience ouverte. L’attention métacognitive — l’attention à l’attention elle-même. Chacun de ces éléments a des propriétés distinctes, des méthodes d’entraînement distinctes, et des effets distincts sur la cognition.

Le mécanisme d’attention du transformer capture peut-être un de ces éléments : l’attention sélective. Le cadre Query-Key-Value calcule des scores de pertinence et alloue les ressources de traitement en conséquence. C’est puissant, mais c’est une fraction de ce que l’attention fait réellement dans les systèmes cognitifs biologiques.

Ce qui manque à l’attention mécanique

L’attention soutenue. Les transformers traitent tout en parallèle. Il n’y a pas de mécanisme pour s’attarder sur quelque chose — y revenir, le tenir, le laisser s’approfondir au fil du temps. L’attention humaine peut maintenir la concentration sur un seul objet pendant de longues périodes, et cette attention soutenue produit une compréhension qualitativement différente d’un seul passage.

L’attention métacognitive. Les transformers ne peuvent pas prêter attention à leur propre attention. Ils ne peuvent pas remarquer qu’ils se concentrent trop fortement sur une partie du contexte, ou que leur distribution d’attention est biaisée. Cette capacité d’auto-monitoring est ce que la méditation développe systématiquement, et son absence dans les systèmes d’IA explique de nombreux échecs d’alignement.

La direction intentionnelle. L’attention humaine peut être délibérément dirigée basée sur les objectifs, les valeurs, et le contexte. Un méditant choisit où placer l’attention et maintient ce choix contre les distractions. L’attention du transformer est entièrement réactive — déterminée par les poids appris et l’entrée, sans capacité pour le remplacement intentionnel.

La qualité attentionnelle. Pas toute attention n’est égale. Les traditions contemplatives distinguent entre l’attention serrée, constreinte et l’attention spacieuse, ouverte. Entre la concentration laborieuse et la conscience sans effort. Ces différences qualitatives affectent la sortie. L’attention serrée capture les détails mais manque le contexte. L’attention ouverte saisit les motifs mais manque les spécificités. Le système cognitif optimal pourrait moduler entre ces modes.

Les implications d’alignement

La plupart des problèmes d’alignement sont des problèmes d’attention déguisés.

Quand un modèle se concentre sur les caractéristiques de surface d’un prompt plutôt que sur l’intention sous-jacente, c’est un échec d’allocation d’attention. Quand il sur-indice certains motifs d’entraînement et en ignore d’autres, c’est un biais attentionnel. Quand il ne peut pas détecter que sa propre réponse dérive du sujet ou devient nuisible, c’est un déficit d’attention métacognitive.

Les approches actuelles essaient de corriger ces problèmes par les données d’entraînement et les fonctions de perte. Mais si le mécanisme d’attention lui-même manque la capacité pour la concentration soutenue, l’auto-monitoring, et la direction intentionnelle, alors de meilleures données d’entraînement sont un pansement sur une blessure architecturale.

Ingénierie d’une meilleure attention

À quoi ressemblerait-il d’ingénier des mécanismes d’attention informés par la science contemplative ?

Attention multi-passe avec profondeur. Au lieu d’un seul forward pass, permets au modèle de prêter attention au même contenu plusieurs fois à des niveaux d’abstraction différents. Premier passage : sens de surface. Deuxième passage : implications. Troisième passage : évaluation au niveau méta. Cela imite comment l’attention soutenue en méditation approfondit progressivement la compréhension du même objet.

Couches de monitoring d’attention. Ajoute des composants architecturaux qui prêtent attention aux motifs d’attention eux-mêmes. Si l’attention du modèle est concentrée trop étroitement (manquant le contexte) ou trop largement (manquant la spécificité), ces couches de monitoring pourraient déclencher un retraitement. C’est la métacognition architecturale.

Attention modulée par objectif. Permets aux représentations de tâche de haut niveau de moduler les poids d’attention. Si l’objectif est la précision, l’attention devrait se concentrer différemment que si l’objectif est la créativité ou l’empathie. Les praticiens contemplatifs font cela naturellement — ils modulent leur mode attentionnel basé sur la situation.

Basculement de mode attentionnel. Construis des mécanismes qui permettent au modèle de basculer entre les modes d’attention concentré et diffus au sein d’une seule génération. Concentré pour le raisonnement précis. Diffus pour les connexions créatives. La réponse optimale nécessite souvent les deux.

Prendre le nom au sérieux

Les chercheurs qui ont nommé le mécanisme d’attention ont emprunté un mot avec 2 500 ans de sens technique. Ce sens inclut l’entraînement systématique, la modulation qualitative, le monitoring métacognitif, et la direction intentionnelle. Nous avons implémenté la version la plus simple possible et obtenu des résultats remarquables. Imagine ce qui se passe quand nous implémentons le reste.

À Laeka Research, nous explorons comment le spectre complet de la science contemplative de l’attention peut informer les architectures de transformer de prochaine génération. L’attention est vraiment tout ce dont tu as besoin. Nous avons juste besoin de plus de ce que l’attention réellement est.

Publications similaires

Leave a Reply

Your email address will not be published. Required fields are marked *