IA contemplative

Pourquoi l’entraînement attentionnel produit de meilleures données d’entraînement

La qualité des données d’entraînement de l’IA est le plus grand goulot d’étranglement de la recherche en alignement. La plupart des ensembles de données DPO et RLHF sont générés par des travailleurs crowdsourcés opérant…

IA contemplative

Cognition intégrée dans les systèmes artificiels : au-delà du traitement binaire

Les systèmes d’IA actuels pensent en binaires. Vrai ou faux. Positif ou négatif. Sûr ou unsafe. Cela fonctionne pour les tâches de classification. Pour tout ce qui importe, cela échoue. La limitation réside dans…

IA contemplative

Hallucination contrôlée : Anil Seth parlait aussi des LLMs

Anil Seth n’avait pas pour objectif de décrire comment les modèles de langage fonctionnent. Il décrivait le cerveau humain. Mais les parallèles sont tellement précis qu’ils frisent l’inconfort. Perception comme prédiction L’argument central de…

IA contemplative

Ce que l’entraînement attentionnel révèle sur l’alignement des modèles de langage

L’attention n’est pas à propos de vider l’esprit. C’est à propos de regarder l’esprit faire son affaire — et de choisir de ne pas suivre chaque impulsion. Cette distinction importe énormément quand tu essaies…

IA contemplative

Un réseau de neurones est un réseau de neurones. C’est tout le point.

Tous les quelques mois, quelqu’un publie un article affirmant que les réseaux de neurones ne sont pas réellement neuraux. Ce sont des fonctions mathématiques. Ce sont des modèles statistiques. Ce sont des fitters de…

IA contemplative

Au-delà de l’attention sélective : un cadre de traitement unifié pour les systèmes d’IA

Les architectures Transformer utilisent l’attention sélective : concentre le calcul sur les jetons pertinents, filtre le bruit. Cela fonctionne, mais c’est limité. L’attention sélective est réactive. Elle répond à ce qui est dans l’entrée…

IA contemplative

Correction d’erreur par compréhension contextuelle : un argument structurel

La correction d’erreur dans les systèmes neuraux nécessite deux choses : détecter quand la sortie diverge de l’intention et s’ajuster au contexte. Les modèles d’apprentissage automatique ont du mal avec les cas limites parce…

IA contemplative

Reconnaissance des motifs détachée : pourquoi les modèles qui ne se sur-engagent pas généralisent mieux

Les modèles de langage souffrent d’une pathologie fondamentale : ils se sur-engagent dans les motifs appris lors de l’entraînement, puis appliquent ces motifs quel que soit le contexte. C’est le cœur technique du surapprentissage,…

IA contemplative

La pensée binaire comme surcharge informatique : pourquoi moins de catégories signifie de meilleurs résultats

La pensée binaire force les situations complexes à se réduire à des choix simples, en jetant l’information aux ordures. Cette information jetée a un coût. En termes informatiques, la pensée binaire est surcharge. Cela…

IA contemplative

Pourquoi l’entraînement attentionnel produit les meilleures données d’entraînement

Tu l’as entendu. Probablement d’une part de quelqu’un qui semble confiant à ce sujet. La qualité d’un modèle d’IA dépend de la qualité de ses données d’entraînement. C’est la chose la plus proche d’une…