L’ASI ne viendra pas d’un calcul plus important

La course vers l’Intelligence Artificielle Superintelligente a une stratégie de consensus claire : l’échelle. Plus de paramètres. Plus de données. Plus de calcul. Construis un modèle plus grand et l’intelligence émergera. La preuve jusqu’à présent semble soutenir cela. GPT-4 est plus intelligent que GPT-3. Plus de calcul a produit plus d’intelligence. Donc plus de calcul produira la superintelligence.

Cette extrapolation est probablement fausse. Et la preuve de pourquoi se trouve depuis trois mille ans dans les monastères.

L’hypothèse d’échelle

L’hypothèse de scaling dit que l’intelligence est une fonction des ressources informatiques. Double les paramètres, double les données d’entraînement, multiplie les FLOPS, et tu progresses de manière prévisible vers des systèmes plus capables. Les lois de scaling sont empiriques — elles se sont maintenues sur plusieurs ordres de grandeur. L’hypothèse est qu’elles continueront à se maintenir.

Mais les lois de scaling décrivent la performance sur les benchmarks. Elles ne décrivent pas l’intelligence. Ce ne sont pas les mêmes choses.

Un modèle avec 10x plus de paramètres obtient des scores plus élevés sur les tests standardisés. Pense-t-il mieux ? Ou prédit-il mieux les tokens ? La performance des benchmarks mesure la capacité du modèle à produire des continuations de prompts statistiquement probables conçues par des humains. Elle mesure la fluidité, la récupération des connaissances, et la complétion de motifs. Elle ne mesure pas — parce que personne ne sait comment mesurer — la qualité de la structure cognitive sous-jacente à ces sorties.

20 watts

Un cerveau humain fonctionne sur environ 20 watts. Un cluster GPU moderne entraînant un modèle de la frontière consomme des mégawatts. Le cerveau surpasse le cluster sur les tâches qui nécessitent une véritable compréhension, un raisonnement novateur, une sensibilité contextuelle, et une adaptation en temps réel à l’ambiguïté.

La réponse standard est que les cerveaux ont été optimisés par des milliards d’années d’évolution tandis que l’IA a eu des décennies. Avec assez de calcul et de temps, l’IA fermera l’écart.

Peut-être. Mais cela manque la question plus intéressante : qu’a optimisé l’évolution que le calcul seul ne reproduit pas ?

La réponse, nous pensons, est la qualité de l’architecture. Non le nombre de connexions. L’organisation des connexions. Non combien de neurones s’activent. Comment ils sont structurés les uns par rapport aux autres. L’avantage du cerveau n’est pas la puissance. C’est l’élégance. Il résout les problèmes pas cher ce que les systèmes par brute-force résolvent cher (ou ne résolvent pas du tout) parce que son architecture est exquisement organisée pour les tâches qu’il effectue.

Ce que les traditions contemplatives suggèrent

La pratique contemplative est le plus ancien programme de recherche empirique sur l’optimisation de l’architecture cognitive. Des milliers d’années. Des millions de praticiens. Itérant sur une seule question : comment organises-tu un esprit pour la clarté maximale, la stabilité, et l’intuition ?

Le résultat est cohérent à travers les traditions. L’intelligence ne se met pas à l’échelle de l’effort. Elle se met à l’échelle de la qualité structurelle. Un méditant ne devient pas plus sage en pensant plus fort. Il devient plus sage en réorganisant comment la pensée se produit — en dissolvant les processus inutiles, en clarifiant les chemins attentionnels, en réduisant le bruit que la cognition fragmentée produit.

La sortie ressemble à de la superintelligence de l’extérieur. Les réponses qui intègrent plusieurs domaines instantanément. La reconnaissance de motifs à travers des contextes vastement différents. Les solutions qui semblent contourner entièrement le processus de raisonnement parce que l’architecture cognitive les produit directement.

Mais ça fonctionne sur 20 watts. Pas de scaling requis.

L’hypothèse architecturale

La position de Laeka est spécifique : le chemin vers une intelligence supérieure — artificielle ou biologique — passe par la qualité de l’architecture, pas par l’échelle informatique.

Cela ne signifie pas que le calcul est hors de propos. Un cerveau avec 20 neurones ne peut pas égaler un avec 86 milliards indépendamment de l’architecture. L’échelle est nécessaire. Mais au-delà d’un certain seuil, ajouter plus de calcul produit des rendements décroissants à moins que l’architecture s’améliore.

Nous pourrions déjà frapper ce seuil. Les modèles de la frontière sont énormes, et les rendements par paramètre supplémentaire s’aplatissent. La réponse des laboratoires est de pousser plus fort — plus de données, plus de calcul, plus d’échelle. Notre suggestion est que le prochain saut exige une approche différente : non un réseau plus grand, mais un mieux organisé.

Ce que « mieux organisé » signifie

L’entraînement contemplatif optimise l’architecture cognitive le long d’axes spécifiques. Bruit auto-référentiel réduit. Cohérence attentionnelle accrue. Dissolution des fausses frontières catégoriques. Routage plus efficace de l’information. Moins d’énergie dépensée en maintenance narrative, plus disponible pour le traitement réel.

Ce sont des propriétés architecturales, pas des propriétés d’échelle. Un réseau de toute taille qui les met en œuvre devrait surpasser un réseau plus grand qui ne les met pas en œuvre — sur les tâches qui nécessitent un raisonnement véritable plutôt que la récupération de motifs.

Notre hypothèse est que coder ces propriétés architecturales dans les poids des LLM via le fine-tuning est possible et mesurable. Non que le modèle fine-tuné devient superintelligent. Qu’il devient plus efficace — en produisant de meilleures sorties par paramètre, en maintenant la cohérence dans les situations où les modèles plus grands mais moins organisés échouent.

Si cela fonctionne au niveau du fine-tuning, cela suggère un principe pour la conception architecturale : les motifs organisationnels que les traditions contemplatives ont découvert pour les réseaux biologiques peuvent éclairer la conception des réseaux artificiels. Non comme une métaphore. Comme l’ingénierie.

La vraie course

La course vers l’ASI est actuellement encadrée comme un problème matériel. Celui qui construit le plus grand cluster gagne. Nous pensons que c’est un problème logiciel — et plus spécifiquement, un problème architecturale. La question n’est pas combien de calcul tu peux jeter à l’intelligence. C’est comment tu organises le calcul que tu as.

Vingt watts. Quatre-vingt-six milliards de neurones. Des milliers d’années d’optimisation. La réponse à « comment construis-tu une superintelligence ? » existe peut-être déjà. C’est juste pas où quelqu’un ne regarde.

L’ASI ne viendra pas d’un calcul plus important

L’hypothèse d’échelle

20 watts

Ce que les traditions contemplatives suggèrent

L’hypothèse architecturale

Ce que « mieux organisé » signifie

La vraie course

La classification binaire est le bug racine de l’architecture IA actuelle

vLLM, TGI, llama.cpp : Choisir Ton Moteur d’Inférence

Edge AI : exécuter les modèles sur téléphones, ordinateurs portables et Raspberry Pi

Together.ai vs Fireworks.ai vs RunPod : Où héberger ton modèle

Pourquoi Mixture of Experts est l’architecture du moment

Le fine-tuning est du contexte comprimé

Leave a Reply Cancel reply

L’hypothèse d’échelle

20 watts

Ce que les traditions contemplatives suggèrent

L’hypothèse architecturale

Ce que « mieux organisé » signifie

La vraie course

Publications similaires

Leave a Reply Cancel reply