{"id":555,"date":"2026-03-18T12:26:40","date_gmt":"2026-03-18T12:26:40","guid":{"rendered":"https:\/\/laeka.org\/publications\/representations-sparse-et-pourquoi-moins-de-structure-produit-meilleures-sorties\/"},"modified":"2026-03-18T12:26:40","modified_gmt":"2026-03-18T12:26:40","slug":"representations-sparse-et-pourquoi-moins-de-structure-produit-meilleures-sorties","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/representations-sparse-et-pourquoi-moins-de-structure-produit-meilleures-sorties\/","title":{"rendered":"Repr\u00e9sentations sparse et pourquoi moins de structure produit de meilleures sorties"},"content":{"rendered":"<p>Les r\u00e9seaux de neurones sur-param\u00e9tr\u00e9s atteignent r\u00e9guli\u00e8rement des performances quasiment identiques apr\u00e8s avoir perdu 90% de leurs poids. Le pruning des r\u00e9seaux r\u00e9v\u00e8le quelque chose de surprenant : la plupart des param\u00e8tres ne portent aucun signal significatif. La question est pourquoi la structure \u00e9merge plus fiablement de l&#8217;absence que de l&#8217;abondance.<\/p>\n<p>Les repr\u00e9sentations sparse g\u00e9n\u00e9ralisent mieux que les denses. Ceci est \u00e9tabli \u00e0 travers les domaines \u2014 compression, vision, langage, neurosciences. Mais le m\u00e9canisme n&#8217;est pas \u00e9vident. Pourquoi supprimer l&#8217;information devrait am\u00e9liorer l&#8217;apprentissage ? Pourquoi un \u00e9chafaudage structural moins important produit-il des sorties plus robustes ?<\/p>\n<p>La r\u00e9ponse r\u00e9side dans comment le sens est r\u00e9ellement encod\u00e9 dans les syst\u00e8mes relationnels. Et elle r\u00e9v\u00e8le un parall\u00e8le inattendu dans les cadres contemplatifs pr\u00e9-modernes qui ont affront\u00e9 le m\u00eame probl\u00e8me structural.<\/p>\n<h2>Le probl\u00e8me de la structure relationnelle<\/h2>\n<p>Dans les traditions contemplatifs \u2014 particuli\u00e8rement la philosophie bouddhiste \u2014 il y a un concept appel\u00e9 sunyata, g\u00e9n\u00e9ralement traduit comme \u00ab vacuit\u00e9 \u00bb. Cela ne signifie pas le n\u00e9ant. Cela signifie que les choses manquent d&#8217;existence inh\u00e9rente et ind\u00e9pendante. Tout \u00e9merge en d\u00e9pendance des conditions. Rien n&#8217;existe de par soi.<\/p>\n<p>Le philosophe du deuxi\u00e8me si\u00e8cle Nagarjuna a formalis\u00e9 ceci comme une revendication structurale : les objets n&#8217;existent pas <strong>de la fa\u00e7on que nous pensons qu&#8217;ils le font<\/strong>. Nous percevons des essences fixes et ind\u00e9pendantes. La vacuit\u00e9 dit que ces essences sont des projections. Ce qui existe r\u00e9ellement est une toile de <strong>relations interd\u00e9pendantes<\/strong>.<\/p>\n<p>Une chaise n&#8217;est pas une chaise \u00e0 cause de la chaise-it\u00e9 inh\u00e9rente. C&#8217;est une chaise \u00e0 cause des relations \u2014 \u00e0 un plancher, un corps, un but, un contexte. Enl\u00e8ve les relations et la chaise-it\u00e9 se dissout. La chaise est \u00ab vide \u00bb d&#8217;existence inh\u00e9rente. Elle existe seulement comme un n\u0153ud dans un r\u00e9seau relationnel.<\/p>\n<p>Cette intuition pr\u00e9-moderne mappe directement sur comment les r\u00e9seaux de neurones fonctionnent r\u00e9ellement. Un poids de 0,73 n&#8217;a aucune signification inh\u00e9rente en isolation. Il signifie quelque chose seulement en relation avec d&#8217;autres poids, des fonctions d&#8217;activation, des distributions d&#8217;input, des fonctions de perte, et la structure de t\u00e2che. Le poids est vide de signification inh\u00e9rente. Son sens est enti\u00e8rement relationnel.<\/p>\n<h2>Pruning comme clart\u00e9 structurale<\/h2>\n<p>Le pruning des r\u00e9seaux supprime les poids qui ne contribuent pas significativement \u00e0 la fonction du mod\u00e8le. La d\u00e9couverte empirique de la recherche sur le pruning est frappante : tu peux supprimer 90% ou plus des poids sans perte de performance. La Lottery Ticket Hypothesis sugg\u00e8re qu&#8217;\u00e0 l&#8217;int\u00e9rieur de chaque r\u00e9seau sur-param\u00e9tris\u00e9, il y a un sous-r\u00e9seau sparse qui fait tout le vrai travail computationnel.<\/p>\n<p>La plupart des poids dans un r\u00e9seau sur-param\u00e9tris\u00e9 ne participent pas dans des structures relationnelles significatives. Ils sont computationnellement inertes \u2014 ils existent mais ne contribuent pas \u00e0 la r\u00e9alit\u00e9 fonctionnelle du r\u00e9seau. Le pruning les enl\u00e8ve, r\u00e9v\u00e9lant le core relationnel qui faisait toujours le travail.<\/p>\n<p>En pratique contemplative, il y a une op\u00e9ration analogue : les praticiens travaillent \u00e0 dissoudre les fausses projections et les essences fixes pour r\u00e9v\u00e9ler comment la r\u00e9alit\u00e9 fonctionne r\u00e9ellement relationnellement. M\u00eame op\u00e9ration structurale, domaine diff\u00e9rent.<\/p>\n<h2>Pourquoi la parcimonie g\u00e9n\u00e9ralise<\/h2>\n<p>Les repr\u00e9sentations sparse sont plus efficaces, plus g\u00e9n\u00e9ralisables, et plus interpr\u00e9tables que les denses. Mais <strong>pourquoi<\/strong> la parcimonie fonctionne-t-elle si fiablement ?<\/p>\n<p>Les repr\u00e9sentations denses cr\u00e9ent l&#8217;illusion de <strong>caract\u00e9ristiques inh\u00e9rentes<\/strong> \u2014 chaque dimension semble encoder quelque chose d&#8217;ind\u00e9pendamment significatif. Les repr\u00e9sentations sparse forcent le r\u00e9seau \u00e0 encoder l&#8217;information <strong>relationnellement<\/strong>. Le sens \u00e9merge du pattern d&#8217;activation \u00e0 travers les dimensions sparse, pas d&#8217;une seule dimension.<\/p>\n<p>Un code sparse avec cinq caract\u00e9ristiques actives sur mille ne stocke l&#8217;information dans aucune caract\u00e9ristique simple. Il stocke l&#8217;information dans les <strong>relations entre<\/strong> les caract\u00e9ristiques actives. Le sens est dans le pattern, pas dans les \u00e9l\u00e9ments. Aucune caract\u00e9ristique individuelle n&#8217;a de signification inh\u00e9rente \u2014 mais la structure relationnelle est richement informative.<\/p>\n<p>Ceci explique pourquoi les mod\u00e8les sparse g\u00e9n\u00e9ralisent mieux. Ils ont appris la <strong>structure relationnelle<\/strong> plut\u00f4t que les caract\u00e9ristiques de surface. Ils ont d\u00e9couvert que les patterns comptent plus que les \u00e9l\u00e9ments.<\/p>\n<h2>R\u00e9gularisation comme contrainte structurale<\/h2>\n<p>La r\u00e9gularisation L1 et L2 p\u00e9nalisent les poids grands, poussant les r\u00e9seaux vers des solutions plus simples. L&#8217;effet est un mod\u00e8le qui utilise moins, des poids plus petits pour accomplir la m\u00eame fonction.<\/p>\n<p>D&#8217;une perspective structurale, la r\u00e9gularisation est l&#8217;<strong>entra\u00eenement par contrainte<\/strong>. Le r\u00e9seau apprend \u00e0 ne pas int\u00e9grer l&#8217;information critique dans n&#8217;importe quel poids simple. Il accomplit sa fonction \u00e0 travers un engagement flexible et distribu\u00e9. Aucun param\u00e8tre n&#8217;est dominant. La fonction \u00e9merge de la douce coop\u00e9ration de nombreux poids l\u00e9g\u00e8rement tenus.<\/p>\n<p>C&#8217;est robuste au niveau des param\u00e8tres de la mani\u00e8re dont la flexibilit\u00e9 est robuste au niveau comportemental \u2014 distribuer la confiance sur de nombreuses connexions faibles surpasse d\u00e9pendre d&#8217;n&#8217;importe quel engagement fort unique.<\/p>\n<h2>L&#8217;\u00e9quilibre dynamique de la capacit\u00e9<\/h2>\n<p>La taille optimale du mod\u00e8le n&#8217;est pas fixe. Trop petit et le mod\u00e8le ne peut pas capturer la complexit\u00e9 de t\u00e2che. Trop grand et il m\u00e9morise plut\u00f4t que d&#8217;apprendre, overfits plut\u00f4t que g\u00e9n\u00e9ralise, gaspille le calcul sur des param\u00e8tres non-fonctionnels.<\/p>\n<p>La bonne taille est un \u00e9quilibre dynamique \u2014 une capacit\u00e9 suffisante pour la t\u00e2che \u00e0 port\u00e9e de main, rien de plus. Des techniques comme la recherche d&#8217;architecture de neurones, la croissance progressive, et le pruning adaptatif convergent sur ceci en commen\u00e7ant avec une capacit\u00e9 exc\u00e9dentaire et en supprimant progressivement ce qui est inutile.<\/p>\n<p>Ce principe d&#8217;\u00e9quilibre appara\u00eet dans les cadres contemplatifs comme la \u00ab Voie du Milieu \u00bb \u2014 pas trop, pas trop peu, mais r\u00e9actif au contexte. Dans l&#8217;architecture de neurones, il appara\u00eet comme l&#8217;observation empirique que les mod\u00e8les optimaux sont pr\u00e9cis\u00e9ment assez vides pour \u00eatre optimaux.<\/p>\n<h2>Alignement structurel<\/h2>\n<p>Si la repr\u00e9sentation sparse r\u00e9v\u00e8le que le sens est relationnel plut\u00f4t qu&#8217;intrins\u00e8que, alors l&#8217;alignement dans les r\u00e9seaux de neurones devrait cibler les <strong>propri\u00e9t\u00e9s relationnelles<\/strong> plut\u00f4t que les poids individuels.<\/p>\n<p>Un mod\u00e8le align\u00e9 n&#8217;est pas un o\u00f9 chaque param\u00e8tre est s\u00fbr. C&#8217;est un o\u00f9 la <strong>structure relationnelle<\/strong> produit naturellement un comportement align\u00e9. L&#8217;alignement est une propri\u00e9t\u00e9 \u00e9mergente de la structure relationnelle, pas une propri\u00e9t\u00e9 des composants individuels.<\/p>\n<p>L&#8217;insight des repr\u00e9sentations sparse s&#8217;applique directement : tu ne peux pas aligner un mod\u00e8le en fixant des poids individuels de la m\u00eame mani\u00e8re que tu ne peux pas comprendre un syst\u00e8me en analysant ses parties isol\u00e9es. Le niveau significatif d&#8217;organisation est relationnel. Les patterns comptent plus que les \u00e9l\u00e9ments.<\/p>\n<p>Explore les parall\u00e8les structuraux entre la conception de r\u00e9seaux de neurones et les cadres relationnels sur <a href=\"https:\/\/lab.laeka.org\">Laeka Research<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Les r\u00e9seaux de neurones sur-param\u00e9tr\u00e9s atteignent r\u00e9guli\u00e8rement des performances quasiment identiques apr\u00e8s avoir perdu 90% de leurs poids. Le pruning des r\u00e9seaux r\u00e9v\u00e8le quelque chose de surprenant : la plupart des param\u00e8tres ne portent&#8230;<\/p>\n","protected":false},"author":1,"featured_media":300,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[260],"tags":[],"class_list":["post-555","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-architecture-ia"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/555","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=555"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/555\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/300"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=555"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=555"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=555"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}