{"id":546,"date":"2026-03-21T19:39:06","date_gmt":"2026-03-21T19:39:06","guid":{"rendered":"https:\/\/laeka.org\/publications\/pourquoi-mixture-of-experts-est-l-architecture-du-moment\/"},"modified":"2026-03-21T19:39:06","modified_gmt":"2026-03-21T19:39:06","slug":"pourquoi-mixture-of-experts-est-l-architecture-du-moment","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/pourquoi-mixture-of-experts-est-l-architecture-du-moment\/","title":{"rendered":"Pourquoi Mixture of Experts est l&#8217;architecture du moment"},"content":{"rendered":"<p>Chaque mod\u00e8le de fronti\u00e8re publi\u00e9 en 2025 et 2026 utilise une forme de Mixture of Experts. Mixtral a prouv\u00e9 que cela fonctionne \u00e0 l&#8217;\u00e9chelle moyenne. DeepSeek a prouv\u00e9 que cela fonctionne \u00e0 l&#8217;\u00e9chelle massive. Grok a prouv\u00e9 que cela fonctionne pour les services de production. MoE n&#8217;est plus une architecture de niche \u2014 c&#8217;est le paradigme dominant pour construire des mod\u00e8les qui \u00e9quilibrent la qualit\u00e9 et le co\u00fbt.<\/p>\n<h2>L&#8217;argument \u00e9conomique<\/h2>\n<p>MoE a remport\u00e9 \u00e0 cause de l&#8217;\u00e9conomie, pas \u00e0 cause d&#8217;une perc\u00e9e technique unique. La proposition fondamentale : stocker les connaissances dans de nombreux param\u00e8tres mais ne calculer que quelques-uns. Un mod\u00e8le MoE de 60B avec 8B param\u00e8tres actifs co\u00fbte \u00e0 peu pr\u00e8s la m\u00eame chose \u00e0 ex\u00e9cuter qu&#8217;un mod\u00e8le dense de 8B mais livre une qualit\u00e9 plus proche d&#8217;un mod\u00e8le dense de 30B. Ces math\u00e9matiques \u00e9conomiques sont irr\u00e9sistibles.<\/p>\n<p>Les co\u00fbts d&#8217;entra\u00eenement sont plus \u00e9lev\u00e9s pour MoE \u2014 tu dois entra\u00eener tous les experts, pas seulement les actifs. Mais l&#8217;entra\u00eenement est un co\u00fbt unique. L&#8217;inf\u00e9rence est continue et s&#8217;\u00e9chelle avec l&#8217;utilisation. Pour tout mod\u00e8le qui voit un trafic de production significatif, les \u00e9conomies d&#8217;inf\u00e9rence de MoE d\u00e9passent le co\u00fbt d&#8217;entra\u00eenement suppl\u00e9mentaire en quelques semaines.<\/p>\n<p>Cet avantage \u00e9conomique se compose \u00e0 mesure que les mod\u00e8les s&#8217;agrandissent. Un mod\u00e8le dense de 200B n\u00e9cessite une massive infrastructure GPU. Un MoE avec 200B total mais 20B actifs fonctionne sur du mat\u00e9riel qui co\u00fbte 10x moins par requ\u00eate. Plus le mod\u00e8le est grand, plus l&#8217;avantage de MoE est grand.<\/p>\n<h2>Ce qui a chang\u00e9 depuis les tentatives MoE ant\u00e9rieures<\/h2>\n<p>Les architectures MoE existaient depuis des ann\u00e9es avant Mixtral. Le Switch Transformer de Google (2021) et GLaM (2022) ont d\u00e9montr\u00e9 le concept \u00e0 l&#8217;\u00e9chelle. Mais ils avaient des probl\u00e8mes : instabilit\u00e9 d&#8217;entra\u00eenement, l&#8217;effondrement du routeur (tous les tokens vont au m\u00eame expert), et difficult\u00e9 \u00e0 s&#8217;adapter dans l&#8217;infrastructure d&#8217;inf\u00e9rence existante.<\/p>\n<p>Trois choses ont chang\u00e9. D&#8217;abord, <strong>de meilleures recettes d&#8217;entra\u00eenement<\/strong>. Les pertes d&#8217;\u00e9quilibrage de charge ont \u00e9t\u00e9 affin\u00e9es pour garder les experts utilis\u00e9s uniform\u00e9ment sans nuire \u00e0 la qualit\u00e9 du mod\u00e8le. Les architectures du routeur sont devenues plus simples et plus stables. Les pertes auxiliaires qui emp\u00eachent l&#8217;effondrement des experts ont \u00e9t\u00e9 accord\u00e9es \u00e0 travers une exp\u00e9rimentation extensive.<\/p>\n<p>Deuxi\u00e8mement, <strong>le support du moteur d&#8217;inf\u00e9rence<\/strong>. vLLM, TGI, et llama.cpp ont tous ajout\u00e9 des optimisations sp\u00e9cifiques \u00e0 MoE. Les strat\u00e9gies de parall\u00e9lisme d&#8217;expert pour la desserte multi-GPU ont \u00e9t\u00e9 d\u00e9velopp\u00e9es. L&#8217;infrastructure a rattrap\u00e9 l&#8217;architecture.<\/p>\n<p>Troisi\u00e8mement, <strong>l&#8217;\u00e9cosyst\u00e8me open-source l&#8217;a adopt\u00e9<\/strong>. Quand Mixtral a publi\u00e9 en poids ouverts, la communaut\u00e9 a pu exp\u00e9rimenter, affiner, quantifier, et optimiser. Des milliers de d\u00e9veloppeurs travaillant sur des mod\u00e8les MoE ont acc\u00e9l\u00e9r\u00e9 les progr\u00e8s bien plus vite que n&#8217;importe quel lab unique aurait pu le faire.<\/p>\n<h2>Le paysage MoE actuel<\/h2>\n<p>Mixtral 8x7B reste le mod\u00e8le MoE open le plus populaire. Avec 46.7B param\u00e8tres totaux et 12.9B actifs, il correspond \u00e0 Llama 2 70B sur la plupart des benchmarks \u00e0 une fraction du co\u00fbt d&#8217;inf\u00e9rence. C&#8217;est devenu le choix par d\u00e9faut pour les \u00e9quipes qui ont besoin d&#8217;une meilleure qualit\u00e9 que 7B mais ne peuvent pas se permettre les co\u00fbts d&#8217;inf\u00e9rence 70B.<\/p>\n<p>DeepSeek-V2 a pouss\u00e9 MoE \u00e0 un nouvel extr\u00eame : 236B param\u00e8tres totaux, 21B actifs, utilisant une architecture DeepSeekMoE novel avec un d\u00e9coupage d&#8217;expert plus granulaire. La qualit\u00e9 correspondait ou d\u00e9passait les mod\u00e8les denses plusieurs fois son nombre de param\u00e8tres actifs.<\/p>\n<p>Les variantes MoE de Qwen, l&#8217;architecture de Grok, et GPT-4 (largement cru \u00eatre MoE) d\u00e9montrent que l&#8217;approche fonctionne dans diff\u00e9rents labs et philosophies de conception. Les d\u00e9tails diff\u00e8rent \u2014 nombre d&#8217;experts, strat\u00e9gies de routage, granularit\u00e9 \u2014 mais le principe est universel.<\/p>\n<h2>MoE pour le fine-tuning<\/h2>\n<p>Le fine-tuning des mod\u00e8les MoE n\u00e9cessite des strat\u00e9gies diff\u00e9rentes de celles des mod\u00e8les denses. La question cl\u00e9 : quelles parties adaptes-tu ?<\/p>\n<p><strong>Adaptateur sur les couches partag\u00e9es seulement :<\/strong> Applique LoRA aux couches d&#8217;attention et aux composants MLP partag\u00e9s. C&#8217;est le moins cher et fonctionne bien pour les t\u00e2ches o\u00f9 la sp\u00e9cialisation d&#8217;expert du mod\u00e8le de base est d\u00e9j\u00e0 utile.<\/p>\n<p><strong>Adaptateur sur tous les experts :<\/strong> Applique LoRA \u00e0 chaque r\u00e9seau d&#8217;expert. Plus cher mais produit de meilleurs r\u00e9sultats pour les t\u00e2ches qui n\u00e9cessitent un changement de comportement des experts. Les experts apprennent de nouvelles sp\u00e9cialisations sp\u00e9cifiques \u00e0 ton domaine.<\/p>\n<p><strong>Adaptateur sur routeur + experts s\u00e9lectifs :<\/strong> Affine le m\u00e9canisme de routage plus un sous-ensemble d&#8217;experts. C&#8217;est la fronti\u00e8re exp\u00e9rimentale \u2014 enseigner au mod\u00e8le \u00e0 router les tokens diff\u00e9remment pour ton cas d&#8217;usage sp\u00e9cifique.<\/p>\n<p>En pratique, adapter les couches d&#8217;attention partag\u00e9es plus tous les experts donne les meilleurs r\u00e9sultats pour la plupart des sc\u00e9narios de fine-tuning, au co\u00fbt d&#8217;\u00e0 peu pr\u00e8s 2x de l&#8217;adaptation seulement partag\u00e9e.<\/p>\n<h2>Les limitations dont personne ne parle<\/h2>\n<p><strong>L&#8217;empreinte m\u00e9moire<\/strong> est le sale secret de MoE. Un mod\u00e8le MoE de 60B a 60B param\u00e8tres en m\u00e9moire, m\u00eame que seulement 8B sont actifs par token. Tu dois avoir suffisamment de VRAM pour tenir tous les experts, tout le temps. Pour la planification du d\u00e9ploiement, dimensionne le mat\u00e9riel pour les param\u00e8tres totaux, pas les param\u00e8tres actifs.<\/p>\n<p><strong>Le d\u00e9s\u00e9quilibre d&#8217;utilisation d&#8217;expert<\/strong> persiste malgr\u00e9 les pertes d&#8217;\u00e9quilibrage de charge. Certains experts voient plus de trafic que d&#8217;autres, et les experts sous-utilis\u00e9s repr\u00e9sentent une capacit\u00e9 gaspill\u00e9e. La recherche sur la cr\u00e9ation dynamique d&#8217;experts et l&#8217;\u00e9lagage vise \u00e0 r\u00e9soudre cela, mais ce n&#8217;est pas r\u00e9solu.<\/p>\n<p><strong>La quantification est plus d\u00e9licate<\/strong> pour les mod\u00e8les MoE. Diff\u00e9rents experts peuvent avoir une sensibilit\u00e9 diff\u00e9rente \u00e0 la quantification, et une seule strat\u00e9gie de quantification \u00e0 travers tous les experts n&#8217;est pas optimale. La quantification sp\u00e9cifique \u00e0 l&#8217;expert montre des promesses mais ajoute de la complexit\u00e9 au pipeline de d\u00e9ploiement.<\/p>\n<h2>O\u00f9 MoE va ensuite<\/h2>\n<p>La fronti\u00e8re se d\u00e9place vers <strong>plus d&#8217;experts avec une granularit\u00e9 plus fine<\/strong>. Au lieu de 8 grands experts, utilise 64 petits experts et active 4. Cela cr\u00e9e plus de sp\u00e9cialisation et un meilleur routage au co\u00fbt d&#8217;une surcharge de communication plus \u00e9lev\u00e9e dans les param\u00e8tres distribu\u00e9s.<\/p>\n<p>La <strong>gestion du cycle de vie expert<\/strong> \u00e9merge : ajouter de nouveaux experts pour de nouvelles capacit\u00e9s, fusionner des experts redondants, et \u00e9laguer les inutilis\u00e9s. Cela transforme une architecture statique en quelque chose de plus comme un organisme en croissance qui s&#8217;adapte \u00e0 sa charge de travail au fil du temps.<\/p>\n<p>MoE n&#8217;est pas juste une architecture du moment. C&#8217;est probablement l&#8217;architecture des prochaines ann\u00e9es, jusqu&#8217;\u00e0 ce que quelque chose de fondamentalement meilleur au compromis qualit\u00e9-par-calcul \u00e9mane.<\/p>\n<p>Pour une couverture continue des d\u00e9veloppements d&#8217;architecture MoE, visite <a href='https:\/\/lab.laeka.org'>Laeka Research<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Chaque mod\u00e8le de fronti\u00e8re publi\u00e9 en 2025 et 2026 utilise une forme de Mixture of Experts. Mixtral a prouv\u00e9 que cela fonctionne \u00e0 l&#8217;\u00e9chelle moyenne. DeepSeek a prouv\u00e9 que cela fonctionne \u00e0 l&#8217;\u00e9chelle massive&#8230;.<\/p>\n","protected":false},"author":1,"featured_media":282,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[260],"tags":[],"class_list":["post-546","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-architecture-ia"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/546","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=546"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/546\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/282"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=546"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=546"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=546"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}