Pourquoi Mixture of Experts est l’architecture du moment
Chaque modèle de frontière publié en 2025 et 2026 utilise une forme de Mixture of Experts. Mixtral a prouvé que cela fonctionne à l’échelle moyenne. DeepSeek a prouvé que cela fonctionne à l’échelle massive. Grok a prouvé que cela fonctionne pour les services de production. MoE n’est plus une architecture de niche — c’est le paradigme dominant pour construire des modèles qui équilibrent la qualité et le coût.
L’argument économique
MoE a remporté à cause de l’économie, pas à cause d’une percée technique unique. La proposition fondamentale : stocker les connaissances dans de nombreux paramètres mais ne calculer que quelques-uns. Un modèle MoE de 60B avec 8B paramètres actifs coûte à peu près la même chose à exécuter qu’un modèle dense de 8B mais livre une qualité plus proche d’un modèle dense de 30B. Ces mathématiques économiques sont irrésistibles.
Les coûts d’entraînement sont plus élevés pour MoE — tu dois entraîner tous les experts, pas seulement les actifs. Mais l’entraînement est un coût unique. L’inférence est continue et s’échelle avec l’utilisation. Pour tout modèle qui voit un trafic de production significatif, les économies d’inférence de MoE dépassent le coût d’entraînement supplémentaire en quelques semaines.
Cet avantage économique se compose à mesure que les modèles s’agrandissent. Un modèle dense de 200B nécessite une massive infrastructure GPU. Un MoE avec 200B total mais 20B actifs fonctionne sur du matériel qui coûte 10x moins par requête. Plus le modèle est grand, plus l’avantage de MoE est grand.
Ce qui a changé depuis les tentatives MoE antérieures
Les architectures MoE existaient depuis des années avant Mixtral. Le Switch Transformer de Google (2021) et GLaM (2022) ont démontré le concept à l’échelle. Mais ils avaient des problèmes : instabilité d’entraînement, l’effondrement du routeur (tous les tokens vont au même expert), et difficulté à s’adapter dans l’infrastructure d’inférence existante.
Trois choses ont changé. D’abord, de meilleures recettes d’entraînement. Les pertes d’équilibrage de charge ont été affinées pour garder les experts utilisés uniformément sans nuire à la qualité du modèle. Les architectures du routeur sont devenues plus simples et plus stables. Les pertes auxiliaires qui empêchent l’effondrement des experts ont été accordées à travers une expérimentation extensive.
Deuxièmement, le support du moteur d’inférence. vLLM, TGI, et llama.cpp ont tous ajouté des optimisations spécifiques à MoE. Les stratégies de parallélisme d’expert pour la desserte multi-GPU ont été développées. L’infrastructure a rattrapé l’architecture.
Troisièmement, l’écosystème open-source l’a adopté. Quand Mixtral a publié en poids ouverts, la communauté a pu expérimenter, affiner, quantifier, et optimiser. Des milliers de développeurs travaillant sur des modèles MoE ont accéléré les progrès bien plus vite que n’importe quel lab unique aurait pu le faire.
Le paysage MoE actuel
Mixtral 8x7B reste le modèle MoE open le plus populaire. Avec 46.7B paramètres totaux et 12.9B actifs, il correspond à Llama 2 70B sur la plupart des benchmarks à une fraction du coût d’inférence. C’est devenu le choix par défaut pour les équipes qui ont besoin d’une meilleure qualité que 7B mais ne peuvent pas se permettre les coûts d’inférence 70B.
DeepSeek-V2 a poussé MoE à un nouvel extrême : 236B paramètres totaux, 21B actifs, utilisant une architecture DeepSeekMoE novel avec un découpage d’expert plus granulaire. La qualité correspondait ou dépassait les modèles denses plusieurs fois son nombre de paramètres actifs.
Les variantes MoE de Qwen, l’architecture de Grok, et GPT-4 (largement cru être MoE) démontrent que l’approche fonctionne dans différents labs et philosophies de conception. Les détails diffèrent — nombre d’experts, stratégies de routage, granularité — mais le principe est universel.
MoE pour le fine-tuning
Le fine-tuning des modèles MoE nécessite des stratégies différentes de celles des modèles denses. La question clé : quelles parties adaptes-tu ?
Adaptateur sur les couches partagées seulement : Applique LoRA aux couches d’attention et aux composants MLP partagés. C’est le moins cher et fonctionne bien pour les tâches où la spécialisation d’expert du modèle de base est déjà utile.
Adaptateur sur tous les experts : Applique LoRA à chaque réseau d’expert. Plus cher mais produit de meilleurs résultats pour les tâches qui nécessitent un changement de comportement des experts. Les experts apprennent de nouvelles spécialisations spécifiques à ton domaine.
Adaptateur sur routeur + experts sélectifs : Affine le mécanisme de routage plus un sous-ensemble d’experts. C’est la frontière expérimentale — enseigner au modèle à router les tokens différemment pour ton cas d’usage spécifique.
En pratique, adapter les couches d’attention partagées plus tous les experts donne les meilleurs résultats pour la plupart des scénarios de fine-tuning, au coût d’à peu près 2x de l’adaptation seulement partagée.
Les limitations dont personne ne parle
L’empreinte mémoire est le sale secret de MoE. Un modèle MoE de 60B a 60B paramètres en mémoire, même que seulement 8B sont actifs par token. Tu dois avoir suffisamment de VRAM pour tenir tous les experts, tout le temps. Pour la planification du déploiement, dimensionne le matériel pour les paramètres totaux, pas les paramètres actifs.
Le déséquilibre d’utilisation d’expert persiste malgré les pertes d’équilibrage de charge. Certains experts voient plus de trafic que d’autres, et les experts sous-utilisés représentent une capacité gaspillée. La recherche sur la création dynamique d’experts et l’élagage vise à résoudre cela, mais ce n’est pas résolu.
La quantification est plus délicate pour les modèles MoE. Différents experts peuvent avoir une sensibilité différente à la quantification, et une seule stratégie de quantification à travers tous les experts n’est pas optimale. La quantification spécifique à l’expert montre des promesses mais ajoute de la complexité au pipeline de déploiement.
Où MoE va ensuite
La frontière se déplace vers plus d’experts avec une granularité plus fine. Au lieu de 8 grands experts, utilise 64 petits experts et active 4. Cela crée plus de spécialisation et un meilleur routage au coût d’une surcharge de communication plus élevée dans les paramètres distribués.
La gestion du cycle de vie expert émerge : ajouter de nouveaux experts pour de nouvelles capacités, fusionner des experts redondants, et élaguer les inutilisés. Cela transforme une architecture statique en quelque chose de plus comme un organisme en croissance qui s’adapte à sa charge de travail au fil du temps.
MoE n’est pas juste une architecture du moment. C’est probablement l’architecture des prochaines années, jusqu’à ce que quelque chose de fondamentalement meilleur au compromis qualité-par-calcul émane.
Pour une couverture continue des développements d’architecture MoE, visite Laeka Research.