{"id":490,"date":"2026-03-16T12:41:00","date_gmt":"2026-03-16T12:41:00","guid":{"rendered":"https:\/\/laeka.org\/publications\/phenomene-fusion-modeles-combiner-capacites-sans-entrainement\/"},"modified":"2026-03-16T12:41:00","modified_gmt":"2026-03-16T12:41:00","slug":"phenomene-fusion-modeles-combiner-capacites-sans-entrainement","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/phenomene-fusion-modeles-combiner-capacites-sans-entrainement\/","title":{"rendered":"Le ph\u00e9nom\u00e8ne de fusion de mod\u00e8les : combiner les capacit\u00e9s sans entra\u00eenement"},"content":{"rendered":"<p>Et si tu pouvais combiner les forces de deux mod\u00e8les sans r\u00e9entra\u00eener ? Cr\u00e9er un mod\u00e8le qui \u00e9crit du code comme le Mod\u00e8le A mais raisonne comme le Mod\u00e8le B ? C&#8217;est le fusion de mod\u00e8les, et \u00e7a fonctionne.<\/p>\n<p>La fusion de mod\u00e8les prend les poids de deux ou plusieurs mod\u00e8les et les combine de mani\u00e8re intelligente. Le r\u00e9sultat est souvent surprenant : des capacit\u00e9s \u00e9mergentes que tu ne t&#8217;attendrais pas \u00e0 partir d&#8217;une simple moyenne.<\/p>\n<h2>Comment fonctionne la fusion de mod\u00e8les<\/h2>\n<p>La fusion la plus simple est l&#8217;interpolation lin\u00e9aire. Si le Mod\u00e8le A a les poids W_A et le Mod\u00e8le B a les poids W_B, le mod\u00e8le fusionn\u00e9 a les poids W = (1-a)*W_A + a*W_B pour un certain poids a.<\/p>\n<p>Cela ne fonctionne presque jamais bien. La moyenne na\u00efve d\u00e9truit les distributions de poids d\u00e9licates que les deux mod\u00e8les ont apprises. Mais avec des techniques prudentes, cela fonctionne \u00e9tonnamment bien.<\/p>\n<h2>SLERP : Interpolation lin\u00e9aire sph\u00e9rique<\/h2>\n<p>SLERP (Spherical Linear Interpolation) traite les vecteurs de poids comme des points sur une sph\u00e8re. Au lieu de l&#8217;interpolation en ligne droite, elle se d\u00e9place le long d&#8217;une g\u00e9od\u00e9sique \u00e0 travers l&#8217;espace des poids.<\/p>\n<p>SLERP pr\u00e9serve mieux la magnitude des vecteurs de poids que l&#8217;interpolation lin\u00e9aire. Le r\u00e9sultat : des fusions qui maintiennent mieux la coh\u00e9rence du mod\u00e8le.<\/p>\n<h2>Fusion TIES<\/h2>\n<p>TIES (Trim, Interleave, and Ensemble) est plus sophistiqu\u00e9. Il identifie les changements de poids les plus importants dans chaque mod\u00e8le, combine seulement ces changements, et utilise des techniques d&#8217;ensemble pour fusionner les r\u00e9sultats.<\/p>\n<p>TIES a publi\u00e9 des r\u00e9sultats montrant que fusionner un mod\u00e8le de code avec un mod\u00e8le de raisonnement produit de meilleures performances sur les t\u00e2ches n\u00e9cessitant les deux comp\u00e9tences que l&#8217;un ou l&#8217;autre mod\u00e8le seul.<\/p>\n<h2>Fusion DARE<\/h2>\n<p>DARE (Domain Adaptation and Rapid Ensemble) \u00e9chantillonne al\u00e9atoirement les poids de chaque mod\u00e8le au lieu de les moyenner. Contre-intuitivement, cela fonctionne bien pour fusionner les mod\u00e8les fine-tun\u00e9s sur des datasets diff\u00e9rents.<\/p>\n<p>DARE est particuli\u00e8rement bon pour combiner plusieurs mod\u00e8les fine-tun\u00e9s (par ex. 5 adaptateurs LoRA diff\u00e9rents) en un seul mod\u00e8le coh\u00e9rent.<\/p>\n<h2>Pourquoi la fusion fonctionne<\/h2>\n<p>L&#8217;insight cl\u00e9 est que les mod\u00e8les fine-tun\u00e9s partagent la m\u00eame architecture de base et sont entra\u00een\u00e9s \u00e0 partir de la m\u00eame initialisation. Leurs espaces de poids sont align\u00e9s de mani\u00e8re \u00e0 permettre une interpolation significative.<\/p>\n<p>Quand tu fusionne les mod\u00e8les qui ont diverg\u00e9 \u00e0 partir du m\u00eame point de d\u00e9part, tu ne combines pas des matrices de poids arbitraires. Tu es en train de fusionner des \u00e9carts soigneusement apprises \u00e0 partir d&#8217;une base commune.<\/p>\n<h2>Cas d&#8217;usage pratiques<\/h2>\n<p><strong>Combiner des adaptateurs sp\u00e9cialis\u00e9s :<\/strong> Entra\u00eene 5 adaptateurs LoRA sur des domaines diff\u00e9rents, fusionne-les en un seul mod\u00e8le multi-domaines.<br \/>\n<strong>\u00c9quilibrer les compromis :<\/strong> Un mod\u00e8le est verbeux mais pr\u00e9cis. Un autre est concis mais parfois faux. Fusionne-les pour \u00e9quilibrer les deux.<\/p>\n<p><strong>D\u00e9veloppement rapide de mod\u00e8les :<\/strong> Tu n&#8217;as pas le temps d&#8217;entra\u00eener ? Fusionne deux mod\u00e8les existants et it\u00e8re \u00e0 partir de l\u00e0.<\/p>\n<h2>Outils pour la fusion<\/h2>\n<p>mergekit est l&#8217;outil standard. Il g\u00e8re SLERP, TIES, DARE, et les strat\u00e9gies de fusion personnalis\u00e9es. L&#8217;utiliser est trivial :<\/p>\n<p>D\u00e9finissez une config YAML sp\u00e9cifiant quels mod\u00e8les fusionner et quelle m\u00e9thode. Ex\u00e9cutez mergekit. Obtenez un mod\u00e8le fusionn\u00e9.<\/p>\n<p>Le processus est rapide (minutes, pas heures) et ne n\u00e9cessite aucun entra\u00eenement.<\/p>\n<h2>La limitation<\/h2>\n<p>La fusion fonctionne bien seulement quand les mod\u00e8les sont compatibles : m\u00eame architecture, niveaux de capacit\u00e9 similaires, entra\u00een\u00e9s \u00e0 partir de la m\u00eame initialisation.<\/p>\n<p>Fusionner un mod\u00e8le 7B et un mod\u00e8le 70B ne fonctionnera pas. Fusionner les mod\u00e8les d&#8217;architectures diff\u00e9rentes ne fonctionnera pas. Mais au sein des familles compatibles, la fusion est puissante.<\/p>\n<h2>Ce que cela signifie<\/h2>\n<p>La fusion de mod\u00e8les d\u00e9mocratise la capacit\u00e9 \u00e0 cr\u00e9er des mod\u00e8les sp\u00e9cialis\u00e9s. Tu n&#8217;as pas besoin d&#8217;entra\u00eener \u00e0 partir de z\u00e9ro. Combine les mod\u00e8les existants, et tu obtiens souvent quelque chose de mieux que n&#8217;importe quel mod\u00e8le individuel.<\/p>\n<p>C&#8217;est particuli\u00e8rement puissant \u00e0 l&#8217;\u00e8re des mod\u00e8les open source o\u00f9 des dizaines de variantes fine-tun\u00e9es existent pour chaque t\u00e2che.<\/p>\n<p><strong>Laeka Research \u2014 <a href=\"https:\/\/laeka.org\">laeka.org<\/a><\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Et si tu pouvais combiner les forces de deux mod\u00e8les sans r\u00e9entra\u00eener ? Cr\u00e9er un mod\u00e8le qui \u00e9crit du code comme le Mod\u00e8le A mais raisonne comme le Mod\u00e8le B ? C&#8217;est le fusion&#8230;<\/p>\n","protected":false},"author":1,"featured_media":176,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[260],"tags":[],"class_list":["post-490","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-architecture-ia"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/490","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=490"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/490\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/176"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=490"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=490"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=490"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}