{"id":525,"date":"2026-03-21T14:19:56","date_gmt":"2026-03-21T14:19:56","guid":{"rendered":"https:\/\/laeka.org\/publications\/phenomene-fusion-modeles-combiner-capacites-sans-entrainnement\/"},"modified":"2026-03-21T14:19:56","modified_gmt":"2026-03-21T14:19:56","slug":"phenomene-fusion-modeles-combiner-capacites-sans-entrainnement","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/phenomene-fusion-modeles-combiner-capacites-sans-entrainnement\/","title":{"rendered":"Le Ph\u00e9nom\u00e8ne de Fusion de Mod\u00e8les : Combiner les Capacit\u00e9s sans Entra\u00eenement"},"content":{"rendered":"<p>La fusion de mod\u00e8les est l&#8217;une des plus \u00e9tranges perc\u00e9es en IA open-source. Prends deux mod\u00e8les fine-tuned, moyenne leurs poids de la bonne fa\u00e7on, et obtiens un mod\u00e8le qui combine les deux sp\u00e9cialit\u00e9s. Pas d&#8217;entra\u00eenement suppl\u00e9mentaire requis. Pas de temps GPU. Juste des math\u00e9matiques sur les tenseurs de poids.<\/p>\n<h2>Comment Fonctionne la Fusion de Poids<\/h2>\n<p>L&#8217;insight fondamental est que les mod\u00e8les fine-tuned partagent une base commune. Quand tu fine-tunes Llama pour le code et separately fine-tunes Llama pour l&#8217;\u00e9criture cr\u00e9ative, les deux mod\u00e8les ont boug\u00e9 du m\u00eame point de d\u00e9part dans des directions diff\u00e9rentes. La fusion trouve un point dans l&#8217;espace des poids qui capture les deux mouvements.<\/p>\n<p>L&#8217;approche la plus simple est l&#8217;<strong>interpolation lin\u00e9aire<\/strong> (LERP). Prends 50% des poids du Mod\u00e8le A et 50% des poids du Mod\u00e8le B. Le r\u00e9sultat h\u00e9rite souvent des capacit\u00e9s de tous les deux, bien qu&#8217;avec une certaine d\u00e9gradation sur chacun. Tu peux ajuster le ratio \u2014 70\/30, 80\/20 \u2014 pour biaiser vers les forces d&#8217;un mod\u00e8le.<\/p>\n<p>Mais l&#8217;interpolation lin\u00e9aire est crude. Elle suppose que tous les param\u00e8tres sont \u00e9galement importants et que le chemin entre deux mod\u00e8les dans l&#8217;espace des poids est droit. Aucune des deux assomptions ne tient bien en pratique.<\/p>\n<h2>SLERP, TIES, et DARE : Des M\u00e9thodes de Fusion Plus Intelligentes<\/h2>\n<p><strong>SLERP<\/strong> (Spherical Linear Interpolation) traite les vecteurs de poids comme des points sur une hypersph\u00e8re et interpole le long de la surface de la sph\u00e8re plut\u00f4t que par l&#8217;int\u00e9rieur. Cela pr\u00e9serve la magnitude des vecteurs de poids, ce qui importe parce que le comportement du r\u00e9seau de neurones est sensible aux normes de poids. SLERP surperforme constamment la fusion lin\u00e9aire.<\/p>\n<p><strong>TIES-Merging<\/strong> (Trim, Elect Sign, and Disjoint Merge) prend une approche plus principled. Elle identifie quels param\u00e8tres ont r\u00e9ellement chang\u00e9 pendant le fine-tuning, r\u00e9sout les conflits de signe entre les mod\u00e8les, et merge seulement les param\u00e8tres qui importent. L&#8217;insight est que la plupart des changements de fine-tuning sont du bruit \u2014 seulement une petite fraction des weight deltas porte l&#8217;information significative.<\/p>\n<p><strong>DARE<\/strong> (Drop And REscale) abandonne al\u00e9atoirement une grande fraction des fine-tuning deltas et rescale les restants. Cela agit comme une forme de r\u00e9gularisation, r\u00e9duisant l&#8217;interf\u00e9rence entre les mod\u00e8les. Combin\u00e9 avec TIES, DARE+TIES est devenu l&#8217;une des recettes de fusion les plus fiables.<\/p>\n<h2>Pourquoi Cela Fonctionne (Et Quand Ce N&#8217;est Pas le Cas)<\/h2>\n<p>La fusion de mod\u00e8les fonctionne \u00e0 cause de l&#8217;hypoth\u00e8se de la <strong>connectivit\u00e9 en mode lin\u00e9aire<\/strong>. Les mod\u00e8les fine-tuned \u00e0 partir de la m\u00eame base se situent souvent dans le m\u00eame \u00ab bassin \u00bb du paysage de perte. Se d\u00e9placer entre eux ne traverse pas les barri\u00e8res de haute perte, donc les points interm\u00e9diaires restent fonctionnels.<\/p>\n<p>Cela \u00e9choue de mani\u00e8re pr\u00e9visible. Les mod\u00e8les fine-tuned avec des distributions de donn\u00e9es tr\u00e8s diff\u00e9rentes, des hyperparam\u00e8tres tr\u00e8s diff\u00e9rents, ou pour des t\u00e2ches tr\u00e8s diff\u00e9rentes tendent \u00e0 produire des fusions pauvres. Plus deux mod\u00e8les se sont \u00e9loign\u00e9s de leur anc\u00eatre commun, moins la fusion a de chances de succ\u00e8s.<\/p>\n<p>La fusion \u00e9choue aussi quand les capacit\u00e9s entrent en conflit. Un mod\u00e8le entra\u00een\u00e9 \u00e0 toujours refuser les demandes nuisibles et un mod\u00e8le entra\u00een\u00e9 \u00e0 ne jamais refuser \u2014 fusionner ceux-ci produit de la confusion, pas du compromis. Le mod\u00e8le fusionn\u00e9 oscille impr\u00e9visiblement entre les comportements.<\/p>\n<h2>L&#8217;\u00c9cosyst\u00e8me Mergekit<\/h2>\n<p>L&#8217;outil qui a d\u00e9mocratis\u00e9 la fusion est <strong>mergekit<\/strong>, une librairie open-source qui impl\u00e9mente chaque algorithm de fusion majeur. Avec un simple fichier de configuration YAML, tu sp\u00e9cifies tes mod\u00e8les source, la m\u00e9thode de fusion, et les param\u00e8tres. Lance le script, obtiens un mod\u00e8le fusionn\u00e9. Le processus prend des minutes sur CPU \u2014 pas besoin de GPU.<\/p>\n<p>Mergekit supporte les strat\u00e9gies de fusion sp\u00e9cifiques \u00e0 la couche. Tu peux fusionner les attention layers d&#8217;un mod\u00e8le avec les MLP layers d&#8217;un autre. Tu peux utiliser des poids d&#8217;interpolation diff\u00e9rents pour les diff\u00e9rentes profondeurs de couche. Cette granularit\u00e9 laisse les praticiens exp\u00e9riment\u00e9s cr\u00e9er des fusions qui surpassent n&#8217;importe quelle strat\u00e9gie uniforme.<\/p>\n<p>La communaut\u00e9 Hugging Face a embrac\u00e9 la fusion avec enthousiasme. L&#8217;Open LLM Leaderboard features fr\u00e9quemment des mod\u00e8les fusionn\u00e9s en haut des classements. Certains des mod\u00e8les les plus populaires sur le Hub \u2014 t\u00e9l\u00e9charg\u00e9s des millions de fois \u2014 sont des fusions que personne n&#8217;a entra\u00een\u00e9es de z\u00e9ro.<\/p>\n<h2>Recettes Pratiques de Fusion<\/h2>\n<p>La recette la plus fiable pour fusionner deux mod\u00e8les : utilise <strong>DARE+TIES avec une densit\u00e9 de 0.5 et un poids de 0.5<\/strong> pour chaque mod\u00e8le. Cela abandonne la moiti\u00e9 des fine-tuning deltas de chaque mod\u00e8le, r\u00e9sout les conflits de signe, et produit une fusion propre. Commence ici, puis ajuste bas\u00e9 sur les r\u00e9sultats d&#8217;\u00e9valuation.<\/p>\n<p>Pour fusionner un mod\u00e8le sp\u00e9cialiste avec un g\u00e9n\u00e9raliste, biaiser les poids vers le sp\u00e9cialiste (0.6-0.7) tout en gardant le g\u00e9n\u00e9raliste comme stabilisateur (0.3-0.4). Le g\u00e9n\u00e9raliste pr\u00e9vient le sp\u00e9cialiste de perdre les capacit\u00e9s g\u00e9n\u00e9rales.<\/p>\n<p>Pour fusionner trois ou plus de mod\u00e8les, fusionne par paires. Fusionne A et B en premier, puis fusionne le r\u00e9sultat avec C. L&#8217;ordre importe \u2014 exp\u00e9rimente avec diff\u00e9rentes s\u00e9quences. Fusionner tous \u00e0 la fois avec les poids \u00e9gaux produit g\u00e9n\u00e9ralement pire r\u00e9sultats que la fusion pairwise s\u00e9quentielle.<\/p>\n<h2>Les Limites et l&#8217;Avenir<\/h2>\n<p>La fusion de mod\u00e8les est puissante mais pas magique. Elle ne peut pas cr\u00e9er des capacit\u00e9s qui n&#8217;existent pas dans les mod\u00e8les source. Elle ne peut pas combiner de mani\u00e8re fiable les comportements conflictuels. Et le plafond de qualit\u00e9 est inf\u00e9rieur \u00e0 l&#8217;entra\u00eenement d&#8217;un mod\u00e8le unique sur les donn\u00e9es combin\u00e9es \u2014 si tu as le compute pour cela.<\/p>\n<p>Mais pour la communaut\u00e9 open-source, la fusion remplit un gap critique. Tout le monde ne peut pas se permettre d&#8217;entra\u00eener les mod\u00e8les. Tout le monde n&#8217;a pas de datasets uniques. La fusion permet aux individus et aux petites \u00e9quipes de cr\u00e9er des mod\u00e8les qui servent leurs besoins sp\u00e9cifiques en combinant les fine-tunes publiquement disponibles. C&#8217;est la d\u00e9mocratisation par l&#8217;arithm\u00e9tique de l&#8217;espace des poids.<\/p>\n<p>La fronti\u00e8re bouge vers la fusion apprises \u2014 utiliser une petite quantit\u00e9 de donn\u00e9es pour optimiser les coefficients de fusion plut\u00f4t que de les fixer manuellement. Cela promet de fermer l&#8217;\u00e9cart entre la fusion et l&#8217;entra\u00eenement r\u00e9el, rendant la technique encore plus puissante.<\/p>\n<p>Explore plus de techniques IA open-source et les strat\u00e9gies de d\u00e9veloppement de mod\u00e8les chez <a href=\"https:\/\/lab.laeka.org\">Laeka Research<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>La fusion de mod\u00e8les est l&#8217;une des plus \u00e9tranges perc\u00e9es en IA open-source. Prends deux mod\u00e8les fine-tuned, moyenne leurs poids de la bonne fa\u00e7on, et obtiens un mod\u00e8le qui combine les deux sp\u00e9cialit\u00e9s. Pas&#8230;<\/p>\n","protected":false},"author":1,"featured_media":241,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[260],"tags":[],"class_list":["post-525","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-architecture-ia"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/525","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=525"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/525\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/241"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=525"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=525"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=525"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}