Le phénomène de fusion de modèles : combiner les capacités sans entraînement

Et si tu pouvais combiner les forces de deux modèles sans réentraîner ? Créer un modèle qui écrit du code comme le Modèle A mais raisonne comme le Modèle B ? C’est le fusion de modèles, et ça fonctionne.

La fusion de modèles prend les poids de deux ou plusieurs modèles et les combine de manière intelligente. Le résultat est souvent surprenant : des capacités émergentes que tu ne t’attendrais pas à partir d’une simple moyenne.

Comment fonctionne la fusion de modèles

La fusion la plus simple est l’interpolation linéaire. Si le Modèle A a les poids W_A et le Modèle B a les poids W_B, le modèle fusionné a les poids W = (1-a)*W_A + a*W_B pour un certain poids a.

Cela ne fonctionne presque jamais bien. La moyenne naïve détruit les distributions de poids délicates que les deux modèles ont apprises. Mais avec des techniques prudentes, cela fonctionne étonnamment bien.

SLERP : Interpolation linéaire sphérique

SLERP (Spherical Linear Interpolation) traite les vecteurs de poids comme des points sur une sphère. Au lieu de l’interpolation en ligne droite, elle se déplace le long d’une géodésique à travers l’espace des poids.

SLERP préserve mieux la magnitude des vecteurs de poids que l’interpolation linéaire. Le résultat : des fusions qui maintiennent mieux la cohérence du modèle.

Fusion TIES

TIES (Trim, Interleave, and Ensemble) est plus sophistiqué. Il identifie les changements de poids les plus importants dans chaque modèle, combine seulement ces changements, et utilise des techniques d’ensemble pour fusionner les résultats.

TIES a publié des résultats montrant que fusionner un modèle de code avec un modèle de raisonnement produit de meilleures performances sur les tâches nécessitant les deux compétences que l’un ou l’autre modèle seul.

Fusion DARE

DARE (Domain Adaptation and Rapid Ensemble) échantillonne aléatoirement les poids de chaque modèle au lieu de les moyenner. Contre-intuitivement, cela fonctionne bien pour fusionner les modèles fine-tunés sur des datasets différents.

DARE est particulièrement bon pour combiner plusieurs modèles fine-tunés (par ex. 5 adaptateurs LoRA différents) en un seul modèle cohérent.

Pourquoi la fusion fonctionne

L’insight clé est que les modèles fine-tunés partagent la même architecture de base et sont entraînés à partir de la même initialisation. Leurs espaces de poids sont alignés de manière à permettre une interpolation significative.

Quand tu fusionne les modèles qui ont divergé à partir du même point de départ, tu ne combines pas des matrices de poids arbitraires. Tu es en train de fusionner des écarts soigneusement apprises à partir d’une base commune.

Cas d’usage pratiques

Combiner des adaptateurs spécialisés : Entraîne 5 adaptateurs LoRA sur des domaines différents, fusionne-les en un seul modèle multi-domaines.
Équilibrer les compromis : Un modèle est verbeux mais précis. Un autre est concis mais parfois faux. Fusionne-les pour équilibrer les deux.

Développement rapide de modèles : Tu n’as pas le temps d’entraîner ? Fusionne deux modèles existants et itère à partir de là.

Outils pour la fusion

mergekit est l’outil standard. Il gère SLERP, TIES, DARE, et les stratégies de fusion personnalisées. L’utiliser est trivial :

Définissez une config YAML spécifiant quels modèles fusionner et quelle méthode. Exécutez mergekit. Obtenez un modèle fusionné.

Le processus est rapide (minutes, pas heures) et ne nécessite aucun entraînement.

La limitation

La fusion fonctionne bien seulement quand les modèles sont compatibles : même architecture, niveaux de capacité similaires, entraînés à partir de la même initialisation.

Fusionner un modèle 7B et un modèle 70B ne fonctionnera pas. Fusionner les modèles d’architectures différentes ne fonctionnera pas. Mais au sein des familles compatibles, la fusion est puissante.

Ce que cela signifie

La fusion de modèles démocratise la capacité à créer des modèles spécialisés. Tu n’as pas besoin d’entraîner à partir de zéro. Combine les modèles existants, et tu obtiens souvent quelque chose de mieux que n’importe quel modèle individuel.

C’est particulièrement puissant à l’ère des modèles open source où des dizaines de variantes fine-tunées existent pour chaque tâche.

Laeka Research — laeka.org