Pourquoi les petits modèles avec de bonnes données battent les grands modèles avec de mauvaises données
L’obsession de la taille du modèle manque quelque chose de fondamental. Un modèle de 7 milliards de paramètres entraîné sur des données de haute qualité et spécifiques au domaine surpassera un modèle de 70 milliards entraîné sur des données bruyantes et génériques.
Ce n’est plus controversé dans la recherche. C’est empiriquement évident. Mais cela contredit le récit que plus grand gagne toujours, donc cela n’a pas complètement pénétré la pratique de l’industrie.
L’intuition Chinchilla
Le papier Chinchilla de DeepMind a établi que le ratio optimal entre la taille du modèle et les données d’entraînement est d’environ 1:20. Un modèle devrait être entraîné sur 20 jetons pour chaque paramètre.
La plupart des grands modèles de langage violent ce ratio gravement. Ils sont surdimensionnés par rapport à leurs données d’entraînement. L’implication pratique : tu peux construire un meilleur modèle en investissant dans la qualité des données au lieu du nombre de paramètres bruts.
Cela crée une opportunité pour les modèles spécifiques au domaine. Si tu as des données spécialisées, un modèle 13B ou 7B soigneusement entraîné battra un modèle générique 70B sur ta tâche. Et il sera plus rapide et moins cher à déployer.
Exemples du monde réel
Considère la génération de code. Un modèle 7B entraîné spécifiquement sur des bibliothèques de code de haute qualité surpassera Llama 70B sur les tâches de codage. Pourquoi ? Llama 70B a appris le code en absorbant internet, bruit et tout. Le modèle 7B a appris à partir d’exemples excellents et organisés.
L’IA médicale montre le même motif. Un petit modèle entraîné sur des milliers de textes médicaux soigneusement révisés bat un modèle 70B entraîné sur des données générales d’internet lors du diagnostic de la maladie à partir des antécédents des patients.
Le motif se maintient dans les domaines : analyse juridique, modélisation financière, rédaction scientifique. La spécialisation avec de bonnes données bat la généralité avec de mauvaises données.
Pourquoi cela importe pour l’efficacité
Les lois de mise à l’échelle (scaling laws) importent, mais elles importent moins que la qualité des données. Tu peux entraîner un modèle de 7 milliards de paramètres à une cible de performance spécifique plus rapidement qu’en entraînant un modèle 70B, si le modèle 7B utilise de meilleures données d’entraînement.
Cela a des conséquences pratiques. Le fine-tuning d’un petit modèle de base bien entraîné est plus rapide que le fine-tuning d’un gros. L’inférence est plus rapide. Le déploiement est plus simple.
L’avantage de coût s’accumule. De meilleures données d’entraînement signifient que moins de paramètres sont nécessaires. Moins de paramètres signifie des coûts d’inférence plus bas, une génération plus rapide, une meilleure latence pour les utilisateurs finaux.
Le problème de la qualité des données
La barrière à l’exécution de cette stratégie est évidente : les bonnes données sont chères. Rassembler des données d’entraînement spécifiques au domaine nécessite de l’expertise en matière et une curation soigneuse.
Mais le coût des mauvaises données est plus élevé. L’entraînement sur des données bruyantes et de faible qualité te force à te surcharger pour compenser. Tu te retrouves avec un modèle gonflé qui est lent, cher à exécuter et qui est toujours pire sur ta tâche spécifique.
Les maths favorisent l’investissement dans la qualité des données par rapport à la mise à l’échelle des paramètres. L’industrie découvre lentement cela.
L’avenir des modèles spécialisés
Attends-toi à un déplacement vers des modèles plus petits et mieux entraînés pour des domaines spécifiques. Les organisations ayant accès à des données de domaine de haute qualité construiront leurs propres modèles. Ils seront plus rapides, moins chers et meilleurs que d’utiliser des API génériques.
L’ère des modèles de langage génériques de même taille n’est pas terminée. Mais l’ère de l’hypothèse que les modèles plus gros sont toujours meilleurs est terminée.
Laeka Research — laeka.org