Les lois de mise à l’échelle de Chinchilla sont fausses. Voici ce qui les a remplacées.
En 2022, l’article Chinchilla de DeepMind a remodelé l’industrie de l’IA. L’affirmation : pour l’entraînement optimal en calcul, échelle les paramètres et les tokens de données de manière égale. Un modèle de 70B a besoin d’environ 1.4T tokens. L’industrie s’est réorganisée autour de cette loi. Puis Llama a prouvé que c’était faux.
Ce que Chinchilla a réellement dit
Les lois de mise à l’échelle de Chinchilla ont établi un ratio : pour un budget de calcul donné, l’allocation optimale entre les paramètres du modèle et les tokens d’entraînement suit un ratio d’environ 1:20. Un modèle de 10B devrait voir ~200B tokens. Un modèle de 70B devrait voir ~1.4T tokens. Dépenser le calcul en plus de paramètres sans proportionnellement plus de données, ou vice versa, gaspille les ressources.
C’était une correction à l’approche de GPT-3, qui était massivement sur-paramétrée par rapport à ses données d’entraînement. Chinchilla 70B, entraîné sur la « bonne » quantité de données, correspondait à la performance de GPT-3 175B avec moins de la moitié des paramètres. L’implication était claire : l’industrie avait construit des modèles qui étaient trop gros et les entraîné sur trop peu de données.
Les labs ont pris note. Les runs d’entraînement ont été redessinés autour du ratio Chinchilla. L’encadrement du « calcul optimal » est devenu l’évangile.
Où Chinchilla se trompe
Chinchilla optimise pour le calcul d’entraînement, pas le coût total du cycle de vie. C’est une distinction critique. Entraîner un modèle se produit une fois. Exécuter l’inférence se produit des millions de fois. Un modèle plus petit entraîné sur plus de données coûte plus cher à entraîner mais coûte dramatiquement moins à déployer.
Llama a démontré cela magnifiquement. Llama 1 7B a été entraîné sur 1T tokens — environ 7x la quantité optimale de Chinchilla. Llama 2 7B a vu 2T tokens. Llama 3.1 8B a consommé 15T tokens. Chaque version a été « sur-entraînée » selon les standards Chinchilla, mais chaque a été mieux que la précédente.
La raison : quand tu te soucies du coût d’inférence, tu veux le plus petit modèle qui atteint ta cible de qualité. Sur-entraîner un petit modèle au-delà du ratio Chinchilla produit un modèle qui est moins cher à exécuter mais presque aussi bon qu’un modèle plus grand et optimal de Chinchilla. Le calcul d’entraînement supplémentaire est un coût unique qui rapporte des dividendes chaque fois que le modèle sert une requête.
Les lois d’échelle optimales pour l’inférence
Les chercheurs d’institutions incluant Meta, Hugging Face, et plusieurs universités ont développé des lois d’échelle révisées qui tiennent compte du coût d’inférence. Le cadre est appelé mise à l’échelle optimale pour l’inférence ou parfois « mise à l’échelle consciente du déploiement ».
L’insight : étant donné un budget d’inférence fixe (coût par token en production), la stratégie d’entraînement optimale est d’entraîner un modèle plus petit sur significativement plus de données que Chinchilla recommande. Combien de plus dépend de ton volume d’inférence attendu.
Pour un modèle qui servira des milliards de requêtes, le ratio optimal entraînement-à-paramètre pourrait être 100:1 ou même 200:1 — 10x la recommandation Chinchilla. Le coût d’entraînement supplémentaire est amorti sur tant d’appels d’inférence qu’il devient négligeable.
Cela explique la tendance de l’industrie vers les modèles plus petits, massivement entraînés. Ce n’est pas que les labs ont oublié Chinchilla. Ils optimisent pour un objectif différent : le coût total minimum de propriété plutôt que le coût d’entraînement minimum.
La qualité des données change l’équation
L’autre facteur que Chinchilla n’a pas tenu compte est la variation de qualité des données. Les lois d’échelle originales supposaient une qualité de données à peu près uniforme. En pratique, le premier trillion de tokens de haute qualité enseigne plus par token que le deuxième trillion, qui enseigne plus que le troisième.
Cela signifie que les courbes de mise à l’échelle ne sont pas des lois de puissance lisses — elles ont des points d’inflexion où l’ajout de plus de données de qualité déclinante rend les rendements décroissants plus rapides que la théorie le prédit. Les modèles Phi ont prouvé qu’un petit modèle sur des données de haute qualité peut correspondre à un modèle plus grand sur des données de plus faible qualité, cassant complètement la relation Chinchilla.
La recherche moderne de mise à l’échelle traite la qualité des données comme une variable dans les équations de mise à l’échelle plutôt qu’une constante. Les prédictions résultantes sont plus complexes mais plus précises : la taille de modèle optimale et la quantité de données dépendent de la distribution de qualité des données d’entraînement disponibles, pas seulement du budget de calcul total.
Ce que cela signifie en pratique
Pour les organisations qui entraînent des modèles, les implications pratiques sont claires. Ne suis pas aveuglément les ratios Chinchilla. Au lieu de cela, considère ton scénario de déploiement :
Si tu entraînes un modèle pour un cas d’utilisation de production spécifique et de haut volume, entraîne un modèle plus petit sur beaucoup plus de données que Chinchilla suggère. Les économies d’inférence dépasseront bien le coût d’entraînement supplémentaire.
Si tu entraînes un modèle de recherche qui sera évalué sur des benchmarks et puis principalement rangé, les ratios Chinchilla vont bien. Le calcul d’entraînement domine quand le volume d’inférence est faible.
Si tu travailles avec des données limitées, de haute qualité et ne peux pas facilement obtenir plus, un modèle plus grand entraîné sur moins de données peut être optimal. Le modèle a besoin de suffisamment de paramètres pour absorber la connaissance dans tes données, et il y a une taille minimale d’ensemble de données en dessous de laquelle les modèles plus petits gaspillent la capacité.
La vue d’ensemble
Les lois d’échelle ne sont pas des constantes physiques. Ce sont des observations empiriques qui dépendent d’hypothèses sur l’architecture, les données, le matériel, et l’optimisation — tout cela change au fil du temps. Chinchilla était correct pour son contexte (optimisation du calcul d’entraînement en 2022). C’est faux pour le contexte d’aujourd’hui (optimisation du coût total avec des charges de travail dominées par l’inférence).
La leçon n’est pas que les lois d’échelle sont inutiles. C’est que tu dois comprendre quelle variable elles optimisent et si cette variable correspond à ton objectif. Appliquer aveuglément la loi d’échelle de quelqu’un d’autre à ton problème est un chemin rapide vers des résultats sous-optimaux.
Pour la recherche continue sur l’efficacité de l’entraînement et la mise à l’échelle du modèle, visite Laeka Research.