Pourquoi les petits modèles avec de bonnes données battent les grands modèles avec de mauvaises données

L’industrie de l’IA a passé des années à courir après le nombre de paramètres. Des modèles plus grands, plus de couches, des dimensions cachées plus larges. Puis une série de résultats a pulvérisé l’assomption que la taille détermine la destinée. Des petits modèles entraînés sur des données soigneusement curées ont commencé à surpasser des modèles dix fois plus grands entraînés sur des données web. Les données étaient la différence depuis le début.

Le moment Phi

La série Phi de Microsoft a rendu le cas impossible à ignorer. Phi-2 avec 2,7B paramètres a surpassé Llama 2 7B sur plusieurs benchmarks. Phi-3-mini avec 3,8B a concouru avec des modèles cinq fois plus grands. Le secret n’était pas une innovation architecturale — c’était des données de qualité manuels scolaires.

L’équipe Phi a utilisé des données synthétiques générées par des modèles plus grands, filtrées par des classificateurs de qualité, et augmentées avec du texte du monde réel soigneusement sélectionné. Chaque exemple d’entraînement répondait à un seuil de qualité. Pas de doublons, pas de contenu passe-partout, pas de contenu toxique, pas de remplissage sans information.

Ce n’était pas une amélioration subtile. Sur les benchmarks de raisonnement, les modèles Phi frappaient si fort au-dessus de leur classe de poids que les gens soupçonnaient initialement une contamination de benchmark. Les évaluations indépendantes ont confirmé que les résultats étaient réels. La qualité des données avait été sous-évaluée par une marge énorme.

Pourquoi la qualité bat la quantité

Les réseaux de neurones apprennent en extrayant des motifs à partir des données d’entraînement. Quand les données sont bruyantes — informations contradictoires, texte garbled, contenu dupliqué, écriture de faible qualité — le modèle gaspille sa capacité à apprendre à reproduire le bruit. Chaque paramètre dépensé à mémoriser de la camelote est un paramètre non disponible pour la connaissance utile.

Un petit modèle entraîné sur des données propres alloue sa capacité limitée efficacement. Chaque paramètre encode des motifs utiles. Il n’y a pas de capacité gaspillée sur le bruit, pas de signaux conflictuels confondant l’optimisation, pas de poids mort à mémoriser du contenu dupliqué.

Les mathématiques soutiennent cela intuitivement. Considère un modèle 7B entraîné sur 1 trillion de tokens de données web de qualité mixte. Peut-être 200 milliards de ces tokens sont genuinely de haute qualité. Le modèle entraîne effectivement sur 200B bons tokens dilués par 800B tokens de bruit. Maintenant considère un modèle 3B entraîné sur ces mêmes 200B tokens de haute qualité. Il voit seulement du signal, pas de bruit. Malgré moins de paramètres, plus d’entre eux encodent une connaissance utile.

La révision des lois de scaling

Les lois de scaling Chinchilla originales disaient : pour une performance optimale, escalade les données et paramètres proportionnellement. Double la taille du modèle, double les données d’entraînement. Mais cela supposait une qualité constante des données — une assomption qui ne tient pas en pratique.

La recherche de scaling révisée montre que la qualité des données modifie la courbe de scaling elle-même. Les données de haute qualité rendent les petits modèles plus sample-efficaces. Chaque token d’entraînement enseigne plus. La taille optimale du modèle pour une performance donnée chute significativement quand la qualité des données s’améliore.

Cela a des implications profondes pour la communauté open-source. Tu n’as pas besoin d’un modèle trillion-paramètres et d’un exaflop de compute pour construire quelque chose d’utile. Tu as besoin d’un dataset réfléchi et d’un modèle modeste. La barrière s’est déplacée du matériel vers la curation.

Ce que « bonnes données » signifie vraiment

Bonnes données n’est pas juste « pas de typos ». C’est une mesure de qualité multidimensionnelle qui inclut l’exactitude de l’information, la clarté d’expression, la diversité de sujets et perspectives, le niveau de difficulté approprié, et l’absence de contenu nuisible ou trompeur.

L’exactitude signifie que les faits dans les données d’entraînement sont corrects. Les modèles entraînés sur de la désinformation apprennent à générer de la désinformation avec confiance. Chaque erreur factuelle dans les données d’entraînement devient une hallucination potentielle dans le modèle.

La clarté signifie que l’écriture est bien structurée et non ambiguë. Les modèles apprennent le style de leurs données. Entraîne sur du texte clair, bien organisé et le modèle produit une sortie claire, bien organisée. Entraîne sur du texte confus, divaguant et tu obtiens un modèle confus, divaguant.

La diversité signifie que le dataset couvre l’espace de la connaissance et des tâches qui t’importent. Un petit dataset de seulement articles scientifiques produit un modèle qui écrit tout comme un article scientifique. Une représentation équilibrée sur les domaines, styles et niveaux de difficulté produit des modèles plus polyvalents.

La déduplications est peut-être l’intervention de qualité la plus impactante. Les datasets du monde réel contiennent d’énormes quantités de contenu quasi-dupliqué. Supprimer les doublons peut réduire la taille du dataset de 30-50% tout en améliorant la qualité du modèle. Le modèle arrête de mémoriser le contenu répété et apprend plutôt des motifs plus diversifiés.

Les implications pratiques

Pour les constructeurs travaillant avec des modèles ouverts, cela signifie que la stratégie de fine-tuning importe plus que la sélection du modèle de base. Un dataset de fine-tuning bien-curé de 1 000 exemples appliqué à un modèle 7B peut surpasser un modèle 70B mal fine-tuned pour des tâches spécifiques.

L’investissement se déplace du compute vers la curation. Dépense moins sur les heures GPU et plus à construire, nettoyer et évaluer ton dataset. Embauche des experts de domaine pour examiner les exemples d’entraînement plutôt que d’acheter des clusters GPU plus grands.

C’est finalement une bonne nouvelle pour la démocratisation. Le compute est cher et contrôlé par quelques grandes entreprises. La curation de données est du travail de connaissance que n’importe qui peut faire. Le terrain se nivelle quand le facteur décisif est la réflexion plutôt que le budget.

Le rôle restant du scaling

Rien de cela ne signifie que le scaling n’importe pas. Pour les capacités frontière — le raisonnement le plus difficile, la connaissance la plus large, la compréhension la plus nuancée — les grands modèles avec de grands datasets de haute qualité gagnent toujours. Le point n’est pas que petit bat grand. C’est que petit avec super données bat grand avec mauvaises données.

La stratégie optimale est évidente rétrospectivement : investis d’abord dans la qualité des données, puis escalade. Un modèle 7B sur données parfaites surpasse un modèle 70B sur données médiocres. Mais un modèle 70B sur données parfaites surpasse tout. La séquence importe. Qualité d’abord, puis quantité.

Pour la recherche sur la curation de datasets et les stratégies d’entraînement de modèles, visite Laeka Research.