Ton dataset est ton modèle. Tout le reste est architecture.
L’industrie de l’IA est obsédée par l’architecture. Transformers vs. modèles d’espace d’état. Dense vs. mixture-of-experts. Milliards vs. billions de paramètres. Ces choix comptent. Mais ils comptent moins que les données.
Deux modèles avec une architecture identique entraînés sur des datasets différents se comporteront complètement différemment. Deux modèles avec des architectures différentes entraînés sur le même dataset se comporteront de manière remarquablement similaire. Le dataset est le modèle. Tout le reste est le conteneur dans lequel il s’expédie.
La preuve
Regarde n’importe quelle comparaison de modèles. Llama 3 vs. Mistral vs. Qwen — les différences architecturales sont des variations mineures sur le thème transformer. Les différences comportementales sont énormes. Ce qui les sépare, c’est les données d’entraînement. La composition, la qualité, les décisions de curation prises par différentes équipes avec des priorités différentes.
GPT-4 ne surpasse pas GPT-3.5 grâce à l’innovation architecturale. L’architecture transformer a à peine changé entre les versions. Il surpasse parce qu’il y a une meilleure curation des données, un meilleur mélange des données, et de meilleures données post-entraînement. L’architecture fournit la capacité. Les données fournissent la capacité comportementale.
Ceci a été démontré à plusieurs reprises dans la recherche. La série Phi de Microsoft a montré qu’un modèle de 1,3B entraîné sur des données de « qualité manuel scolaire » pouvait surpasser les modèles 10 fois sa taille sur les benchmarks de raisonnement. L’architecture était standard. Les données étaient extraordinaires.
Pourquoi l’industrie se trompe sur ce sujet
L’architecture est publiable. Les données ne le sont pas. Les chercheurs publient des articles pour les architectures novatrices, les mécanismes d’attention et les algorithmes d’entraînement. Personne ne publie un article qui dit « nous avons passé six mois à nettoyer notre dataset et le modèle s’est amélioré. » La structure d’incitation pousse l’attention vers l’architecture et loin des données.
L’architecture est aussi plus facile à discuter. Tu peux dessiner des diagrammes des mécanismes d’attention. Tu peux écrire des équations pour les fonctions de perte. La qualité des données est plus difficile à formaliser. Comment quantifies-tu « cet exemple d’entraînement enseigne quelque chose d’utile au modèle » ? Le domaine n’a pas de bonnes métriques pour la qualité des données, donc il se concentre sur ce qu’il peut mesurer : les propriétés architecturales.
Le résultat est une industrie qui traite les données comme une commodity et l’architecture comme le différentiateur. C’est exactement l’inverse.
À quoi ressemblent les bonnes données
Les bonnes données d’entraînement ont quatre propriétés.
Diversité. Les données couvrent une large gamme de sujets, de styles, de formats et de perspectives. Non pas une diversité pour sa propre valeur, mais une diversité qui correspond à la gamme de situations que le modèle rencontrera. Un modèle entraîné exclusivement sur des articles académiques échouera à la conversation décontractée. Un modèle entraîné exclusivement sur Reddit échouera à l’analyse formelle. Le mélange compte.
Qualité. Chaque exemple d’entraînement démontre un usage compétent de la langue. Cela ne signifie pas que chaque exemple doit être brillant. Cela signifie éliminer les exemples incohérents, le fouillis généré par machine, ou le spam. Le ratio signal-bruit du dataset détermine directement le ratio signal-bruit des sorties du modèle.
Pertinence. Les données se connectent à ce pour quoi le modèle sera réellement utilisé. Les modèles polyvalents ont besoin de données générales. Les modèles spécifiques au domaine ont besoin de données de domaine. L’erreur de dataset la plus courante est d’entraîner sur les données disponibles plutôt que sur les données pertinentes, parce que les données pertinentes sont plus difficiles à obtenir.
Structure. Les données enseignent des motifs qui se généralisent. C’est la propriété la plus difficile à concevoir. Un dataset plein de faits isolés enseigne au modèle à récupérer les faits. Un dataset plein de chaînes de raisonnement enseigne au modèle à raisonner. Un dataset plein de conversations empathiques enseigne au modèle à être empathique. La structure des données devient la structure de la cognition du modèle.
L’approche Laeka
Chez Laeka, nous traitons la création de dataset comme l’activité de recherche principale. La sélection architecturale est une décision secondaire. Notre processus commence par une spécification claire de ce que nous voulons que le modèle fasse, puis remonte pour déterminer quelles données d’entraînement produiraient ce comportement.
Cela semble évident. En pratique, presque personne ne le fait. La plupart des équipes commencent par un modèle de base, prennent les datasets disponibles, font du fine-tuning et évaluent. Si les résultats ne sont pas assez bons, elles essaient plus de données, différentes données, ou un modèle plus grand. Le processus est réactif plutôt qu’intentionnel.
La conception intentionnelle du dataset signifie se demander : à quoi ressemble un exemple d’entraînement qui enseigne au modèle de tenir plusieurs perspectives simultanément ? À quoi ressemble un exemple d’entraînement qui développe la capacité du modèle à l’empathie ? À quoi ressemble un exemple d’entraînement qui entraîne le modèle à reconnaître l’incertitude avec précision ?
Ces questions sont plus difficiles que « combien de couches le transformer devrait-il avoir ? » Mais ce sont les questions qui déterminent si le modèle est réellement utile.
L’argument du ROI
Dollar pour dollar, investir dans la qualité des données produit des rendements plus élevés qu’investir dans le calcul ou l’architecture.
Doubler ton budget de calcul te donne un modèle légèrement meilleur sur les benchmarks. Doubler la qualité de tes données d’entraînement te donne un modèle fondamentalement meilleur à son travail. Les lois d’échelle montrent des rendements décroissants sur le calcul. Les rendements sur la qualité des données ne diminuent pas — ils se composent.
Un budget de calcul de 100 000 $ avec un dataset de 10 000 $ produira un modèle pire qu’un budget de calcul de 10 000 $ avec un dataset de 100 000 $. C’est contre-intuitif dans une industrie qui traite le calcul comme la ressource principale. Mais la preuve est cohérente.
La vérité inconfortable
Si ton dataset est ton modèle, alors les personnes qui créent et curaissent ton dataset sont les personnes les plus importantes de ton organisation. Pas les ML engineers. Pas l’équipe infrastructure. Les annotateurs, les curateurs et les concepteurs de données.
La plupart des organisations d’IA traitent ces rôles comme des fonctions de support de faible statut. C’est pourquoi la plupart des modèles d’IA sont médiocres. Tu obtiens le modèle que ton dataset mérite.
Investis dans les données. Investis dans les personnes qui les créent. Tout le reste — l’architecture, le calcul, l’infrastructure — est un mécanisme de livraison pour l’intelligence qui vit dans les données.
Laeka Research — laeka.org