L’art de la curation de dataset : la qualité plutôt que la quantité, toujours
La curation est la compétence la plus sous-estimée en IA. Tout le monde peut scraper Internet et le déverser dans un pipeline d’entraînement. Construire un dataset qui produit réellement un bon modèle nécessite du jugement, de la patience et du goût.
La différence entre un dataset curé et un dataset scrapé, c’est la différence entre un menu dégustation du chef et un buffet. Le buffet a plus de nourriture. Le menu dégustation a plus de saveur par bouchée. Les modèles entraînés sur des données curées apprennent plus par token.
Le piège du scraping
Le web scraping semble efficace. Tu écris un crawler, tu le pointes sur Internet, et tu collectes des téraoctets de texte. Le coût par token est quasi nul. Le volume est illimité. Et le dataset résultant est presque toujours médiocre.
Les données scrapées contiennent des doublons, du spam, du texte généré par machine, de la pouriture SEO, des informations obsolètes, et de vastes quantités de texte de mauvaise qualité. Le modèle apprend tout cela. Chaque email de spam, chaque titre racoleur, chaque description de produit mal écrite devient partie intégrante de la base cognitive du modèle.
Nettoyer les données scrapées aide mais ne résout pas le problème fondamental. La distribution de qualité sur Internet suit une loi de puissance. Une minuscule fraction du texte web est excellente. Une petite fraction est bonne. La grande majorité est du bruit. Le scraping capture la distribution telle qu’elle est, ce qui signifie que tes données d’entraînement sont surtout du bruit.
Principes de curation
Commence par le résultat que tu veux, puis remonte jusqu’aux données dont tu as besoin. Ne demande pas « quelles données sont disponibles ? » Demande plutôt « quelles données produiraient le comportement que je recherche ? » Ce renversement change tout. Au lieu d’adapter ton modèle aux données disponibles, tu conçois tes données pour produire le modèle désiré.
Déduplique agressivement. Les exemples dupliqués ou quasi-dupliqués n’enseignent rien de nouveau au modèle. Ils renforcent les motifs existants au détriment de la diversité. La déduplication sémantique — supprimer les exemples qui disent la même chose avec des mots différents — est encore plus importante que la déduplication exacte.
Filtre selon la qualité, pas seulement la sécurité. La plupart des pipelines de filtrage se concentrent sur la suppression de contenu nuisible. C’est nécessaire mais insuffisant. Filtre selon la qualité de l’écriture, la qualité du raisonnement, l’exactitude informationnelle et la clarté structurelle. Un exemple d’entraînement ne doit pas être nuisible pour nuire à ton modèle.
Équilibre la représentation délibérément. Livré à lui-même, un dataset scrapé surreprésentera les sujets populaires et sous-représentera les sujets de niche. Le modèle saura tout sur les célébrités et rien sur la philosophie contemplative. Un rééquilibrage délibéré garantit que le modèle développe des capacités sur toute la gamme des domaines désirés.
La question 10K vs 10M
Nous avons mené cette expérience chez Laeka plusieurs fois. 10 000 exemples d’entraînement soigneusement curés surpassent régulièrement 10 000 000 exemples scrapés en termes de qualité des tâches en aval. Pas en perplexité — le grand dataset gagne en perplexité. En utilité réelle.
La raison est la densité informationnelle. Chaque exemple curé enseigne au modèle quelque chose de spécifique et précieux. Chaque exemple scrapé enseigne au modèle un peu de tout, surtout du bruit. Après des millions d’exemples bruyants, le modèle a vu beaucoup mais a surprenamment peu appris.
Les maths fonctionnent. Si un exemple curé a 10 fois l’information utile d’un exemple scrapé, alors 10 000 exemples curés contiennent autant de signal utile que 100 000 exemples scrapés. En pratique, le ratio est souvent plus élevé que 10x parce que la curation élimine non seulement le bruit mais aussi l’anti-signal — les exemples qui apprennent activement au modèle de mauvaises habitudes.
Un pipeline de curation pratique
Voici le pipeline que nous utilisons chez Laeka.
Phase 1 : Sélection des sources. Identifie les sources de haute qualité pour ton domaine. Pas « Internet » mais des sites web spécifiques, des publications, des bases de données et des dépôts connus pour la qualité de leur contenu. Commence de façon étroite et n’élargis que si nécessaire.
Phase 2 : Filtrage automatisé. Applique des filtres de qualité automatisés : détection de la langue, scoring de perplexité, déduplication, filtrage de longueur, filtrage de toxicité. Cela supprime les ordures évidentes. C’est nécessaire mais pas suffisant.
Phase 3 : Revue humaine. Échantillonne à partir des données filtrées et fais évaluer la qualité par des humains compétents. Utilise leurs jugements pour entraîner un classificateur de qualité, puis applique-le à l’ensemble complet. Itère jusqu’à ce que le classificateur correspond au jugement humain sur les exemples retenus.
Phase 4 : Ingénierie de distribution. Analyse la distribution de sujet, style et complexité des données filtrées. Rééquilibre pour correspondre à ta distribution cible. Ajoute des données de catégories sous-représentées. Supprime les catégories surreprésentées. C’est là que la curation devient design.
Phase 5 : Validation. Entraîne un petit modèle sur les données curées et évalue-le contre tes critères de qualité. S’il manque l’objectif, diagnostique si le problème est la qualité des données, la quantité de données ou la distribution des données. Itère sur le maillon le plus faible.
L’esprit du curateur
Une bonne curation nécessite un état d’esprit spécifique. Le curateur se demande : cet exemple enseigne-t-il au modèle quelque chose que je veux qu’il apprenne ? Non seulement « cet exemple est-il de haute qualité ? » mais « cet exemple contribue-t-il au modèle que je cherche à construire ? »
C’est là que la pratique contemplative aide. Le curateur a besoin d’une attention soutenue pour évaluer les exemples avec soin. Il a besoin d’une conscience métacognitive pour remarquer ses propres biais. Il a besoin de la patience pour travailler des milliers d’exemples sans prendre de raccourcis.
L’art de la curation de dataset est l’art de l’attention. Fais attention à tes données, et ton modèle fera attention à ses utilisateurs. C’est aussi direct que cela.
Laeka Research — laeka.org