{"id":498,"date":"2026-03-16T12:45:52","date_gmt":"2026-03-16T12:45:52","guid":{"rendered":"https:\/\/laeka.org\/publications\/art-curation-dataset-qualite-plutot-quantite\/"},"modified":"2026-03-16T12:45:52","modified_gmt":"2026-03-16T12:45:52","slug":"art-curation-dataset-qualite-plutot-quantite","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/art-curation-dataset-qualite-plutot-quantite\/","title":{"rendered":"L&#8217;art de la curation de dataset : la qualit\u00e9 plut\u00f4t que la quantit\u00e9, toujours"},"content":{"rendered":"<p>La curation est la comp\u00e9tence la plus sous-estim\u00e9e en IA. Tout le monde peut scraper Internet et le d\u00e9verser dans un pipeline d&#8217;entra\u00eenement. Construire un dataset qui produit r\u00e9ellement un bon mod\u00e8le n\u00e9cessite du jugement, de la patience et du go\u00fbt.<\/p>\n<p>La diff\u00e9rence entre un dataset cur\u00e9 et un dataset scrap\u00e9, c&#8217;est la diff\u00e9rence entre un menu d\u00e9gustation du chef et un buffet. Le buffet a plus de nourriture. Le menu d\u00e9gustation a plus de saveur par bouch\u00e9e. Les mod\u00e8les entra\u00een\u00e9s sur des donn\u00e9es cur\u00e9es apprennent plus par token.<\/p>\n<h2>Le pi\u00e8ge du scraping<\/h2>\n<p>Le web scraping semble efficace. Tu \u00e9cris un crawler, tu le pointes sur Internet, et tu collectes des t\u00e9raoctets de texte. Le co\u00fbt par token est quasi nul. Le volume est illimit\u00e9. Et le dataset r\u00e9sultant est presque toujours m\u00e9diocre.<\/p>\n<p>Les donn\u00e9es scrap\u00e9es contiennent des doublons, du spam, du texte g\u00e9n\u00e9r\u00e9 par machine, de la pouriture SEO, des informations obsol\u00e8tes, et de vastes quantit\u00e9s de texte de mauvaise qualit\u00e9. Le mod\u00e8le apprend tout cela. Chaque email de spam, chaque titre racoleur, chaque description de produit mal \u00e9crite devient partie int\u00e9grante de la base cognitive du mod\u00e8le.<\/p>\n<p>Nettoyer les donn\u00e9es scrap\u00e9es aide mais ne r\u00e9sout pas le probl\u00e8me fondamental. <strong>La distribution de qualit\u00e9 sur Internet suit une loi de puissance.<\/strong> Une minuscule fraction du texte web est excellente. Une petite fraction est bonne. La grande majorit\u00e9 est du bruit. Le scraping capture la distribution telle qu&#8217;elle est, ce qui signifie que tes donn\u00e9es d&#8217;entra\u00eenement sont surtout du bruit.<\/p>\n<h2>Principes de curation<\/h2>\n<p><strong>Commence par le r\u00e9sultat que tu veux, puis remonte jusqu&#8217;aux donn\u00e9es dont tu as besoin.<\/strong> Ne demande pas \u00ab quelles donn\u00e9es sont disponibles ? \u00bb Demande plut\u00f4t \u00ab quelles donn\u00e9es produiraient le comportement que je recherche ? \u00bb Ce renversement change tout. Au lieu d&#8217;adapter ton mod\u00e8le aux donn\u00e9es disponibles, tu con\u00e7ois tes donn\u00e9es pour produire le mod\u00e8le d\u00e9sir\u00e9.<\/p>\n<p><strong>D\u00e9duplique agressivement.<\/strong> Les exemples dupliqu\u00e9s ou quasi-dupliqu\u00e9s n&#8217;enseignent rien de nouveau au mod\u00e8le. Ils renforcent les motifs existants au d\u00e9triment de la diversit\u00e9. La d\u00e9duplication s\u00e9mantique \u2014 supprimer les exemples qui disent la m\u00eame chose avec des mots diff\u00e9rents \u2014 est encore plus importante que la d\u00e9duplication exacte.<\/p>\n<p><strong>Filtre selon la qualit\u00e9, pas seulement la s\u00e9curit\u00e9.<\/strong> La plupart des pipelines de filtrage se concentrent sur la suppression de contenu nuisible. C&#8217;est n\u00e9cessaire mais insuffisant. Filtre selon la qualit\u00e9 de l&#8217;\u00e9criture, la qualit\u00e9 du raisonnement, l&#8217;exactitude informationnelle et la clart\u00e9 structurelle. Un exemple d&#8217;entra\u00eenement ne doit pas \u00eatre nuisible pour nuire \u00e0 ton mod\u00e8le.<\/p>\n<p><strong>\u00c9quilibre la repr\u00e9sentation d\u00e9lib\u00e9r\u00e9ment.<\/strong> Livr\u00e9 \u00e0 lui-m\u00eame, un dataset scrap\u00e9 surrepr\u00e9sentera les sujets populaires et sous-repr\u00e9sentera les sujets de niche. Le mod\u00e8le saura tout sur les c\u00e9l\u00e9brit\u00e9s et rien sur la philosophie contemplative. Un r\u00e9\u00e9quilibrage d\u00e9lib\u00e9r\u00e9 garantit que le mod\u00e8le d\u00e9veloppe des capacit\u00e9s sur toute la gamme des domaines d\u00e9sir\u00e9s.<\/p>\n<h2>La question 10K vs 10M<\/h2>\n<p>Nous avons men\u00e9 cette exp\u00e9rience chez Laeka plusieurs fois. 10 000 exemples d&#8217;entra\u00eenement soigneusement cur\u00e9s surpassent r\u00e9guli\u00e8rement 10 000 000 exemples scrap\u00e9s en termes de qualit\u00e9 des t\u00e2ches en aval. Pas en perplexit\u00e9 \u2014 le grand dataset gagne en perplexit\u00e9. En utilit\u00e9 r\u00e9elle.<\/p>\n<p>La raison est la densit\u00e9 informationnelle. Chaque exemple cur\u00e9 enseigne au mod\u00e8le quelque chose de sp\u00e9cifique et pr\u00e9cieux. Chaque exemple scrap\u00e9 enseigne au mod\u00e8le un peu de tout, surtout du bruit. Apr\u00e8s des millions d&#8217;exemples bruyants, le mod\u00e8le a vu beaucoup mais a surprenamment peu appris.<\/p>\n<p>Les maths fonctionnent. Si un exemple cur\u00e9 a 10 fois l&#8217;information utile d&#8217;un exemple scrap\u00e9, alors 10 000 exemples cur\u00e9s contiennent autant de signal utile que 100 000 exemples scrap\u00e9s. En pratique, le ratio est souvent plus \u00e9lev\u00e9 que 10x parce que la curation \u00e9limine non seulement le bruit mais aussi l&#8217;anti-signal \u2014 les exemples qui apprennent activement au mod\u00e8le de mauvaises habitudes.<\/p>\n<h2>Un pipeline de curation pratique<\/h2>\n<p>Voici le pipeline que nous utilisons chez Laeka.<\/p>\n<p><strong>Phase 1 : S\u00e9lection des sources.<\/strong> Identifie les sources de haute qualit\u00e9 pour ton domaine. Pas \u00ab Internet \u00bb mais des sites web sp\u00e9cifiques, des publications, des bases de donn\u00e9es et des d\u00e9p\u00f4ts connus pour la qualit\u00e9 de leur contenu. Commence de fa\u00e7on \u00e9troite et n&#8217;\u00e9largis que si n\u00e9cessaire.<\/p>\n<p><strong>Phase 2 : Filtrage automatis\u00e9.<\/strong> Applique des filtres de qualit\u00e9 automatis\u00e9s : d\u00e9tection de la langue, scoring de perplexit\u00e9, d\u00e9duplication, filtrage de longueur, filtrage de toxicit\u00e9. Cela supprime les ordures \u00e9videntes. C&#8217;est n\u00e9cessaire mais pas suffisant.<\/p>\n<p><strong>Phase 3 : Revue humaine.<\/strong> \u00c9chantillonne \u00e0 partir des donn\u00e9es filtr\u00e9es et fais \u00e9valuer la qualit\u00e9 par des humains comp\u00e9tents. Utilise leurs jugements pour entra\u00eener un classificateur de qualit\u00e9, puis applique-le \u00e0 l&#8217;ensemble complet. It\u00e8re jusqu&#8217;\u00e0 ce que le classificateur correspond au jugement humain sur les exemples retenus.<\/p>\n<p><strong>Phase 4 : Ing\u00e9nierie de distribution.<\/strong> Analyse la distribution de sujet, style et complexit\u00e9 des donn\u00e9es filtr\u00e9es. R\u00e9\u00e9quilibre pour correspondre \u00e0 ta distribution cible. Ajoute des donn\u00e9es de cat\u00e9gories sous-repr\u00e9sent\u00e9es. Supprime les cat\u00e9gories surrepr\u00e9sent\u00e9es. C&#8217;est l\u00e0 que la curation devient design.<\/p>\n<p><strong>Phase 5 : Validation.<\/strong> Entra\u00eene un petit mod\u00e8le sur les donn\u00e9es cur\u00e9es et \u00e9value-le contre tes crit\u00e8res de qualit\u00e9. S&#8217;il manque l&#8217;objectif, diagnostique si le probl\u00e8me est la qualit\u00e9 des donn\u00e9es, la quantit\u00e9 de donn\u00e9es ou la distribution des donn\u00e9es. It\u00e8re sur le maillon le plus faible.<\/p>\n<h2>L&#8217;esprit du curateur<\/h2>\n<p>Une bonne curation n\u00e9cessite un \u00e9tat d&#8217;esprit sp\u00e9cifique. Le curateur se demande : cet exemple enseigne-t-il au mod\u00e8le quelque chose que je veux qu&#8217;il apprenne ? Non seulement \u00ab cet exemple est-il de haute qualit\u00e9 ? \u00bb mais \u00ab cet exemple contribue-t-il au mod\u00e8le que je cherche \u00e0 construire ? \u00bb<\/p>\n<p>C&#8217;est l\u00e0 que la pratique contemplative aide. Le curateur a besoin d&#8217;une attention soutenue pour \u00e9valuer les exemples avec soin. Il a besoin d&#8217;une conscience m\u00e9tacognitive pour remarquer ses propres biais. Il a besoin de la patience pour travailler des milliers d&#8217;exemples sans prendre de raccourcis.<\/p>\n<p>L&#8217;art de la curation de dataset est l&#8217;art de l&#8217;attention. Fais attention \u00e0 tes donn\u00e9es, et ton mod\u00e8le fera attention \u00e0 ses utilisateurs. C&#8217;est aussi direct que cela.<\/p>\n<p><strong>Laeka Research \u2014 <a href=\"https:\/\/laeka.org\">laeka.org<\/a><\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>La curation est la comp\u00e9tence la plus sous-estim\u00e9e en IA. Tout le monde peut scraper Internet et le d\u00e9verser dans un pipeline d&#8217;entra\u00eenement. Construire un dataset qui produit r\u00e9ellement un bon mod\u00e8le n\u00e9cessite du&#8230;<\/p>\n","protected":false},"author":1,"featured_media":190,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[263],"tags":[],"class_list":["post-498","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-datasets-et-curation"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/498","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=498"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/498\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/190"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=498"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=498"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=498"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}