{"id":529,"date":"2026-03-21T15:20:36","date_gmt":"2026-03-21T15:20:36","guid":{"rendered":"https:\/\/laeka.org\/publications\/petits-modeles-bonnes-donnees-battent-grands-modeles-mauvaises-donnees\/"},"modified":"2026-03-21T15:20:36","modified_gmt":"2026-03-21T15:20:36","slug":"petits-modeles-bonnes-donnees-battent-grands-modeles-mauvaises-donnees","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/petits-modeles-bonnes-donnees-battent-grands-modeles-mauvaises-donnees\/","title":{"rendered":"Pourquoi les petits mod\u00e8les avec de bonnes donn\u00e9es battent les grands mod\u00e8les avec de mauvaises donn\u00e9es"},"content":{"rendered":"<p>L&#8217;industrie de l&#8217;IA a pass\u00e9 des ann\u00e9es \u00e0 courir apr\u00e8s le nombre de param\u00e8tres. Des mod\u00e8les plus grands, plus de couches, des dimensions cach\u00e9es plus larges. Puis une s\u00e9rie de r\u00e9sultats a pulv\u00e9ris\u00e9 l&#8217;assomption que la taille d\u00e9termine la destin\u00e9e. Des petits mod\u00e8les entra\u00een\u00e9s sur des donn\u00e9es soigneusement cur\u00e9es ont commenc\u00e9 \u00e0 surpasser des mod\u00e8les dix fois plus grands entra\u00een\u00e9s sur des donn\u00e9es web. Les donn\u00e9es \u00e9taient la diff\u00e9rence depuis le d\u00e9but.<\/p>\n<h2>Le moment Phi<\/h2>\n<p>La s\u00e9rie Phi de Microsoft a rendu le cas impossible \u00e0 ignorer. Phi-2 avec 2,7B param\u00e8tres a surpass\u00e9 Llama 2 7B sur plusieurs benchmarks. Phi-3-mini avec 3,8B a concouru avec des mod\u00e8les cinq fois plus grands. Le secret n&#8217;\u00e9tait pas une innovation architecturale \u2014 c&#8217;\u00e9tait des <strong>donn\u00e9es de qualit\u00e9 manuels scolaires<\/strong>.<\/p>\n<p>L&#8217;\u00e9quipe Phi a utilis\u00e9 des donn\u00e9es synth\u00e9tiques g\u00e9n\u00e9r\u00e9es par des mod\u00e8les plus grands, filtr\u00e9es par des classificateurs de qualit\u00e9, et augment\u00e9es avec du texte du monde r\u00e9el soigneusement s\u00e9lectionn\u00e9. Chaque exemple d&#8217;entra\u00eenement r\u00e9pondait \u00e0 un seuil de qualit\u00e9. Pas de doublons, pas de contenu passe-partout, pas de contenu toxique, pas de remplissage sans information.<\/p>\n<p>Ce n&#8217;\u00e9tait pas une am\u00e9lioration subtile. Sur les benchmarks de raisonnement, les mod\u00e8les Phi frappaient si fort au-dessus de leur classe de poids que les gens soup\u00e7onnaient initialement une contamination de benchmark. Les \u00e9valuations ind\u00e9pendantes ont confirm\u00e9 que les r\u00e9sultats \u00e9taient r\u00e9els. La qualit\u00e9 des donn\u00e9es avait \u00e9t\u00e9 sous-\u00e9valu\u00e9e par une marge \u00e9norme.<\/p>\n<h2>Pourquoi la qualit\u00e9 bat la quantit\u00e9<\/h2>\n<p>Les r\u00e9seaux de neurones apprennent en extrayant des motifs \u00e0 partir des donn\u00e9es d&#8217;entra\u00eenement. Quand les donn\u00e9es sont bruyantes \u2014 informations contradictoires, texte garbled, contenu dupliqu\u00e9, \u00e9criture de faible qualit\u00e9 \u2014 le mod\u00e8le gaspille sa capacit\u00e9 \u00e0 apprendre \u00e0 reproduire le bruit. Chaque param\u00e8tre d\u00e9pens\u00e9 \u00e0 m\u00e9moriser de la camelote est un param\u00e8tre non disponible pour la connaissance utile.<\/p>\n<p>Un petit mod\u00e8le entra\u00een\u00e9 sur des donn\u00e9es propres alloue sa capacit\u00e9 limit\u00e9e efficacement. Chaque param\u00e8tre encode des motifs utiles. Il n&#8217;y a pas de capacit\u00e9 gaspill\u00e9e sur le bruit, pas de signaux conflictuels confondant l&#8217;optimisation, pas de poids mort \u00e0 m\u00e9moriser du contenu dupliqu\u00e9.<\/p>\n<p>Les math\u00e9matiques soutiennent cela intuitivement. Consid\u00e8re un mod\u00e8le 7B entra\u00een\u00e9 sur 1 trillion de tokens de donn\u00e9es web de qualit\u00e9 mixte. Peut-\u00eatre 200 milliards de ces tokens sont genuinely de haute qualit\u00e9. Le mod\u00e8le entra\u00eene effectivement sur 200B bons tokens dilu\u00e9s par 800B tokens de bruit. Maintenant consid\u00e8re un mod\u00e8le 3B entra\u00een\u00e9 sur ces m\u00eames 200B tokens de haute qualit\u00e9. Il voit seulement du signal, pas de bruit. Malgr\u00e9 moins de param\u00e8tres, plus d&#8217;entre eux encodent une connaissance utile.<\/p>\n<h2>La r\u00e9vision des lois de scaling<\/h2>\n<p>Les lois de scaling Chinchilla originales disaient : pour une performance optimale, escalade les donn\u00e9es et param\u00e8tres proportionnellement. Double la taille du mod\u00e8le, double les donn\u00e9es d&#8217;entra\u00eenement. Mais cela supposait une qualit\u00e9 constante des donn\u00e9es \u2014 une assomption qui ne tient pas en pratique.<\/p>\n<p>La recherche de scaling r\u00e9vis\u00e9e montre que <strong>la qualit\u00e9 des donn\u00e9es modifie la courbe de scaling elle-m\u00eame<\/strong>. Les donn\u00e9es de haute qualit\u00e9 rendent les petits mod\u00e8les plus sample-efficaces. Chaque token d&#8217;entra\u00eenement enseigne plus. La taille optimale du mod\u00e8le pour une performance donn\u00e9e chute significativement quand la qualit\u00e9 des donn\u00e9es s&#8217;am\u00e9liore.<\/p>\n<p>Cela a des implications profondes pour la communaut\u00e9 open-source. Tu n&#8217;as pas besoin d&#8217;un mod\u00e8le trillion-param\u00e8tres et d&#8217;un exaflop de compute pour construire quelque chose d&#8217;utile. Tu as besoin d&#8217;un dataset r\u00e9fl\u00e9chi et d&#8217;un mod\u00e8le modeste. La barri\u00e8re s&#8217;est d\u00e9plac\u00e9e du mat\u00e9riel vers la curation.<\/p>\n<h2>Ce que \u00ab bonnes donn\u00e9es \u00bb signifie vraiment<\/h2>\n<p>Bonnes donn\u00e9es n&#8217;est pas juste \u00ab pas de typos \u00bb. C&#8217;est une mesure de qualit\u00e9 multidimensionnelle qui inclut l&#8217;exactitude de l&#8217;information, la clart\u00e9 d&#8217;expression, la diversit\u00e9 de sujets et perspectives, le niveau de difficult\u00e9 appropri\u00e9, et l&#8217;absence de contenu nuisible ou trompeur.<\/p>\n<p><strong>L&#8217;exactitude<\/strong> signifie que les faits dans les donn\u00e9es d&#8217;entra\u00eenement sont corrects. Les mod\u00e8les entra\u00een\u00e9s sur de la d\u00e9sinformation apprennent \u00e0 g\u00e9n\u00e9rer de la d\u00e9sinformation avec confiance. Chaque erreur factuelle dans les donn\u00e9es d&#8217;entra\u00eenement devient une hallucination potentielle dans le mod\u00e8le.<\/p>\n<p><strong>La clart\u00e9<\/strong> signifie que l&#8217;\u00e9criture est bien structur\u00e9e et non ambigu\u00eb. Les mod\u00e8les apprennent le style de leurs donn\u00e9es. Entra\u00eene sur du texte clair, bien organis\u00e9 et le mod\u00e8le produit une sortie claire, bien organis\u00e9e. Entra\u00eene sur du texte confus, divaguant et tu obtiens un mod\u00e8le confus, divaguant.<\/p>\n<p><strong>La diversit\u00e9<\/strong> signifie que le dataset couvre l&#8217;espace de la connaissance et des t\u00e2ches qui t&#8217;importent. Un petit dataset de seulement articles scientifiques produit un mod\u00e8le qui \u00e9crit tout comme un article scientifique. Une repr\u00e9sentation \u00e9quilibr\u00e9e sur les domaines, styles et niveaux de difficult\u00e9 produit des mod\u00e8les plus polyvalents.<\/p>\n<p><strong>La d\u00e9duplications<\/strong> est peut-\u00eatre l&#8217;intervention de qualit\u00e9 la plus impactante. Les datasets du monde r\u00e9el contiennent d&#8217;\u00e9normes quantit\u00e9s de contenu quasi-dupliqu\u00e9. Supprimer les doublons peut r\u00e9duire la taille du dataset de 30-50% tout en am\u00e9liorant la qualit\u00e9 du mod\u00e8le. Le mod\u00e8le arr\u00eate de m\u00e9moriser le contenu r\u00e9p\u00e9t\u00e9 et apprend plut\u00f4t des motifs plus diversifi\u00e9s.<\/p>\n<h2>Les implications pratiques<\/h2>\n<p>Pour les constructeurs travaillant avec des mod\u00e8les ouverts, cela signifie que la strat\u00e9gie de fine-tuning importe plus que la s\u00e9lection du mod\u00e8le de base. Un dataset de fine-tuning bien-cur\u00e9 de 1 000 exemples appliqu\u00e9 \u00e0 un mod\u00e8le 7B peut surpasser un mod\u00e8le 70B mal fine-tuned pour des t\u00e2ches sp\u00e9cifiques.<\/p>\n<p>L&#8217;investissement se d\u00e9place du compute vers la curation. D\u00e9pense moins sur les heures GPU et plus \u00e0 construire, nettoyer et \u00e9valuer ton dataset. Embauche des experts de domaine pour examiner les exemples d&#8217;entra\u00eenement plut\u00f4t que d&#8217;acheter des clusters GPU plus grands.<\/p>\n<p>C&#8217;est finalement une bonne nouvelle pour la d\u00e9mocratisation. Le compute est cher et contr\u00f4l\u00e9 par quelques grandes entreprises. La curation de donn\u00e9es est du travail de connaissance que n&#8217;importe qui peut faire. Le terrain se nivelle quand le facteur d\u00e9cisif est la r\u00e9flexion plut\u00f4t que le budget.<\/p>\n<h2>Le r\u00f4le restant du scaling<\/h2>\n<p>Rien de cela ne signifie que le scaling n&#8217;importe pas. Pour les capacit\u00e9s fronti\u00e8re \u2014 le raisonnement le plus difficile, la connaissance la plus large, la compr\u00e9hension la plus nuanc\u00e9e \u2014 les grands mod\u00e8les avec de grands datasets de haute qualit\u00e9 gagnent toujours. Le point n&#8217;est pas que petit bat grand. C&#8217;est que petit avec super donn\u00e9es bat grand avec mauvaises donn\u00e9es.<\/p>\n<p>La strat\u00e9gie optimale est \u00e9vidente r\u00e9trospectivement : investis d&#8217;abord dans la qualit\u00e9 des donn\u00e9es, puis escalade. Un mod\u00e8le 7B sur donn\u00e9es parfaites surpasse un mod\u00e8le 70B sur donn\u00e9es m\u00e9diocres. Mais un mod\u00e8le 70B sur donn\u00e9es parfaites surpasse tout. La s\u00e9quence importe. Qualit\u00e9 d&#8217;abord, puis quantit\u00e9.<\/p>\n<p>Pour la recherche sur la curation de datasets et les strat\u00e9gies d&#8217;entra\u00eenement de mod\u00e8les, visite <a href='https:\/\/lab.laeka.org'>Laeka Research<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>L&#8217;industrie de l&#8217;IA a pass\u00e9 des ann\u00e9es \u00e0 courir apr\u00e8s le nombre de param\u00e8tres. Des mod\u00e8les plus grands, plus de couches, des dimensions cach\u00e9es plus larges. Puis une s\u00e9rie de r\u00e9sultats a pulv\u00e9ris\u00e9 l&#8217;assomption&#8230;<\/p>\n","protected":false},"author":1,"featured_media":249,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[263],"tags":[],"class_list":["post-529","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-datasets-et-curation"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/529","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=529"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/529\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/249"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=529"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=529"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=529"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}