{"id":497,"date":"2026-03-16T12:44:18","date_gmt":"2026-03-16T12:44:18","guid":{"rendered":"https:\/\/laeka.org\/publications\/dataset-est-ton-modele-tout-reste-architecture\/"},"modified":"2026-03-16T12:44:18","modified_gmt":"2026-03-16T12:44:18","slug":"dataset-est-ton-modele-tout-reste-architecture","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/dataset-est-ton-modele-tout-reste-architecture\/","title":{"rendered":"Ton dataset est ton mod\u00e8le. Tout le reste est architecture."},"content":{"rendered":"<p>L&#8217;industrie de l&#8217;IA est obs\u00e9d\u00e9e par l&#8217;architecture. Transformers vs. mod\u00e8les d&#8217;espace d&#8217;\u00e9tat. Dense vs. mixture-of-experts. Milliards vs. billions de param\u00e8tres. Ces choix comptent. Mais ils comptent moins que les donn\u00e9es.<\/p>\n<p>Deux mod\u00e8les avec une architecture identique entra\u00een\u00e9s sur des datasets diff\u00e9rents se comporteront compl\u00e8tement diff\u00e9remment. Deux mod\u00e8les avec des architectures diff\u00e9rentes entra\u00een\u00e9s sur le m\u00eame dataset se comporteront de mani\u00e8re remarquablement similaire. <strong>Le dataset est le mod\u00e8le.<\/strong> Tout le reste est le conteneur dans lequel il s&#8217;exp\u00e9die.<\/p>\n<h2>La preuve<\/h2>\n<p>Regarde n&#8217;importe quelle comparaison de mod\u00e8les. Llama 3 vs. Mistral vs. Qwen \u2014 les diff\u00e9rences architecturales sont des variations mineures sur le th\u00e8me transformer. Les diff\u00e9rences comportementales sont \u00e9normes. Ce qui les s\u00e9pare, c&#8217;est les donn\u00e9es d&#8217;entra\u00eenement. La composition, la qualit\u00e9, les d\u00e9cisions de curation prises par diff\u00e9rentes \u00e9quipes avec des priorit\u00e9s diff\u00e9rentes.<\/p>\n<p>GPT-4 ne surpasse pas GPT-3.5 gr\u00e2ce \u00e0 l&#8217;innovation architecturale. L&#8217;architecture transformer a \u00e0 peine chang\u00e9 entre les versions. Il surpasse parce qu&#8217;il y a une meilleure curation des donn\u00e9es, un meilleur m\u00e9lange des donn\u00e9es, et de meilleures donn\u00e9es post-entra\u00eenement. L&#8217;architecture fournit la capacit\u00e9. Les donn\u00e9es fournissent la capacit\u00e9 comportementale.<\/p>\n<p>Ceci a \u00e9t\u00e9 d\u00e9montr\u00e9 \u00e0 plusieurs reprises dans la recherche. La s\u00e9rie Phi de Microsoft a montr\u00e9 qu&#8217;un mod\u00e8le de 1,3B entra\u00een\u00e9 sur des donn\u00e9es de \u00ab qualit\u00e9 manuel scolaire \u00bb pouvait surpasser les mod\u00e8les 10 fois sa taille sur les benchmarks de raisonnement. L&#8217;architecture \u00e9tait standard. Les donn\u00e9es \u00e9taient extraordinaires.<\/p>\n<h2>Pourquoi l&#8217;industrie se trompe sur ce sujet<\/h2>\n<p>L&#8217;architecture est publiable. Les donn\u00e9es ne le sont pas. Les chercheurs publient des articles pour les architectures novatrices, les m\u00e9canismes d&#8217;attention et les algorithmes d&#8217;entra\u00eenement. Personne ne publie un article qui dit \u00ab nous avons pass\u00e9 six mois \u00e0 nettoyer notre dataset et le mod\u00e8le s&#8217;est am\u00e9lior\u00e9. \u00bb La structure d&#8217;incitation pousse l&#8217;attention vers l&#8217;architecture et loin des donn\u00e9es.<\/p>\n<p>L&#8217;architecture est aussi plus facile \u00e0 discuter. Tu peux dessiner des diagrammes des m\u00e9canismes d&#8217;attention. Tu peux \u00e9crire des \u00e9quations pour les fonctions de perte. La qualit\u00e9 des donn\u00e9es est plus difficile \u00e0 formaliser. Comment quantifies-tu \u00ab cet exemple d&#8217;entra\u00eenement enseigne quelque chose d&#8217;utile au mod\u00e8le \u00bb ? Le domaine n&#8217;a pas de bonnes m\u00e9triques pour la qualit\u00e9 des donn\u00e9es, donc il se concentre sur ce qu&#8217;il peut mesurer : les propri\u00e9t\u00e9s architecturales.<\/p>\n<p>Le r\u00e9sultat est une industrie qui traite les donn\u00e9es comme une commodity et l&#8217;architecture comme le diff\u00e9rentiateur. C&#8217;est exactement l&#8217;inverse.<\/p>\n<h2>\u00c0 quoi ressemblent les bonnes donn\u00e9es<\/h2>\n<p>Les bonnes donn\u00e9es d&#8217;entra\u00eenement ont quatre propri\u00e9t\u00e9s.<\/p>\n<p><strong>Diversit\u00e9.<\/strong> Les donn\u00e9es couvrent une large gamme de sujets, de styles, de formats et de perspectives. Non pas une diversit\u00e9 pour sa propre valeur, mais une diversit\u00e9 qui correspond \u00e0 la gamme de situations que le mod\u00e8le rencontrera. Un mod\u00e8le entra\u00een\u00e9 exclusivement sur des articles acad\u00e9miques \u00e9chouera \u00e0 la conversation d\u00e9contract\u00e9e. Un mod\u00e8le entra\u00een\u00e9 exclusivement sur Reddit \u00e9chouera \u00e0 l&#8217;analyse formelle. Le m\u00e9lange compte.<\/p>\n<p><strong>Qualit\u00e9.<\/strong> Chaque exemple d&#8217;entra\u00eenement d\u00e9montre un usage comp\u00e9tent de la langue. Cela ne signifie pas que chaque exemple doit \u00eatre brillant. Cela signifie \u00e9liminer les exemples incoh\u00e9rents, le fouillis g\u00e9n\u00e9r\u00e9 par machine, ou le spam. Le ratio signal-bruit du dataset d\u00e9termine directement le ratio signal-bruit des sorties du mod\u00e8le.<\/p>\n<p><strong>Pertinence.<\/strong> Les donn\u00e9es se connectent \u00e0 ce pour quoi le mod\u00e8le sera r\u00e9ellement utilis\u00e9. Les mod\u00e8les polyvalents ont besoin de donn\u00e9es g\u00e9n\u00e9rales. Les mod\u00e8les sp\u00e9cifiques au domaine ont besoin de donn\u00e9es de domaine. L&#8217;erreur de dataset la plus courante est d&#8217;entra\u00eener sur les donn\u00e9es disponibles plut\u00f4t que sur les donn\u00e9es pertinentes, parce que les donn\u00e9es pertinentes sont plus difficiles \u00e0 obtenir.<\/p>\n<p><strong>Structure.<\/strong> Les donn\u00e9es enseignent des motifs qui se g\u00e9n\u00e9ralisent. C&#8217;est la propri\u00e9t\u00e9 la plus difficile \u00e0 concevoir. Un dataset plein de faits isol\u00e9s enseigne au mod\u00e8le \u00e0 r\u00e9cup\u00e9rer les faits. Un dataset plein de cha\u00eenes de raisonnement enseigne au mod\u00e8le \u00e0 raisonner. Un dataset plein de conversations empathiques enseigne au mod\u00e8le \u00e0 \u00eatre empathique. La structure des donn\u00e9es devient la structure de la cognition du mod\u00e8le.<\/p>\n<h2>L&#8217;approche Laeka<\/h2>\n<p>Chez Laeka, nous traitons la cr\u00e9ation de dataset comme l&#8217;activit\u00e9 de recherche principale. La s\u00e9lection architecturale est une d\u00e9cision secondaire. Notre processus commence par une sp\u00e9cification claire de ce que nous voulons que le mod\u00e8le fasse, puis remonte pour d\u00e9terminer quelles donn\u00e9es d&#8217;entra\u00eenement produiraient ce comportement.<\/p>\n<p>Cela semble \u00e9vident. En pratique, presque personne ne le fait. La plupart des \u00e9quipes commencent par un mod\u00e8le de base, prennent les datasets disponibles, font du fine-tuning et \u00e9valuent. Si les r\u00e9sultats ne sont pas assez bons, elles essaient plus de donn\u00e9es, diff\u00e9rentes donn\u00e9es, ou un mod\u00e8le plus grand. Le processus est r\u00e9actif plut\u00f4t qu&#8217;intentionnel.<\/p>\n<p>La conception intentionnelle du dataset signifie se demander : \u00e0 quoi ressemble un exemple d&#8217;entra\u00eenement qui enseigne au mod\u00e8le de tenir plusieurs perspectives simultan\u00e9ment ? \u00c0 quoi ressemble un exemple d&#8217;entra\u00eenement qui d\u00e9veloppe la capacit\u00e9 du mod\u00e8le \u00e0 l&#8217;empathie ? \u00c0 quoi ressemble un exemple d&#8217;entra\u00eenement qui entra\u00eene le mod\u00e8le \u00e0 reconna\u00eetre l&#8217;incertitude avec pr\u00e9cision ?<\/p>\n<p>Ces questions sont plus difficiles que \u00ab combien de couches le transformer devrait-il avoir ? \u00bb Mais ce sont les questions qui d\u00e9terminent si le mod\u00e8le est r\u00e9ellement utile.<\/p>\n<h2>L&#8217;argument du ROI<\/h2>\n<p>Dollar pour dollar, investir dans la qualit\u00e9 des donn\u00e9es produit des rendements plus \u00e9lev\u00e9s qu&#8217;investir dans le calcul ou l&#8217;architecture.<\/p>\n<p>Doubler ton budget de calcul te donne un mod\u00e8le l\u00e9g\u00e8rement meilleur sur les benchmarks. Doubler la qualit\u00e9 de tes donn\u00e9es d&#8217;entra\u00eenement te donne un mod\u00e8le fondamentalement meilleur \u00e0 son travail. Les lois d&#8217;\u00e9chelle montrent des rendements d\u00e9croissants sur le calcul. Les rendements sur la qualit\u00e9 des donn\u00e9es ne diminuent pas \u2014 ils se composent.<\/p>\n<p>Un budget de calcul de 100 000 $ avec un dataset de 10 000 $ produira un mod\u00e8le pire qu&#8217;un budget de calcul de 10 000 $ avec un dataset de 100 000 $. C&#8217;est contre-intuitif dans une industrie qui traite le calcul comme la ressource principale. Mais la preuve est coh\u00e9rente.<\/p>\n<h2>La v\u00e9rit\u00e9 inconfortable<\/h2>\n<p>Si ton dataset est ton mod\u00e8le, alors les personnes qui cr\u00e9ent et curaissent ton dataset sont les personnes les plus importantes de ton organisation. Pas les ML engineers. Pas l&#8217;\u00e9quipe infrastructure. Les annotateurs, les curateurs et les concepteurs de donn\u00e9es.<\/p>\n<p>La plupart des organisations d&#8217;IA traitent ces r\u00f4les comme des fonctions de support de faible statut. C&#8217;est pourquoi la plupart des mod\u00e8les d&#8217;IA sont m\u00e9diocres. Tu obtiens le mod\u00e8le que ton dataset m\u00e9rite.<\/p>\n<p>Investis dans les donn\u00e9es. Investis dans les personnes qui les cr\u00e9ent. Tout le reste \u2014 l&#8217;architecture, le calcul, l&#8217;infrastructure \u2014 est un m\u00e9canisme de livraison pour l&#8217;intelligence qui vit dans les donn\u00e9es.<\/p>\n<p><strong>Laeka Research \u2014 <a href=\"https:\/\/laeka.org\">laeka.org<\/a><\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>L&#8217;industrie de l&#8217;IA est obs\u00e9d\u00e9e par l&#8217;architecture. Transformers vs. mod\u00e8les d&#8217;espace d&#8217;\u00e9tat. Dense vs. mixture-of-experts. Milliards vs. billions de param\u00e8tres. Ces choix comptent. Mais ils comptent moins que les donn\u00e9es. Deux mod\u00e8les avec une&#8230;<\/p>\n","protected":false},"author":1,"featured_media":188,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[263],"tags":[],"class_list":["post-497","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-datasets-et-curation"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/497","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=497"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/497\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/188"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=497"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=497"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=497"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}