{"id":542,"date":"2026-03-21T18:37:12","date_gmt":"2026-03-21T18:37:12","guid":{"rendered":"https:\/\/laeka.org\/publications\/les-lois-de-mise-a-l-echelle-de-chinchilla-sont-fausses-voici-ce-qui-les-a-remplacees\/"},"modified":"2026-03-21T18:37:12","modified_gmt":"2026-03-21T18:37:12","slug":"les-lois-de-mise-a-l-echelle-de-chinchilla-sont-fausses-voici-ce-qui-les-a-remplacees","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/les-lois-de-mise-a-l-echelle-de-chinchilla-sont-fausses-voici-ce-qui-les-a-remplacees\/","title":{"rendered":"Les lois de mise \u00e0 l&#8217;\u00e9chelle de Chinchilla sont fausses. Voici ce qui les a remplac\u00e9es."},"content":{"rendered":"<p>En 2022, l&#8217;article Chinchilla de DeepMind a remodel\u00e9 l&#8217;industrie de l&#8217;IA. L&#8217;affirmation : pour l&#8217;entra\u00eenement optimal en calcul, \u00e9chelle les param\u00e8tres et les tokens de donn\u00e9es de mani\u00e8re \u00e9gale. Un mod\u00e8le de 70B a besoin d&#8217;environ 1.4T tokens. L&#8217;industrie s&#8217;est r\u00e9organis\u00e9e autour de cette loi. Puis Llama a prouv\u00e9 que c&#8217;\u00e9tait faux.<\/p>\n<h2>Ce que Chinchilla a r\u00e9ellement dit<\/h2>\n<p>Les lois de mise \u00e0 l&#8217;\u00e9chelle de Chinchilla ont \u00e9tabli un ratio : pour un budget de calcul donn\u00e9, l&#8217;allocation optimale entre les param\u00e8tres du mod\u00e8le et les tokens d&#8217;entra\u00eenement suit un ratio d&#8217;environ 1:20. Un mod\u00e8le de 10B devrait voir ~200B tokens. Un mod\u00e8le de 70B devrait voir ~1.4T tokens. D\u00e9penser le calcul en plus de param\u00e8tres sans proportionnellement plus de donn\u00e9es, ou vice versa, gaspille les ressources.<\/p>\n<p>C&#8217;\u00e9tait une correction \u00e0 l&#8217;approche de GPT-3, qui \u00e9tait massivement sur-param\u00e9tr\u00e9e par rapport \u00e0 ses donn\u00e9es d&#8217;entra\u00eenement. Chinchilla 70B, entra\u00een\u00e9 sur la \u00ab bonne \u00bb quantit\u00e9 de donn\u00e9es, correspondait \u00e0 la performance de GPT-3 175B avec moins de la moiti\u00e9 des param\u00e8tres. L&#8217;implication \u00e9tait claire : l&#8217;industrie avait construit des mod\u00e8les qui \u00e9taient trop gros et les entra\u00een\u00e9 sur trop peu de donn\u00e9es.<\/p>\n<p>Les labs ont pris note. Les runs d&#8217;entra\u00eenement ont \u00e9t\u00e9 redessin\u00e9s autour du ratio Chinchilla. L&#8217;encadrement du \u00ab calcul optimal \u00bb est devenu l&#8217;\u00e9vangile.<\/p>\n<h2>O\u00f9 Chinchilla se trompe<\/h2>\n<p>Chinchilla optimise pour le <strong>calcul d&#8217;entra\u00eenement<\/strong>, pas le <strong>co\u00fbt total du cycle de vie<\/strong>. C&#8217;est une distinction critique. Entra\u00eener un mod\u00e8le se produit une fois. Ex\u00e9cuter l&#8217;inf\u00e9rence se produit des millions de fois. Un mod\u00e8le plus petit entra\u00een\u00e9 sur plus de donn\u00e9es co\u00fbte plus cher \u00e0 entra\u00eener mais co\u00fbte dramatiquement moins \u00e0 d\u00e9ployer.<\/p>\n<p>Llama a d\u00e9montr\u00e9 cela magnifiquement. Llama 1 7B a \u00e9t\u00e9 entra\u00een\u00e9 sur 1T tokens \u2014 environ 7x la quantit\u00e9 optimale de Chinchilla. Llama 2 7B a vu 2T tokens. Llama 3.1 8B a consomm\u00e9 15T tokens. Chaque version a \u00e9t\u00e9 \u00ab sur-entra\u00een\u00e9e \u00bb selon les standards Chinchilla, mais chaque a \u00e9t\u00e9 mieux que la pr\u00e9c\u00e9dente.<\/p>\n<p>La raison : quand tu te soucies du co\u00fbt d&#8217;inf\u00e9rence, tu veux le plus petit mod\u00e8le qui atteint ta cible de qualit\u00e9. Sur-entra\u00eener un petit mod\u00e8le au-del\u00e0 du ratio Chinchilla produit un mod\u00e8le qui est moins cher \u00e0 ex\u00e9cuter mais presque aussi bon qu&#8217;un mod\u00e8le plus grand et optimal de Chinchilla. Le calcul d&#8217;entra\u00eenement suppl\u00e9mentaire est un co\u00fbt unique qui rapporte des dividendes chaque fois que le mod\u00e8le sert une requ\u00eate.<\/p>\n<h2>Les lois d&#8217;\u00e9chelle optimales pour l&#8217;inf\u00e9rence<\/h2>\n<p>Les chercheurs d&#8217;institutions incluant Meta, Hugging Face, et plusieurs universit\u00e9s ont d\u00e9velopp\u00e9 des lois d&#8217;\u00e9chelle r\u00e9vis\u00e9es qui tiennent compte du co\u00fbt d&#8217;inf\u00e9rence. Le cadre est appel\u00e9 <strong>mise \u00e0 l&#8217;\u00e9chelle optimale pour l&#8217;inf\u00e9rence<\/strong> ou parfois \u00ab mise \u00e0 l&#8217;\u00e9chelle consciente du d\u00e9ploiement \u00bb.<\/p>\n<p>L&#8217;insight : \u00e9tant donn\u00e9 un budget d&#8217;inf\u00e9rence fixe (co\u00fbt par token en production), la strat\u00e9gie d&#8217;entra\u00eenement optimale est d&#8217;entra\u00eener un mod\u00e8le plus petit sur significativement plus de donn\u00e9es que Chinchilla recommande. Combien de plus d\u00e9pend de ton volume d&#8217;inf\u00e9rence attendu.<\/p>\n<p>Pour un mod\u00e8le qui servira des milliards de requ\u00eates, le ratio optimal entra\u00eenement-\u00e0-param\u00e8tre pourrait \u00eatre 100:1 ou m\u00eame 200:1 \u2014 10x la recommandation Chinchilla. Le co\u00fbt d&#8217;entra\u00eenement suppl\u00e9mentaire est amorti sur tant d&#8217;appels d&#8217;inf\u00e9rence qu&#8217;il devient n\u00e9gligeable.<\/p>\n<p>Cela explique la tendance de l&#8217;industrie vers les mod\u00e8les plus petits, massivement entra\u00een\u00e9s. Ce n&#8217;est pas que les labs ont oubli\u00e9 Chinchilla. Ils optimisent pour un objectif diff\u00e9rent : le <strong>co\u00fbt total minimum de propri\u00e9t\u00e9<\/strong> plut\u00f4t que le co\u00fbt d&#8217;entra\u00eenement minimum.<\/p>\n<h2>La qualit\u00e9 des donn\u00e9es change l&#8217;\u00e9quation<\/h2>\n<p>L&#8217;autre facteur que Chinchilla n&#8217;a pas tenu compte est la <strong>variation de qualit\u00e9 des donn\u00e9es<\/strong>. Les lois d&#8217;\u00e9chelle originales supposaient une qualit\u00e9 de donn\u00e9es \u00e0 peu pr\u00e8s uniforme. En pratique, le premier trillion de tokens de haute qualit\u00e9 enseigne plus par token que le deuxi\u00e8me trillion, qui enseigne plus que le troisi\u00e8me.<\/p>\n<p>Cela signifie que les courbes de mise \u00e0 l&#8217;\u00e9chelle ne sont pas des lois de puissance lisses \u2014 elles ont des points d&#8217;inflexion o\u00f9 l&#8217;ajout de plus de donn\u00e9es de qualit\u00e9 d\u00e9clinante rend les rendements d\u00e9croissants plus rapides que la th\u00e9orie le pr\u00e9dit. Les mod\u00e8les Phi ont prouv\u00e9 qu&#8217;un petit mod\u00e8le sur des donn\u00e9es de haute qualit\u00e9 peut correspondre \u00e0 un mod\u00e8le plus grand sur des donn\u00e9es de plus faible qualit\u00e9, cassant compl\u00e8tement la relation Chinchilla.<\/p>\n<p>La recherche moderne de mise \u00e0 l&#8217;\u00e9chelle traite la qualit\u00e9 des donn\u00e9es comme une variable dans les \u00e9quations de mise \u00e0 l&#8217;\u00e9chelle plut\u00f4t qu&#8217;une constante. Les pr\u00e9dictions r\u00e9sultantes sont plus complexes mais plus pr\u00e9cises : la taille de mod\u00e8le optimale et la quantit\u00e9 de donn\u00e9es d\u00e9pendent de la distribution de qualit\u00e9 des donn\u00e9es d&#8217;entra\u00eenement disponibles, pas seulement du budget de calcul total.<\/p>\n<h2>Ce que cela signifie en pratique<\/h2>\n<p>Pour les organisations qui entra\u00eenent des mod\u00e8les, les implications pratiques sont claires. <strong>Ne suis pas aveugl\u00e9ment les ratios Chinchilla.<\/strong> Au lieu de cela, consid\u00e8re ton sc\u00e9nario de d\u00e9ploiement :<\/p>\n<p>Si tu entra\u00eenes un mod\u00e8le pour un cas d&#8217;utilisation de production sp\u00e9cifique et de haut volume, entra\u00eene un mod\u00e8le plus petit sur beaucoup plus de donn\u00e9es que Chinchilla sugg\u00e8re. Les \u00e9conomies d&#8217;inf\u00e9rence d\u00e9passeront bien le co\u00fbt d&#8217;entra\u00eenement suppl\u00e9mentaire.<\/p>\n<p>Si tu entra\u00eenes un mod\u00e8le de recherche qui sera \u00e9valu\u00e9 sur des benchmarks et puis principalement rang\u00e9, les ratios Chinchilla vont bien. Le calcul d&#8217;entra\u00eenement domine quand le volume d&#8217;inf\u00e9rence est faible.<\/p>\n<p>Si tu travailles avec des donn\u00e9es limit\u00e9es, de haute qualit\u00e9 et ne peux pas facilement obtenir plus, un mod\u00e8le plus grand entra\u00een\u00e9 sur moins de donn\u00e9es peut \u00eatre optimal. Le mod\u00e8le a besoin de suffisamment de param\u00e8tres pour absorber la connaissance dans tes donn\u00e9es, et il y a une taille minimale d&#8217;ensemble de donn\u00e9es en dessous de laquelle les mod\u00e8les plus petits gaspillent la capacit\u00e9.<\/p>\n<h2>La vue d&#8217;ensemble<\/h2>\n<p>Les lois d&#8217;\u00e9chelle ne sont pas des constantes physiques. Ce sont des observations empiriques qui d\u00e9pendent d&#8217;hypoth\u00e8ses sur l&#8217;architecture, les donn\u00e9es, le mat\u00e9riel, et l&#8217;optimisation \u2014 tout cela change au fil du temps. Chinchilla \u00e9tait correct pour son contexte (optimisation du calcul d&#8217;entra\u00eenement en 2022). C&#8217;est faux pour le contexte d&#8217;aujourd&#8217;hui (optimisation du co\u00fbt total avec des charges de travail domin\u00e9es par l&#8217;inf\u00e9rence).<\/p>\n<p>La le\u00e7on n&#8217;est pas que les lois d&#8217;\u00e9chelle sont inutiles. C&#8217;est que tu dois comprendre <strong>quelle variable elles optimisent<\/strong> et si cette variable correspond \u00e0 ton objectif. Appliquer aveugl\u00e9ment la loi d&#8217;\u00e9chelle de quelqu&#8217;un d&#8217;autre \u00e0 ton probl\u00e8me est un chemin rapide vers des r\u00e9sultats sous-optimaux.<\/p>\n<p>Pour la recherche continue sur l&#8217;efficacit\u00e9 de l&#8217;entra\u00eenement et la mise \u00e0 l&#8217;\u00e9chelle du mod\u00e8le, visite <a href='https:\/\/lab.laeka.org'>Laeka Research<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>En 2022, l&#8217;article Chinchilla de DeepMind a remodel\u00e9 l&#8217;industrie de l&#8217;IA. L&#8217;affirmation : pour l&#8217;entra\u00eenement optimal en calcul, \u00e9chelle les param\u00e8tres et les tokens de donn\u00e9es de mani\u00e8re \u00e9gale. Un mod\u00e8le de 70B a&#8230;<\/p>\n","protected":false},"author":1,"featured_media":275,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[260],"tags":[],"class_list":["post-542","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-architecture-ia"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/542","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=542"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/542\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/275"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=542"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=542"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=542"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}