{"id":481,"date":"2026-03-16T12:38:31","date_gmt":"2026-03-16T12:38:31","guid":{"rendered":"https:\/\/laeka.org\/publications\/fine-tuning-qwen3-budget\/"},"modified":"2026-03-16T12:38:31","modified_gmt":"2026-03-16T12:38:31","slug":"fine-tuning-qwen3-budget","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/fine-tuning-qwen3-budget\/","title":{"rendered":"Comment faire le fine-tuning de Qwen3 avec un budget de 2,50 $"},"content":{"rendered":"<p>Le fine-tuning d&#8217;un mod\u00e8le de langage de pointe n\u00e9cessitait autrefois des ressources informatiques co\u00fbteuses ou un acc\u00e8s d&#8217;entreprise. Ce n&#8217;est plus le cas. Tu peux faire le fine-tuning de Qwen3 sur un dataset sp\u00e9cifique au domaine pour le co\u00fbt d&#8217;un caf\u00e9, en utilisant des ressources cloud gratuites et des outils open source.<\/p>\n<p>C&#8217;est une proc\u00e9dure pas \u00e0 pas concr\u00e8te de comment le faire.<\/p>\n<h2>La configuration : calcul gratuit<\/h2>\n<p>Google Colab et Kaggle offrent tous deux un acc\u00e8s GPU gratuit. Pas toujours rapide, mais suffisant pour le fine-tuning. Un notebook Kaggle avec un GPU T4 te donne 30 heures de calcul par semaine sans frais.<\/p>\n<p>Colab offre des ressources similaires avec une exp\u00e9rience un peu moins pr\u00e9visible. Les deux sont v\u00e9ritablement gratuits.<\/p>\n<p>La contrainte n&#8217;est pas le co\u00fbt. C&#8217;est la patience. Le fine-tuning prend des heures, pas des minutes. Mais les maths sont claires : le calcul gratuit l&#8217;emporte sur les pr\u00e9occupations de co\u00fbt.<\/p>\n<h2>La bo\u00eete \u00e0 outils : Unsloth + QLoRA<\/h2>\n<p>Unsloth acc\u00e9l\u00e8re dramatiquement l&#8217;entra\u00eenement sur les GPU de consommation. Il optimise les passes avant et arri\u00e8re pour les mod\u00e8les et le mat\u00e9riel sp\u00e9cifiques, r\u00e9duisant le temps d&#8217;entra\u00eenement de 2-3x.<\/p>\n<p>QLoRA (Quantized Low-Rank Adaptation) est l&#8217;arme secr\u00e8te. Il combine la quantification (poids 4-bit) avec LoRA (mises \u00e0 jour de rang faible), te permettant de faire le fine-tuning de grands mod\u00e8les avec un VRAM minimal.<\/p>\n<p>Ensemble, ils sont irr\u00e9sistibles. Unsloth + QLoRA signifie que tu peux faire le fine-tuning d&#8217;un mod\u00e8le 70B sur un GPU T4 (16 Go VRAM) en ne mettant \u00e0 jour qu&#8217;un petit ensemble de poids d&#8217;adaptateur.<\/p>\n<h2>Pr\u00e9paration du dataset<\/h2>\n<p>Formate tes donn\u00e9es d&#8217;entra\u00eenement en fichier JSONL : un objet JSON par ligne, avec le champ \u00ab text \u00bb contenant tes exemples d&#8217;entra\u00eenement.<\/p>\n<pre><code>{\"text\": \"Question: What is X? Answer: Y\"}\n{\"text\": \"Query: A... Response: B\"}<\/code><\/pre>\n<p>Plus de donn\u00e9es c&#8217;est mieux, mais la qualit\u00e9 importe plus. 1000 exemples de haute qualit\u00e9 battent 100 000 de mauvaise qualit\u00e9. La sp\u00e9cificit\u00e9 au domaine est tout l&#8217;int\u00e9r\u00eat.<\/p>\n<p>Nettoie tes donn\u00e9es. Enl\u00e8ve les doublons. Enl\u00e8ve les exemples qui contredisent ton intention. Le temps investi ici s&#8217;amortit dramatiquement dans la qualit\u00e9 du mod\u00e8le.<\/p>\n<h2>Configuration de l&#8217;entra\u00eenement<\/h2>\n<p>Voici une configuration minimale et fonctionnelle :<\/p>\n<p><strong>Taux d&#8217;apprentissage :<\/strong> 2e-4 pour QLoRA<br \/>\n<strong>Taille du lot :<\/strong> 4 (sur T4) ou 8 (sur de meilleurs GPU)<br \/>\n<strong>Epochs :<\/strong> 3-5<br \/>\n<strong>Rang LoRA :<\/strong> 16-32<br \/>\n<strong>LoRA alpha :<\/strong> 32<br \/>\n<strong>\u00c9tapes de warmup :<\/strong> 100<\/p>\n<p>Commence conservateur. Tu peux toujours it\u00e9rer. Ces param\u00e8tres fonctionnent sur la plupart des domaines.<\/p>\n<h2>D\u00e9composition r\u00e9elle du co\u00fbt d&#8217;entra\u00eenement<\/h2>\n<p>Google Colab : Gratuit (ou 10 $\/mois pour illimit\u00e9 avec Pro)<br \/>\nKaggle : Gratuit<br \/>\nMod\u00e8le Qwen3 : Gratuit (open source)<br \/>\nUnsloth : Gratuit (open source)<br \/>\nQLoRA : Gratuit (int\u00e9gr\u00e9 dans la biblioth\u00e8que transformers)<br \/>\nTemps d&#8217;entra\u00eenement : 4-8 heures sur T4 gratuit<\/p>\n<p>D\u00e9pense totale en esp\u00e8ces : 0-2,50 $ si tu veux un acc\u00e8s Colab Pro plus rapide. G\u00e9n\u00e9ralement gratuit.<\/p>\n<h2>\u00c9valuation<\/h2>\n<p>Apr\u00e8s l&#8217;entra\u00eenement, teste ton mod\u00e8le sur des exemples conserv\u00e9s de ton domaine. G\u00e8re-t-il tes cas d&#8217;utilisation sp\u00e9cifiques mieux que le mod\u00e8le de base ?<\/p>\n<p>Pour la plupart des t\u00e2ches, tu peux \u00e9valuer \u00e0 la main. G\u00e9n\u00e8re des r\u00e9ponses sur 20-30 exemples de test et \u00e9value-les. Cela prend 30 minutes et te donne une id\u00e9e claire de l&#8217;am\u00e9lioration.<\/p>\n<p>Pour les t\u00e2ches quantitatives (classification, extraction), ex\u00e9cute des m\u00e9triques appropri\u00e9es. BLEU pour la g\u00e9n\u00e9ration, pr\u00e9cision pour la classification, F1 pour l&#8217;extraction.<\/p>\n<h2>D\u00e9ploiement<\/h2>\n<p>Sauvegarde tes poids LoRA entra\u00een\u00e9s (petit, 50-200 Mo). Ton mod\u00e8le est maintenant la base Qwen3 + tes poids d&#8217;adaptateur.<\/p>\n<p>D\u00e9ploie en utilisant llama.cpp, ollama ou vLLM avec l&#8217;adaptateur. La taille totale du d\u00e9ploiement est minimale. Tu peux l&#8217;ex\u00e9cuter localement ou le servir avec un co\u00fbt d&#8217;infrastructure minimal.<\/p>\n<h2>Pourquoi cela importe<\/h2>\n<p>Le fine-tuning n&#8217;est plus un luxe pour les \u00e9quipes bien dot\u00e9es en ressources. C&#8217;est une technique pratique disponible pour quiconque ayant un dataset et des comp\u00e9tences techniques basiques.<\/p>\n<p>Cela d\u00e9mocratise l&#8217;adaptation du mod\u00e8le. Construis des mod\u00e8les sp\u00e9cialis\u00e9s pour ton domaine. Entra\u00eene-les sur tes donn\u00e9es. D\u00e9ploie-les sur ton infrastructure. La barri\u00e8re des co\u00fbts a disparu.<\/p>\n<p><strong>Laeka Research \u2014 <a href=\"https:\/\/laeka.org\">laeka.org<\/a><\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Le fine-tuning d&#8217;un mod\u00e8le de langage de pointe n\u00e9cessitait autrefois des ressources informatiques co\u00fbteuses ou un acc\u00e8s d&#8217;entreprise. Ce n&#8217;est plus le cas. Tu peux faire le fine-tuning de Qwen3 sur un dataset sp\u00e9cifique&#8230;<\/p>\n","protected":false},"author":1,"featured_media":156,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[269],"tags":[],"class_list":["post-481","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-fine-tuning-fr"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/481","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=481"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/481\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/156"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=481"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=481"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=481"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}