Quantization en 2026 : GGUF, GPTQ, AWQ — Ce Qui Fonctionne Réellement

La quantization rend les grands modèles assez petits pour fonctionner sur du matériel réel. Le principe est simple : réduire la précision des poids du modèle de floats 16-bit à des entiers 4-bit ou 8-bit. La pratique est tout sauf simple. Trois formats dominent en 2026 — GGUF, GPTQ, et AWQ — chacun avec des tradeoffs distincts.

GGUF : Le Format Universel

GGUF est le format de fichier créé par le projet llama.cpp. Il stocke les poids quantifiés, le tokenizer, et les métadonnées dans un fichier portable unique. Télécharge un GGUF, exécute-le n’importe où — CPU, GPU, Apple Silicon, même sur les appareils mobiles.

GGUF supporte un array vertigineux de niveaux de quantization. La convention de nommage te dit la précision : Q2_K est agressif 2-bit, Q4_K_M est un 4-bit équilibré, Q8_0 est 8-bit haute-qualité. Les variantes « K » utilisent des méthodes k-quant qui appliquent une précision différente à différentes parties du modèle, préservant la qualité là où elle importe le plus.

Le sweet spot pour la plupart des utilisateurs est Q4_K_M. Cela te donne environ 4.8 bits par poids en moyenne, coupant la taille du modèle d’environ 70% comparé à FP16 tout en préservant 95%+ de la qualité originale. Un modèle 7B baisse de ~14GB à ~4.5GB. Un modèle 70B tient dans ~40GB au lieu de ~140GB.

La force de GGUF est le support d’écosystème. llama.cpp, Ollama, LM Studio, GPT4All — chaque outil d’inférence local majeur lit GGUF nativement. Si tu fais fonctionner les modèles sur du matériel consumer, GGUF est le choix par défaut.

La faiblesse est la performance d’inférence GPU. GGUF a été conçu pour les charges de travail CPU-first. Tandis que l’offloading GPU fonctionne bien, les formats de quantization purpose-built GPU comme GPTQ et AWQ peuvent être plus rapides sur le matériel NVIDIA haut de gamme.

GPTQ : Le Pioneer GPU-Optimisé

GPTQ (GPT Quantization) a été la première méthode de post-training quantization qui a rendu les modèles 4-bit pratiques. Elle utilise un algorithm sophistiqué de quantization one-shot qui considère les corrélations entre les poids pour minimiser l’erreur introduite par la réduction de précision.

Le processus de quantization requiert un dataset d’étalonnage — un petit échantillon de texte représentatif que l’algorithm utilise pour déterminer quels poids sont les plus importants. Cette étape d’étalonnage prend 15-30 minutes sur un GPU et produit un modèle optimisé pour la distribution spécifique de ses données d’entraînement.

Les modèles GPTQ s’exécutent nativement dans vLLM et TGI, les rendant le go-to choix pour l’inférence GPU côté serveur. Le format est étroitement intégré aux kernels CUDA qui exploitent le matériel GPU pour la dequantization rapide pendant l’inférence. Le débit sur les GPUs NVIDIA est typiquement 10-30% plus élevé que de fonctionne des modèles GGUF équivalents.

Le downside est la rigidité. Les modèles GPTQ sont GPU-seulement. Pas de fallback CPU, pas de support Apple Silicon, pas d’inférence multi-appareil. Et le processus de quantization lui-même requiert un GPU avec assez de mémoire pour tenir le modèle pleine-précision, ce qui signifie que tu as besoin d’accès à du matériel sérieux même bien que la sortie fonctionne sur moins.

AWQ : Le Nouveau Standard

AWQ (Activation-Aware Weight Quantization) a amélioré sur GPTQ avec un insight clé : pas tous les poids ne sont également importants, et l’importance est déterminée par les magnitudes d’activation plutôt que par les poids eux-mêmes. Les poids connectés aux canaux avec de grandes activations devraient être quantifiés plus soigneusement.

En pratique, AWQ préserve un petit pourcentage (~1%) des poids les plus importants à une précision plus élevée tandis que quantifie agressivement le reste. Cette approche asymétrique produit une meilleure qualité à la même largeur de bit moyenne comparé à GPTQ.

AWQ quantifie aussi plus vite — environ 3-5x plus rapide que GPTQ pour le même modèle. Le processus d’étalonnage est plus simple et moins sensible au choix des données d’étalonnage. Pour les équipes qui ont besoin de quantifier beaucoup de modèles fréquemment, cet avantage de vitesse importe.

Le support dans vLLM et autres moteurs d’inférence est maintenant à égalité avec GPTQ. AWQ est effectivement devenu le format de quantization GPU recommandé pour les nouveaux déploiements. À moins que tu n’aies une raison spécifique d’utiliser GPTQ (infrastructure legacy, optimisations kernel spécifiques), AWQ est le meilleur défaut.

Comparaison de Qualité à 4-bit

À la précision 4-bit, les différences de qualité entre les formats sont plus petites que la plupart des gens s’y attendraient. Sur les benchmarks standards, un modèle GPTQ, AWQ, ou GGUF Q4_K_M bien-étalonné scores typiquement dans 1-3% de l’originale pleine-précision.

Les différences émergent aux bords. Pour les tâches nécessitant un raisonnement numérique précis, les modèles 4-bit montrent plus de dégradation. Pour l’écriture créative et la conversation générale, la différence est presque imperceptible. Pour la génération de code, 4-bit fonctionne étonnamment bien — la nature structurée du code le rend résilient au bruit de quantization.

La vraie falaise de qualité est à 2-bit. Q2_K et les quantizations agressives similaires perdent 10-20% sur les benchmarks et produisent des sorties notablement pires en pratique. Il y a une recherche active pour rendre 2-bit mieux fonctionne (QuIP#, AQLM), mais pour l’utilisation en production en 2026, 4-bit reste le sol pratique.

Choisir Ton Format

GGUF Q4_K_M si tu fonctionne sur du matériel consumer (laptops, desktops, Mac), as besoin d’inférence CPU, ou veux la portabilité maximale. Aussi le bon choix pour le déploiement edge et mobile.

AWQ si tu fonctionne sur les GPUs NVIDIA dans un environnement serveur, utilises vLLM ou TGI, et veux le meilleur ratio qualité-à-taille avec le turnaround de quantization rapide.

GPTQ si tu es sur l’infrastructure existante construite autour de GPTQ, as besoin des optimisations kernel CUDA spécifiques, ou as du tooling qui dépend du format GPTQ.

La tendance est la convergence. Les moteurs d’inférence supportent de plus en plus les trois formats. Le format importe moins que la qualité de quantization — et la qualité dépend plus des données d’étalonnage et de la méthode que du format de conteneur lui-même.

Pour des benchmarks détaillés et des guides de quantization, visite Laeka Research.

Publications similaires

Leave a Reply

Your email address will not be published. Required fields are marked *