Comment générer 1 000 paires DPO qui améliorent réellement ton modèle
La qualité plutôt que la quantité est un cliché parce que c’est vrai. Mais tu as toujours besoin de quantité. Le défi est de générer 1 000 paires DPO sans introduire du bruit qui sabote le signal d’entraînement.
Ce guide traverse le pipeline. Ce n’est pas de la magie. C’est de la discipline.
Étape 1 : Commence par les requêtes réelles
N’invente pas de requêtes. Utilise les requêtes réelles d’utilisateurs, les questions de ton domaine, les cas limites que ton modèle rencontre réellement. Si tu entraînes un modèle pour le support client, utilise de vrais tickets de support. Si c’est la génération de code, utilise les rapports de bugs réels.
Les requêtes réelles ancrées l’entraînement dans les modes de défaillance réels. Les requêtes synthétiques encodent souvent les biais de celui qui les a écrites.
Étape 2 : Génère plusieurs réponses
Pour chaque requête, génère 3-5 réponses candidates en utilisant ton modèle de base ou un plus puissant. Utilise la température et des stratégies de décodage différentes pour obtenir de la variation.
Tu as besoin de variation pour trouver les vrais signaux de préférence. Si toutes les réponses sont similaires, il n’y a pas de signal à apprendre.
Étape 3 : Évaluation structurée
Ne te contente pas de marquer A vs B. Utilise une rubrique. Score la clarté, l’exactitude, la complétude, la sécurité, la pertinence. Cela crée une cohérence à travers les annotateurs.
Une rubrique élimine l’ambiguïté. Elle force les évaluateurs à articuler pourquoi une réponse est meilleure. Cette clarté devient ton signal d’entraînement.
Étape 4 : Inclus le contexte diagnostique
Pour chaque paire de préférence, enregistre non seulement « Réponse A > Réponse B » mais pourquoi. Qu’a fait A de juste que B a manqué ? Qu’a fait B de mal ?
Cela transforme les données de préférence brute en données de raisonnement. Le modèle apprend les principes derrière la préférence, pas juste le motif de surface.
Étape 5 : Contrôle de qualité et déduplication
Supprime les quasi-doublons. Vérifie l’accord des annotateurs (fiabilité inter-annotateurs). Signale les paires où les annotateurs ne sont pas d’accord — ce sont des cas limites peu clairs qui créent du bruit.
Un dataset avec 500 paires à haut accord bat 2 000 paires où 40% sont disputées. La confiance compte.
Étape 6 : Format et itère
Formate tes paires de manière cohérente. Entraîne sur 100 paires, mesure l’impact. Si le signal est fort, mets à l’échelle à 500. S’il est faible, révise ta rubrique avant d’ajouter plus.
Ne décharge pas les 1 000 d’un coup. La validation incrémentale attrape les problèmes tôt.
Pourquoi cela fonctionne
Ce pipeline applique l’intentionnalité à chaque étape. Chaque paire est examinée, ancrée et expliquée. Le modèle entraîne sur du signal, pas du bruit.
Laeka Research — laeka.org