Pourquoi la plupart des datasets DPO sont de la poubelle (et comment corriger le vôtre)
DPO est puissant. Mais la plupart des datasets expédiés pour entraîner les modèles sont bruyants, biaisés et inconsistants. Cela ruine l’entraînement. Comprendre les modes de défaillance est la première étape pour les corriger.
Problème 1 : Étiquettes bruyantes
Les annotateurs ne sont pas d’accord. Une personne marque la Réponse A comme meilleure ; une autre marque B. Sans métriques d’accord inter-annotateurs, tu entraînes sur la contradiction.
Correction : Applique les seuils d’accord minimum. Signale les paires où les annotateurs ne sont pas d’accord. Révise-les manuellement ou supprime-les. Un dataset plus petit et cohérent bat un grand dataset incohérent.
Problème 2 : Biais de position
Les humains préfèrent la première option affichée. Ou la dernière. Ou celle qui est plus longue. Ces biais s’échappent dans les datasets DPO.
Correction : Randomise l’ordre de présentation. Ne dis pas aux annotateurs lequel est « Option A ». Montre les réponses sans métadonnées. Audite ton dataset final pour le biais de position — trace la distribution de préférence à travers les positions.
Problème 3 : Fatigue de l’annotateur
Après avoir évalué 200 réponses, les annotateurs se fatiguent. La qualité chute. Ils commencent à marquer les réponses « assez bonnes » sans véritable délibération.
Correction : Limite les lots d’annotation. 50-100 paires par annotateur par session. Suivi l’accord au fil du temps. S’il se dégrade, mets en pause et fais tourner les annotateurs.
Problème 4 : Critères d’évaluation peu clairs
« Cette réponse est-elle meilleure ? » est vague. Meilleur pour quoi ? Dans quel contexte ? L’annotateur et la personne qui a écrit le critère interprètent « bon » différemment.
Correction : Écris les rubriques explicites. Définis ce que « clair » signifie, ce que « complet » signifie, ce que « sûr » signifie. Donne des exemples. Ensuite mesure la cohérence par rapport à la rubrique.
Problème 5 : Désaccord domaine
Tu entraînes sur des données de préférence génériques mais tu déploies dans un domaine spécialisé. Le modèle n’a jamais vu d’exemples de ce que « bon » ressemble dans ton domaine.
Correction : Utilise les requêtes et réponses spécifiques au domaine. Recrute les annotateurs familiers avec le domaine. Leurs signaux de préférence seront ancrés dans la réalité du domaine.
Audit ton dataset
Exécute ces vérifications avant l’entraînement :
Vérification 1 : Accord inter-annotateurs. Mesure le kappa de Cohen ou le kappa de Fleiss à travers les annotateurs. Cible 0,7+.
Vérification 2 : Biais de position. Pour chaque position de réponse, compte combien de fois elle a été marquée préférée. Devrait être uniforme.
Vérification 3 : Distribution des étiquettes. Combien de paires sont clairement claires vs borderline ? Les paires borderline sont des sources de bruit.
Vérification 4 : Composition des annotateurs. Toutes les paires d’une seule personne ? Embauche plusieurs annotateurs ; leurs désaccords sont où tu apprends.
Vérification 5 : Couverture des requêtes. Toutes les requêtes d’un domaine ? Un genre ? Les vrais datasets sont diversifiés.
Le chemin à suivre
Données mauvaises, modèle mauvais. Mais la plupart des équipes sautent l’assurance qualité parce que c’est peu glorieux. Les équipes qui gagnent sont celles qui s’obsèdent sur la qualité du dataset avant l’entraînement.
Laeka Research — laeka.org