Pourquoi la plupart des datasets DPO sont de la poubelle (et comment corriger le vôtre)

DPO est puissant. Mais la plupart des datasets expédiés pour entraîner les modèles sont bruyants, biaisés et inconsistants. Cela ruine l’entraînement. Comprendre les modes de défaillance est la première étape pour les corriger.

Problème 1 : Étiquettes bruyantes

Les annotateurs ne sont pas d’accord. Une personne marque la Réponse A comme meilleure ; une autre marque B. Sans métriques d’accord inter-annotateurs, tu entraînes sur la contradiction.

Correction : Applique les seuils d’accord minimum. Signale les paires où les annotateurs ne sont pas d’accord. Révise-les manuellement ou supprime-les. Un dataset plus petit et cohérent bat un grand dataset incohérent.

Problème 2 : Biais de position

Les humains préfèrent la première option affichée. Ou la dernière. Ou celle qui est plus longue. Ces biais s’échappent dans les datasets DPO.

Correction : Randomise l’ordre de présentation. Ne dis pas aux annotateurs lequel est « Option A ». Montre les réponses sans métadonnées. Audite ton dataset final pour le biais de position — trace la distribution de préférence à travers les positions.

Problème 3 : Fatigue de l’annotateur

Après avoir évalué 200 réponses, les annotateurs se fatiguent. La qualité chute. Ils commencent à marquer les réponses « assez bonnes » sans véritable délibération.

Correction : Limite les lots d’annotation. 50-100 paires par annotateur par session. Suivi l’accord au fil du temps. S’il se dégrade, mets en pause et fais tourner les annotateurs.

Problème 4 : Critères d’évaluation peu clairs

« Cette réponse est-elle meilleure ? » est vague. Meilleur pour quoi ? Dans quel contexte ? L’annotateur et la personne qui a écrit le critère interprètent « bon » différemment.

Correction : Écris les rubriques explicites. Définis ce que « clair » signifie, ce que « complet » signifie, ce que « sûr » signifie. Donne des exemples. Ensuite mesure la cohérence par rapport à la rubrique.

Problème 5 : Désaccord domaine

Tu entraînes sur des données de préférence génériques mais tu déploies dans un domaine spécialisé. Le modèle n’a jamais vu d’exemples de ce que « bon » ressemble dans ton domaine.

Correction : Utilise les requêtes et réponses spécifiques au domaine. Recrute les annotateurs familiers avec le domaine. Leurs signaux de préférence seront ancrés dans la réalité du domaine.

Audit ton dataset

Exécute ces vérifications avant l’entraînement :

Vérification 1 : Accord inter-annotateurs. Mesure le kappa de Cohen ou le kappa de Fleiss à travers les annotateurs. Cible 0,7+.

Vérification 2 : Biais de position. Pour chaque position de réponse, compte combien de fois elle a été marquée préférée. Devrait être uniforme.

Vérification 3 : Distribution des étiquettes. Combien de paires sont clairement claires vs borderline ? Les paires borderline sont des sources de bruit.

Vérification 4 : Composition des annotateurs. Toutes les paires d’une seule personne ? Embauche plusieurs annotateurs ; leurs désaccords sont où tu apprends.

Vérification 5 : Couverture des requêtes. Toutes les requêtes d’un domaine ? Un genre ? Les vrais datasets sont diversifiés.

Le chemin à suivre

Données mauvaises, modèle mauvais. Mais la plupart des équipes sautent l’assurance qualité parce que c’est peu glorieux. Les équipes qui gagnent sont celles qui s’obsèdent sur la qualité du dataset avant l’entraînement.

Laeka Research — laeka.org

Pourquoi la plupart des datasets DPO sont de la poubelle (et comment corriger le vôtre)

Problème 1 : Étiquettes bruyantes

Problème 2 : Biais de position

Problème 3 : Fatigue de l’annotateur

Problème 4 : Critères d’évaluation peu clairs

Problème 5 : Désaccord domaine

Audit ton dataset

Le chemin à suivre

L’humain dans RLHF est le maillon le plus faible. Remplace-le par la structure.

Pourquoi l’alignement ne cesse de se casser

De RLHF à l’alignement structural : Une approche d’architecture cognitive

DPO vs RLHF : pourquoi l’optimisation directe des préférences gagne pour les petites équipes

Entraînement sans règles explicites : quand les modèles apprennent l’alignement par la structure

Correction d’erreur par compréhension contextuelle : un argument structurel

Leave a Reply Cancel reply

Problème 1 : Étiquettes bruyantes

Problème 2 : Biais de position

Problème 3 : Fatigue de l’annotateur

Problème 4 : Critères d’évaluation peu clairs

Problème 5 : Désaccord domaine

Audit ton dataset

Le chemin à suivre

Publications similaires

Leave a Reply Cancel reply