{"id":485,"date":"2026-03-16T12:40:19","date_gmt":"2026-03-16T12:40:19","guid":{"rendered":"https:\/\/laeka.org\/publications\/pourquoi-datasets-dpo-poubelle-comment-corriger\/"},"modified":"2026-03-16T12:40:19","modified_gmt":"2026-03-16T12:40:19","slug":"pourquoi-datasets-dpo-poubelle-comment-corriger","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/pourquoi-datasets-dpo-poubelle-comment-corriger\/","title":{"rendered":"Pourquoi la plupart des datasets DPO sont de la poubelle (et comment corriger le v\u00f4tre)"},"content":{"rendered":"<p>DPO est puissant. Mais la plupart des datasets exp\u00e9di\u00e9s pour entra\u00eener les mod\u00e8les sont bruyants, biais\u00e9s et inconsistants. Cela ruine l&#8217;entra\u00eenement. Comprendre les modes de d\u00e9faillance est la premi\u00e8re \u00e9tape pour les corriger.<\/p>\n<h2>Probl\u00e8me 1 : \u00c9tiquettes bruyantes<\/h2>\n<p>Les annotateurs ne sont pas d&#8217;accord. Une personne marque la R\u00e9ponse A comme meilleure ; une autre marque B. Sans m\u00e9triques d&#8217;accord inter-annotateurs, tu entra\u00eenes sur la contradiction.<\/p>\n<p>Correction : Applique les seuils d&#8217;accord minimum. Signale les paires o\u00f9 les annotateurs ne sont pas d&#8217;accord. R\u00e9vise-les manuellement ou supprime-les. Un dataset plus petit et coh\u00e9rent bat un grand dataset incoh\u00e9rent.<\/p>\n<h2>Probl\u00e8me 2 : Biais de position<\/h2>\n<p>Les humains pr\u00e9f\u00e8rent la premi\u00e8re option affich\u00e9e. Ou la derni\u00e8re. Ou celle qui est plus longue. Ces biais s&#8217;\u00e9chappent dans les datasets DPO.<\/p>\n<p>Correction : Randomise l&#8217;ordre de pr\u00e9sentation. Ne dis pas aux annotateurs lequel est \u00ab Option A \u00bb. Montre les r\u00e9ponses sans m\u00e9tadonn\u00e9es. Audite ton dataset final pour le biais de position \u2014 trace la distribution de pr\u00e9f\u00e9rence \u00e0 travers les positions.<\/p>\n<h2>Probl\u00e8me 3 : Fatigue de l&#8217;annotateur<\/h2>\n<p>Apr\u00e8s avoir \u00e9valu\u00e9 200 r\u00e9ponses, les annotateurs se fatiguent. La qualit\u00e9 chute. Ils commencent \u00e0 marquer les r\u00e9ponses \u00ab assez bonnes \u00bb sans v\u00e9ritable d\u00e9lib\u00e9ration.<\/p>\n<p>Correction : Limite les lots d&#8217;annotation. 50-100 paires par annotateur par session. Suivi l&#8217;accord au fil du temps. S&#8217;il se d\u00e9grade, mets en pause et fais tourner les annotateurs.<\/p>\n<h2>Probl\u00e8me 4 : Crit\u00e8res d&#8217;\u00e9valuation peu clairs<\/h2>\n<p>\u00ab Cette r\u00e9ponse est-elle meilleure ? \u00bb est vague. Meilleur pour quoi ? Dans quel contexte ? L&#8217;annotateur et la personne qui a \u00e9crit le crit\u00e8re interpr\u00e8tent \u00ab bon \u00bb diff\u00e9remment.<\/p>\n<p>Correction : \u00c9cris les rubriques explicites. D\u00e9finis ce que \u00ab clair \u00bb signifie, ce que \u00ab complet \u00bb signifie, ce que \u00ab s\u00fbr \u00bb signifie. Donne des exemples. Ensuite mesure la coh\u00e9rence par rapport \u00e0 la rubrique.<\/p>\n<h2>Probl\u00e8me 5 : D\u00e9saccord domaine<\/h2>\n<p>Tu entra\u00eenes sur des donn\u00e9es de pr\u00e9f\u00e9rence g\u00e9n\u00e9riques mais tu d\u00e9ploies dans un domaine sp\u00e9cialis\u00e9. Le mod\u00e8le n&#8217;a jamais vu d&#8217;exemples de ce que \u00ab bon \u00bb ressemble dans ton domaine.<\/p>\n<p>Correction : Utilise les requ\u00eates et r\u00e9ponses sp\u00e9cifiques au domaine. Recrute les annotateurs familiers avec le domaine. Leurs signaux de pr\u00e9f\u00e9rence seront ancr\u00e9s dans la r\u00e9alit\u00e9 du domaine.<\/p>\n<h2>Audit ton dataset<\/h2>\n<p>Ex\u00e9cute ces v\u00e9rifications avant l&#8217;entra\u00eenement :<\/p>\n<p>V\u00e9rification 1 : Accord inter-annotateurs. Mesure le kappa de Cohen ou le kappa de Fleiss \u00e0 travers les annotateurs. Cible 0,7+.<\/p>\n<p>V\u00e9rification 2 : Biais de position. Pour chaque position de r\u00e9ponse, compte combien de fois elle a \u00e9t\u00e9 marqu\u00e9e pr\u00e9f\u00e9r\u00e9e. Devrait \u00eatre uniforme.<\/p>\n<p>V\u00e9rification 3 : Distribution des \u00e9tiquettes. Combien de paires sont clairement claires vs borderline ? Les paires borderline sont des sources de bruit.<\/p>\n<p>V\u00e9rification 4 : Composition des annotateurs. Toutes les paires d&#8217;une seule personne ? Embauche plusieurs annotateurs ; leurs d\u00e9saccords sont o\u00f9 tu apprends.<\/p>\n<p>V\u00e9rification 5 : Couverture des requ\u00eates. Toutes les requ\u00eates d&#8217;un domaine ? Un genre ? Les vrais datasets sont diversifi\u00e9s.<\/p>\n<h2>Le chemin \u00e0 suivre<\/h2>\n<p>Donn\u00e9es mauvaises, mod\u00e8le mauvais. Mais la plupart des \u00e9quipes sautent l&#8217;assurance qualit\u00e9 parce que c&#8217;est peu glorieux. Les \u00e9quipes qui gagnent sont celles qui s&#8217;obs\u00e8dent sur la qualit\u00e9 du dataset avant l&#8217;entra\u00eenement.<\/p>\n<p><strong>Laeka Research \u2014 <a href=\"https:\/\/laeka.org\">laeka.org<\/a><\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>DPO est puissant. Mais la plupart des datasets exp\u00e9di\u00e9s pour entra\u00eener les mod\u00e8les sont bruyants, biais\u00e9s et inconsistants. Cela ruine l&#8217;entra\u00eenement. Comprendre les modes de d\u00e9faillance est la premi\u00e8re \u00e9tape pour les corriger. Probl\u00e8me&#8230;<\/p>\n","protected":false},"author":1,"featured_media":162,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[266],"tags":[],"class_list":["post-485","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-dpo-et-alignement"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/485","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=485"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/485\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/162"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=485"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=485"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=485"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}