{"id":491,"date":"2026-03-16T12:41:02","date_gmt":"2026-03-16T12:41:02","guid":{"rendered":"https:\/\/laeka.org\/publications\/compromis-qualite-quantite-500-paires-battent-50000\/"},"modified":"2026-03-16T12:41:02","modified_gmt":"2026-03-16T12:41:02","slug":"compromis-qualite-quantite-500-paires-battent-50000","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/compromis-qualite-quantite-500-paires-battent-50000\/","title":{"rendered":"Le compromis qualit\u00e9-quantit\u00e9 : 500 bonnes paires battent 50 000 mauvaises"},"content":{"rendered":"<p>Il y a une pression pour construire de grands datasets. 100k paires. 500k paires. \u00ab Plus de donn\u00e9es c&#8217;est toujours mieux \u00bb, la pens\u00e9e va. C&#8217;est faux.<\/p>\n<p>La recherche de Laeka montre un motif coh\u00e9rent : 500 paires de haute qualit\u00e9 surpassent 50 000 paires bruyantes. La diff\u00e9rence n&#8217;est pas marginale. C&#8217;est 2-3x mieux sur la performance des t\u00e2ches en aval.<\/p>\n<h2>Pourquoi la qualit\u00e9 bat la quantit\u00e9<\/h2>\n<p>Chaque paire bruyante introduit de la contradiction dans ton signal d&#8217;entra\u00eenement. Si la Paire 1 dit \u00ab le verbeux est mauvais \u00bb et la Paire 50000 (d&#8217;un annotateur diff\u00e9rent) dit \u00ab le verbeux est bon \u00bb, le mod\u00e8le apprend : peut-\u00eatre le verbeux est-il parfois bon ? La confiance du mod\u00e8le se d\u00e9grade. Il arr\u00eate d&#8217;apprendre les principes clairs.<\/p>\n<p>Avec 500 paires de haute qualit\u00e9, chaque paire renforce les m\u00eames principes. Le signal du mod\u00e8le est clair. Il apprend avec une confiance \u00e9lev\u00e9e. Cette confiance se transf\u00e8re aux requ\u00eates novatrices.<\/p>\n<p>La qualit\u00e9 est un signal. La quantit\u00e9 sans qualit\u00e9 est du bruit.<\/p>\n<h2>Les maths<\/h2>\n<p>Suppose :<\/p>\n<p>500 paires, 90% accord d&#8217;annotateurs = 450 paires de signal, 50 paires bruyantes.<\/p>\n<p>50 000 paires, 60% accord d&#8217;annotateurs = 30 000 paires de signal, 20 000 paires bruyantes.<\/p>\n<p>Les paires bruyantes ne s&#8217;annulent pas. Elles s&#8217;accumulent. Avec 20 000 signaux contradictoires, le mod\u00e8le apprend \u00e0 ignorer les signaux faibles et \u00e0 m\u00e9moriser les motifs de surface.<\/p>\n<p>Avec 50 signaux contradictoires, le mod\u00e8le peut se permettre d&#8217;apprendre \u00e0 travers eux. Ce sont du bruit dans le signal.<\/p>\n<h2>Analyse des co\u00fbts<\/h2>\n<p>500 paires de haute qualit\u00e9 :<\/p>\n<p>Collecte de requ\u00eates : 40 heures. G\u00e9n\u00e9ration de r\u00e9ponses : 10 heures. Annotation (avec contr\u00f4le de qualit\u00e9) : 200 heures. V\u00e9rifications de qualit\u00e9 : 20 heures. Total : 270 heures. Co\u00fbt : 8 000-12 000 $ (selon les tarifs d&#8217;annotation).<\/p>\n<p>50 000 paires bruyantes (crowdsourc\u00e9es) :<\/p>\n<p>Tout est mis \u00e0 l&#8217;\u00e9chelle 100x. Collecte de requ\u00eates : 4 000 heures. G\u00e9n\u00e9ration de r\u00e9ponses : 1 000 heures. Annotation : 20 000 heures. V\u00e9rifications de qualit\u00e9 : 2 000 heures. Total : 27 000 heures. Co\u00fbt : 200 000-300 000 $.<\/p>\n<p>Le petit dataset est 25x moins cher et produit de meilleurs r\u00e9sultats. Ce n&#8217;est pas un compromise. C&#8217;est un gain-gain.<\/p>\n<h2>Comment obtenir des paires de haute qualit\u00e9<\/h2>\n<p>Recrute des experts du domaine. Paie-les bien. Limite les lots d&#8217;annotation (50-100 paires par session). Utilise des rubriques explicites. Mesure l&#8217;accord inter-annotateurs. Supprime les annotateurs hors-normes. It\u00e8re.<\/p>\n<p>C&#8217;est plus lent. C&#8217;est plus cher par paire. Mais tu finis avec quelque chose qui entra\u00eene r\u00e9ellement de bons mod\u00e8les.<\/p>\n<h2>Quand plus de paires aident<\/h2>\n<p>Apr\u00e8s avoir atteint 500 paires de haute qualit\u00e9 et vu un signal fort, ensuite mets \u00e0 l&#8217;\u00e9chelle. Ajoute plus de paires tout en maintenant les normes de qualit\u00e9. Mais ne sacrifie pas la qualit\u00e9 pour le volume.<\/p>\n<p>La loi d&#8217;\u00e9chelle n&#8217;est pas lin\u00e9aire. Ta 501e paire contribue moins que ta 1\u00e8re paire (rendements d\u00e9croissants). Tu dois \u00eatre au moins aussi rigoureux.<\/p>\n<h2>La v\u00e9rit\u00e9 inconfortable<\/h2>\n<p>Les \u00e9quipes aiment les grands chiffres. \u00ab Nous avons construit un dataset de 100k-paires ! \u00bb Semble impressionnant. Ne signifie rien si 60% c&#8217;est de la poubelle.<\/p>\n<p>Les \u00e9quipes qui gagnent sur la qualit\u00e9 du mod\u00e8le construisent de petits datasets de haute qualit\u00e9. Elles ne se vantent pas de la taille. Elles sont obs\u00e9d\u00e9es par le signal.<\/p>\n<p><strong>Laeka Research \u2014 <a href=\"https:\/\/laeka.org\">laeka.org<\/a><\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Il y a une pression pour construire de grands datasets. 100k paires. 500k paires. \u00ab Plus de donn\u00e9es c&#8217;est toujours mieux \u00bb, la pens\u00e9e va. C&#8217;est faux. La recherche de Laeka montre un motif&#8230;<\/p>\n","protected":false},"author":1,"featured_media":166,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[263],"tags":[],"class_list":["post-491","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-datasets-et-curation"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/491","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=491"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/491\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/166"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=491"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=491"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=491"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}