Le compromis qualité-quantité : 500 bonnes paires battent 50 000 mauvaises

Il y a une pression pour construire de grands datasets. 100k paires. 500k paires. « Plus de données c’est toujours mieux », la pensée va. C’est faux.

La recherche de Laeka montre un motif cohérent : 500 paires de haute qualité surpassent 50 000 paires bruyantes. La différence n’est pas marginale. C’est 2-3x mieux sur la performance des tâches en aval.

Pourquoi la qualité bat la quantité

Chaque paire bruyante introduit de la contradiction dans ton signal d’entraînement. Si la Paire 1 dit « le verbeux est mauvais » et la Paire 50000 (d’un annotateur différent) dit « le verbeux est bon », le modèle apprend : peut-être le verbeux est-il parfois bon ? La confiance du modèle se dégrade. Il arrête d’apprendre les principes clairs.

Avec 500 paires de haute qualité, chaque paire renforce les mêmes principes. Le signal du modèle est clair. Il apprend avec une confiance élevée. Cette confiance se transfère aux requêtes novatrices.

La qualité est un signal. La quantité sans qualité est du bruit.

Les maths

Suppose :

500 paires, 90% accord d’annotateurs = 450 paires de signal, 50 paires bruyantes.

50 000 paires, 60% accord d’annotateurs = 30 000 paires de signal, 20 000 paires bruyantes.

Les paires bruyantes ne s’annulent pas. Elles s’accumulent. Avec 20 000 signaux contradictoires, le modèle apprend à ignorer les signaux faibles et à mémoriser les motifs de surface.

Avec 50 signaux contradictoires, le modèle peut se permettre d’apprendre à travers eux. Ce sont du bruit dans le signal.

Analyse des coûts

500 paires de haute qualité :

Collecte de requêtes : 40 heures. Génération de réponses : 10 heures. Annotation (avec contrôle de qualité) : 200 heures. Vérifications de qualité : 20 heures. Total : 270 heures. Coût : 8 000-12 000 $ (selon les tarifs d’annotation).

50 000 paires bruyantes (crowdsourcées) :

Tout est mis à l’échelle 100x. Collecte de requêtes : 4 000 heures. Génération de réponses : 1 000 heures. Annotation : 20 000 heures. Vérifications de qualité : 2 000 heures. Total : 27 000 heures. Coût : 200 000-300 000 $.

Le petit dataset est 25x moins cher et produit de meilleurs résultats. Ce n’est pas un compromise. C’est un gain-gain.

Comment obtenir des paires de haute qualité

Recrute des experts du domaine. Paie-les bien. Limite les lots d’annotation (50-100 paires par session). Utilise des rubriques explicites. Mesure l’accord inter-annotateurs. Supprime les annotateurs hors-normes. Itère.

C’est plus lent. C’est plus cher par paire. Mais tu finis avec quelque chose qui entraîne réellement de bons modèles.

Quand plus de paires aident

Après avoir atteint 500 paires de haute qualité et vu un signal fort, ensuite mets à l’échelle. Ajoute plus de paires tout en maintenant les normes de qualité. Mais ne sacrifie pas la qualité pour le volume.

La loi d’échelle n’est pas linéaire. Ta 501e paire contribue moins que ta 1ère paire (rendements décroissants). Tu dois être au moins aussi rigoureux.

La vérité inconfortable

Les équipes aiment les grands chiffres. « Nous avons construit un dataset de 100k-paires ! » Semble impressionnant. Ne signifie rien si 60% c’est de la poubelle.

Les équipes qui gagnent sur la qualité du modèle construisent de petits datasets de haute qualité. Elles ne se vantent pas de la taille. Elles sont obsédées par le signal.

Laeka Research — laeka.org

Publications similaires

Leave a Reply

Your email address will not be published. Required fields are marked *