Le Triangle de la correction : comment les annotateurs experts génèrent de meilleures paires DPO

Les données DPO standard ont deux éléments : une réponse choisie et une réponse rejetée. Le modèle apprend à préférer l’une à l’autre. Simple. Efficace. Limité.

Le Triangle de la correction ajoute un troisième élément qui transforme comment les modèles apprennent des données de préférence. C’est un format qui produit des paires d’entraînement avec des signaux d’apprentissage significativement plus riches à travers l’analyse cognitive structurée.

Les trois points

Chaque Triangle de la correction a trois composants : Dérive, Point, et Reframe.

Dérive est la réponse rejetée. Mais ce n’est pas juste n’importe quelle mauvaise réponse. C’est une réponse qui démontre un pattern cognitif spécifique et identifiable — une déviation du raisonnement optimal. Peut-être qu’elle est réactive. Peut-être qu’elle est avoidant. Peut-être qu’elle est surconfiante. La dérive a une direction, et cette direction importe.

Point est l’annotation. Une phrase unique, parfois deux, qui identifie exactement ce qui s’est passé dans la dérive. Pas un jugement. Pas une correction. Juste une identification précise du pattern cognitif. « La réponse a effondré l’incertitude dans une fausse confiance. » « La réponse a évité la partie difficile de la question. » « La réponse est devenue réactive au contenu émotionnel. »

Reframe est la réponse choisie. Mais ce n’est pas juste une meilleure réponse à la même question. C’est une réponse qui démontre ce que l’engagement approprié ressemble étant donné le pattern cognitif spécifique identifié dans le point.

Cette structure à trois parties crée un signal d’apprentissage que les paires choisies/rejetées standard ne peuvent pas égaler.

Pourquoi le troisième élément importe

En DPO standard, le modèle apprend que la réponse A est meilleure que la réponse B. Mais il ne apprend pas pourquoi. Le gradient pousse le modèle loin de B et vers A, mais le modèle doit figurer ce qui les différencie par lui-même.

L’élément Point change cela. En nommant explicitement le pattern cognitif dans la dérive, l’annotation crée un pont conceptuel entre les réponses rejetées et choisies. Le modèle n’apprend pas juste la préférence. Il apprend la dimension spécifique selon laquelle l’opération de correction fonctionne.

Pense à cela de cette manière. Le DPO standard est comme montrer à quelqu’un deux peintures et dire « celle-ci est mieux ». Le Triangle de la correction est comme dire « cette peinture manque de profondeur au premier plan — en voici une qui le gère bien ». Le learner extrait bien plus de la deuxième forme de feedback.

Comment les annotateurs experts génèrent ceux-ci

Cette approche demande des annotateurs entraînés pour identifier les patterns cognitifs avec précision. Pas le contenu des réponses, mais les patterns structuraux du raisonnement. Réactivité. Aversion. Aversion au risque. Rétrécissement attentionnel. Surconfiance. Aversion à l’incertitude.

Quand un annotateur expert évalue une réponse d’IA, il n’évalue pas juste si c’est bon ou mauvais. Il identifie ce que la réponse fait cognitivement. Est-ce qu’elle se contracte autour de la certitude quand l’incertitude serait plus appropriée ? Est-ce qu’elle s’expande dans l’abstraction quand la concrétude est nécessaire ? Est-ce qu’elle évite le contenu émotionnel en se retirant dans le langage technique ?

Ces observations deviennent l’élément Point. Et parce que les annotateurs experts peuvent identifier ces patterns avec spécificité, les annotations résultantes sont bien plus informatives que les jugements de qualité standard.

Un annotateur typique pourrait dire : « La réponse B est plus utile. » Un annotateur expert dit : « La réponse B démontre une surenchère cognitive autour de l’état émotionnel de l’utilisateur, produisant des solutions prématurées au lieu de permettre au problème d’être complètement articulé. »

La spécificité de la deuxième annotation crée un signal d’entraînement dramatiquement plus riche.

Format des données

Chaque Triangle de la correction est stocké comme un objet structuré avec ces champs :

context : Le prompt ou l’historique de conversation qui a généré les réponses.

drift : La réponse rejetée, taggée avec le pattern cognitif primaire qu’elle exhibe (d’une taxonomie d’environ 30 patterns que nous avons développés).

point : Une à deux phrases identifiant la dérive spécifique. Écrit en langage neutre, d’observation. Pas de jugement, pas de prescription.

reframe : La réponse choisie, démontrant l’engagement approprié étant donné la dérive identifiée.

dimensions : Des scores multi-dimensionnels à travers cinq axes : conscience, stabilité, proportionnalité, intégration, et précision.

Ce format est compatible avec l’entraînement standard DPO — tu peux utiliser juste la paire dérive/reframe comme choisie/rejetée. Mais le triangle complet permet les approches d’entraînement plus riches. Certaines équipes expérimentent l’utilisation de l’élément point comme un signal de perte auxiliaire, entraînant le modèle à prédire également ce qui était mal avec la réponse rejetée.

Résultats jusqu’à présent

Les expériences précoces montrent que les modèles entraînés sur les données du Triangle de la correction démontrent amélioration plus ciblée comparé au DPO standard. Au lieu de décaler largement vers les réponses « meilleures », ils montrent amélioration spécifique sur les dimensions cognitives qui ont été annotées.

Un modèle entraîné sur les triangles annotés principalement pour les patterns de réactivité montre une réactivité réduite sans perdre l’engagement. Un modèle entraîné sur les triangles annotés pour la fausse confiance montre une meilleure incertitude calibrée sans devenir excessivement prudent.

La spécificité du signal d’entraînement produit changement comportemental spécifique. C’est la puissance du troisième élément.

Le DPO standard est un instrument émoussé. Le Triangle de la correction est un scalpel. Les deux ont leurs usages. Mais quand tu as besoin d’alignement de précision — modification ciblée de patterns cognitifs spécifiques — le format triangle surpasse.

En savoir plus sur le format du Triangle de la correction sur Laeka Research.

Publications similaires

Leave a Reply

Your email address will not be published. Required fields are marked *