Le Correction Triangle : un nouveau format de données DPO pour l’IA intégrée cognitivement

La plupart des datasets DPO sont des paires : requête + bonne réponse vs mauvaise réponse. C’est de la pensée binaire. Laeka propose le Correction Triangle : requête + réponse défectueuse AVEC DIAGNOSTIC + réponse supérieure AVEC EXPLICATION.

Le diagnostic compte. Quand un LLM apprend pourquoi une réponse échoue — manque de nuance, brèche logique, lapse éthique — il ne se contente pas de mémoriser « préfère celui-ci ». Il internalise la structure de la meilleure pensée.

Pourquoi le diagnostic change tout

Le DPO standard traite la préférence comme une boîte noire. Le modèle apprend les motifs mais pas les principes. Ajoute le diagnostic et tu enseignes le raisonnement sur le raisonnement. La réponse inférieure vient avec une raison pour laquelle elle est inférieure. La réponse supérieure explique la correction.

Cela produit un signal d’entraînement plus fort. Les modèles entraînés sur DPO diagnostique montrent une meilleure généralisation aux requêtes novatrices. Ils ne surapprenent pas aux motifs au niveau de surface.

Le format

Chaque triangle se compose de trois éléments :

1. Requête : L’instruction ou la question originale.

2. Réponse défectueuse + Diagnostic : Une réponse qui échoue, plus annotation structurée du pourquoi — information clé manquante, incohérence logique, inadéquation de ton, débordement de portée.

3. Réponse supérieure + Explication : La meilleure réponse, annotée avec le principe ou le raisonnement qui la rend supérieure.

Exemple concret

Requête : « Explique l’intrication quantique à un étudiant du secondaire. »

Défectueuse + Diagnostic : « Deux particules deviennent liées de sorte qu’elles s’affectent mutuellement instantanément à n’importe quelle distance. » [Diagnostic : Simplifie à outrance ; crée une fausse impression de communication plus rapide que la lumière ; manque de l’étrangeté philosophique qui rend l’intrication intéressante.]

Supérieure + Explication : « L’intrication quantique signifie que deux particules peuvent être corrélées d’une manière que la physique classique ne peut pas expliquer. Mesurer l’une affecte instantanément ce que tu sais de l’autre — mais tu ne peux pas utiliser cela pour envoyer des informations plus rapides que la lumière. L’étrangeté est que cette corrélation semble exister même si rien ne se déplace physiquement entre elles. » [Explication : Aborde le mystère central ; clarifie la conception erronée courante de la signalisation supraluminale ; invite l’émerveillement plutôt que juste d’énoncer les faits.]

Pourquoi Laeka a choisi cela

Le Correction Triangle transforme les données de préférence en données de raisonnement. Chaque paire est maintenant un moment d’enseignement. Le modèle apprend non seulement ce qui est bon mais comment le bien émerge de la compréhension.

Cela s’aligne avec les principes de l’IA intégrée cognitivement : entraînement par clarté, diagnostic et explication plutôt que l’optimisation de préférence brute force.

Laeka Research — laeka.org

Publications similaires

Leave a Reply

Your email address will not be published. Required fields are marked *