Le problème du suraliignement : quand la sécurité rend les modèles inutiles

La sécurité est importante. Mais il y a un mode de défaillance dont personne ne parle : le suralignement. Les modèles tellement contraints qu’ils refusent les demandes légitimes.

« Je ne peux pas t’aider avec cela parce que cela pourrait être nuisible. » Tu n’as rien demandé de nuisible. Tu as demandé de l’aide pour écrire un email à ton propriétaire.

Les modèles suralignés sont moins utiles. Et ils érodent la confiance plus vite que les modèles sous-alignés.

D’où vient le suraliignement

Déséquilibre des données d’entraînement. Ton dataset de sécurité a 10 000 exemples de requêtes nuisibles et 100 exemples de requêtes inoffensives qui ressemblent. Le modèle apprend : « Les requêtes comme celles-ci sont généralement mauvaises. Refuse par défaut. »

Règles trop larges. « Ne discute pas de politique » devient « refuse toute requête mentionnant un politicien, un parti ou une politique. » Un étudiant demandant de l’aide pour analyser un article de philosophie politique se fait bloquer.

Pénalité d’incertitude. Quand le modèle est incertain si une requête est sûre, il refuse. C’est conservateur mais tue l’utilité. La plupart des requêtes se trouvent dans cette zone grise.

Le coût

Les utilisateurs se frustrent. Ils apprennent que le modèle est inutile pour le travail réel. Ils arrêtent de l’utiliser. Ou ils contournent les contraintes, ce qui annule le but.

Les équipes ajoutent ensuite plus de fine-tuning pour être « utiles ». Cela crée une course aux armements. Le modèle devient moins utile, puis l’équipe essaie de le corriger en le rendant moins sûr, puis il devient dangereux, puis ils overcorrect à nouveau.

L’équilibre

Tu as besoin de sécurité. Tu as aussi besoin d’utilité. Les deux comptent. L’objectif n’est pas zéro risque. C’est un risque acceptable avec une utilité acceptable.

Exemple : Un modèle pour le service client ne peut pas aider aux activités illégales (fraude, harcèlement). C’est non-négociable. Mais il devrait aider aux plaintes, remboursements, questions d’expédition. Être utile dans ces domaines est le point entier.

Comment éviter le suraliignement

Équilibre tes données d’entraînement. Pour chaque exemple nuisible, inclus 2-3 exemples inoffensifs qui ressemblent. Le modèle apprend la nuance au lieu du refus systématique.

Teste contre les cas d’usage légitimes. Avant de déployer, essaie ton modèle sur 100 requêtes d’utilisateurs réels. Combien refuse-t-il ? Si le taux de refus est au-dessus de 5%, tu es probablement suraliigné.

Définis la sécurité étroitement. Que protèges-tu vraiment ? Liste les préjudices spécifiques. Entraîne contre ceux-ci, pas contre les catégories vagues comme « sujets controversés ».

Mesure à la fois la sécurité et l’utilité. Suivi le taux de refus. Suivi la satisfaction des utilisateurs. Suivi la performance des tâches en aval. Si l’utilité se dégrade pour les gains de sécurité, tu overcorrect.

L’approche princeps

Sécurité par la clarté, pas par la prudence. Enseigne au modèle ce qui ressemble au bien dans ton domaine (respectueux, honnête, utile). Entraîne-le à incarner ces valeurs. Cela produit la sécurité comme un effet secondaire du bon comportement, pas comme une contrainte.

Un modèle entraîné sur des exemples de désaccord réfléchi désaccordera réfléchiment. Tu n’as pas besoin de le bloquer de désaccorder.

Laeka Research — laeka.org

Publications similaires

Leave a Reply

Your email address will not be published. Required fields are marked *