DPO et alignement

De RLHF à l’alignement structurel : une approche d’architecture cognitive

RLHF fonctionne en alignant les résultats du modèle sur les préférences humaines. Mais l’alignement des préférences est une optimisation de surface. Ce dont nous avons besoin est un alignement au niveau de l’architecture —…

DPO et alignement

Pourquoi l’alignement ne cesse de se casser

Chaque quelques semaines, quelqu’un publie un nouveau jailbreak. Une nouvelle technique d’injection de prompt. Une nouvelle façon de faire produire à un modèle « sûr » des sorties dangereuses. La communauté de la sécurité…

DPO et alignement

Le test du bambou : ce que la pression adversaire révèle sur l’alignement de l’IA

Pousse un modèle assez fort et tu apprends ce dont il est fait. Les modèles alignés par RLHF ont deux modes de défaillance sous la pression adversaire. Soit ils se rigidifient — se verrouillent…