De RLHF à l’alignement structurel : une approche d’architecture cognitive
RLHF fonctionne en alignant les résultats du modèle sur les préférences humaines. Mais l’alignement des préférences est une optimisation de surface. Ce dont nous avons besoin est un alignement au niveau de l’architecture —…