De RLHF à l’alignement structural : Une approche d’architecture cognitive
RLHF a été une percée. Cela nous a donné une manière de façonner le comportement du modèle en utilisant les préférences humaines. Mais c’était toujours un patchwork, pas une fondation. Le modèle de récompense…