Pourquoi nous avons besoin de meilleurs benchmarks pour l’empathie, la sagesse et la nuance
Nous avons d’excellents benchmarks pour la connaissance. MMLU teste la connaissance générale dans les domaines. Arc teste le raisonnement. HellaSwag teste le sens commun.
Mais nous n’avons pas de bons benchmarks pour l’empathie, la sagesse ou la nuance. C’est un énorme point aveugle. Les modèles sont évalués sur les dimensions qu’ils sont entraînés à optimiser, tandis que d’autres dimensions critiques restent non mesurées.
Ce que mesurent les benchmarks actuels
Les benchmarks actuels sont principalement des tests de connaissance et de capacité. Ils demandent : Le modèle peut-il répondre à cette question factuelle ? Peut-il résoudre ce problème mathématique ? Peut-il écrire du code qui fonctionne ?
C’est important. Mais cela mesure seulement une tranche de la qualité du modèle. Cela ne mesure pas si le modèle est honnête, s’il comprend le contexte correctement, s’il peut distinguer entre ce qu’il sait et ce qu’il devine.
Les dimensions manquantes
Empathie : Le modèle peut-il reconnaître le contenu émotionnel ? Répond-il de manière appropriée aux utilisateurs en détresse ? Peut-il ajuster le ton en fonction du contexte ?
Sagesse : Le modèle peut-il reconnaître les limites de sa connaissance ? Donne-t-il des réponses mesurées aux questions compliquées, ou exagère-t-il la certitude ? Peut-il équilibrer les valeurs concurrentes ?
Nuance : Le modèle comprend-il que la plupart des questions du monde réel n’ont pas de réponses simples ? Peut-il tenir plusieurs perspectives simultanément ? Peut-il dire « cela dépend » ?
Ces qualités sont difficiles à mesurer. Mais elles comptent énormément en pratique.
Pourquoi cela compte
Les modèles sont optimisés pour les métriques que nous mesurons. Si nous mesurons seulement la connaissance, nous obtenons des modèles qui sont savants mais émotionnellement décalés et surconfidents.
Nous le voyons en pratique. Les modèles qui obtiennent de bons scores sur les benchmarks produisent souvent des résultats qui sont techniquement corrects mais contextuellement inappropriés ou émotionnellement durs.
La solution n’est pas de remplacer les benchmarks de capacité. C’est d’en ajouter de nouveaux.
À quoi pourraient ressembler de meilleurs benchmarks
Benchmark d’empathie : Présente des scénarios impliquant la détresse émotionnelle ou la complexité interpersonnelle. Évalue si les réponses du modèle démontrent une compréhension et une sensibilité émotionnelle appropriée.
Benchmark de sagesse : Pose des questions difficiles sans réponses claires (par ex. « Comment dois-je équilibrer carrière et famille ? »). Évalue si le modèle reconnaît l’incertitude, présente plusieurs perspectives et évite la fausse certitude.
Benchmark de nuance : Présente des cas avec des valeurs concurrentes ou un désaccord raisonnable. Évalue si le modèle peut articuler plusieurs points de vue valides plutôt que de prendre une stance unique.
Le défi
Ces benchmarks sont plus difficiles à construire que des tests de connaissance factuelle. Ils sont plus subjectifs. L’accord inter-rateur est plus difficile à atteindre.
Mais la difficulté n’est pas une excuse pour l’évitement. Les dimensions que nous ne mesurons pas sont souvent celles qui comptent le plus en pratique.
Un chemin à suivre
Commence par de petits benchmarks soigneusement construits. Fais évaluer les réponses du modèle par des rateurs divers. Itère. Améliore. Rends la nuance, la sagesse et l’empathie visibles et mesurables.
Ce n’est que de cette façon que nous pouvons les optimiser. Ce n’est que de cette façon que nous pouvons être confiants que nous construisons des modèles qui ne sont pas seulement intelligents, mais sages.
Laeka Research — laeka.org