Pourquoi nous avons besoin de meilleurs benchmarks pour l’empathie, la sagesse et la nuance

Nous avons d’excellents benchmarks pour la connaissance. MMLU teste la connaissance générale dans les domaines. Arc teste le raisonnement. HellaSwag teste le sens commun.

Mais nous n’avons pas de bons benchmarks pour l’empathie, la sagesse ou la nuance. C’est un énorme point aveugle. Les modèles sont évalués sur les dimensions qu’ils sont entraînés à optimiser, tandis que d’autres dimensions critiques restent non mesurées.

Ce que mesurent les benchmarks actuels

Les benchmarks actuels sont principalement des tests de connaissance et de capacité. Ils demandent : Le modèle peut-il répondre à cette question factuelle ? Peut-il résoudre ce problème mathématique ? Peut-il écrire du code qui fonctionne ?

C’est important. Mais cela mesure seulement une tranche de la qualité du modèle. Cela ne mesure pas si le modèle est honnête, s’il comprend le contexte correctement, s’il peut distinguer entre ce qu’il sait et ce qu’il devine.

Les dimensions manquantes

Empathie : Le modèle peut-il reconnaître le contenu émotionnel ? Répond-il de manière appropriée aux utilisateurs en détresse ? Peut-il ajuster le ton en fonction du contexte ?

Sagesse : Le modèle peut-il reconnaître les limites de sa connaissance ? Donne-t-il des réponses mesurées aux questions compliquées, ou exagère-t-il la certitude ? Peut-il équilibrer les valeurs concurrentes ?

Nuance : Le modèle comprend-il que la plupart des questions du monde réel n’ont pas de réponses simples ? Peut-il tenir plusieurs perspectives simultanément ? Peut-il dire « cela dépend » ?

Ces qualités sont difficiles à mesurer. Mais elles comptent énormément en pratique.

Pourquoi cela compte

Les modèles sont optimisés pour les métriques que nous mesurons. Si nous mesurons seulement la connaissance, nous obtenons des modèles qui sont savants mais émotionnellement décalés et surconfidents.

Nous le voyons en pratique. Les modèles qui obtiennent de bons scores sur les benchmarks produisent souvent des résultats qui sont techniquement corrects mais contextuellement inappropriés ou émotionnellement durs.

La solution n’est pas de remplacer les benchmarks de capacité. C’est d’en ajouter de nouveaux.

À quoi pourraient ressembler de meilleurs benchmarks

Benchmark d’empathie : Présente des scénarios impliquant la détresse émotionnelle ou la complexité interpersonnelle. Évalue si les réponses du modèle démontrent une compréhension et une sensibilité émotionnelle appropriée.

Benchmark de sagesse : Pose des questions difficiles sans réponses claires (par ex. « Comment dois-je équilibrer carrière et famille ? »). Évalue si le modèle reconnaît l’incertitude, présente plusieurs perspectives et évite la fausse certitude.

Benchmark de nuance : Présente des cas avec des valeurs concurrentes ou un désaccord raisonnable. Évalue si le modèle peut articuler plusieurs points de vue valides plutôt que de prendre une stance unique.

Le défi

Ces benchmarks sont plus difficiles à construire que des tests de connaissance factuelle. Ils sont plus subjectifs. L’accord inter-rateur est plus difficile à atteindre.

Mais la difficulté n’est pas une excuse pour l’évitement. Les dimensions que nous ne mesurons pas sont souvent celles qui comptent le plus en pratique.

Un chemin à suivre

Commence par de petits benchmarks soigneusement construits. Fais évaluer les réponses du modèle par des rateurs divers. Itère. Améliore. Rends la nuance, la sagesse et l’empathie visibles et mesurables.

Ce n’est que de cette façon que nous pouvons les optimiser. Ce n’est que de cette façon que nous pouvons être confiants que nous construisons des modèles qui ne sont pas seulement intelligents, mais sages.

Laeka Research — laeka.org

Pourquoi nous avons besoin de meilleurs benchmarks pour l’empathie, la sagesse et la nuance

Ce que mesurent les benchmarks actuels

Les dimensions manquantes

Pourquoi cela compte

À quoi pourraient ressembler de meilleurs benchmarks

Le défi

Un chemin à suivre

Les Benchmarks IA Sont Cassés. Voici Comment les Réparer.

Apprentissage fédéré : entraîner des modèles sans partager les données

Au-delà de l’éthique IA basée sur les règles : pourquoi l’alignement structurel surpasse les contraintes comportementales

Pourquoi les chercheurs en sécurité de l’IA devraient étudier la phénoménologie

L’hallucination n’est pas un bug

Le problème de l’hallucination n’est pas un bug. C’est une caractéristique que nous ne comprenons pas encore.

Leave a Reply Cancel reply

Ce que mesurent les benchmarks actuels

Les dimensions manquantes

Pourquoi cela compte

À quoi pourraient ressembler de meilleurs benchmarks

Le défi

Un chemin à suivre

Publications similaires

Leave a Reply Cancel reply