Les Benchmarks IA Sont Cassés. Voici Comment les Réparer.
MMLU est saturé. HumanEval est contaminé. La plupart des benchmarks populaires sont devenus des objectifs d’optimisation plutôt que des outils de mesure. Quand le benchmark devient l’objectif, il cesse de mesurer ce qu’il était conçu pour mesurer. C’est la Loi de Goodhart appliquée à l’évaluation IA, et le domaine n’a pas reckoning avec cela.
Ce qui ne va pas avec les Benchmarks Actuels
Saturation. Les modèles principaux obtiennent des scores supérieurs à 90% sur MMLU, GSM8K et la plupart des benchmarks standards. Quand chaque modèle obtient plus de 90%, le benchmark ne différencie plus. La variance restante est du bruit, pas du signal. Nous comparons les modèles sur leur capacité à répondre à des questions pièges plutôt que sur leur capacité générale.
Contamination. Les datasets de benchmarks fuient dans les données d’entraînement. Parfois délibérément, parfois par web scraping qui capture les discussions de benchmarks. Un modèle qui a vu les questions de test pendant l’entraînement ne démontre pas la capacité — il démontre la mémoire. Et il n’y a pas de moyen fiable de détecter la contamination à l’échelle.
Truquage. Les organisations optimisent pour les benchmarks parce que les benchmarks conduisent l’adoption. Cela crée des incitations perverses. Un modèle spécifiquement accordé pour bien scorer sur MMLU peut performer plus mal sur des tâches du monde réel que MMLU était censé prédire. Le benchmark devient un village Potemkine de capacité.
Dimensions manquantes. Les benchmarks actuels testent la connaissance, le raisonnement et la génération de code. Ils ne testent pas l’empathie, la nuance, la sensibilité contextuelle ou la capacité à gérer l’ambiguïté. Ces capacités « molles » sont souvent plus importantes pour l’utilité du monde réel que les capacités « dures » que les benchmarks mesurent.
Le Problème de Mesure
Les benchmarks échouent parce qu’ils tentent de réduire la capacité multidimensionnelle à un seul nombre. L’utilité d’un modèle dépend de dizaines de facteurs qui interagissent de manière complexe. Réduire cela à « obtient 92,3 sur MMLU » c’est comme évaluer un chef en mesurant la température de sa nourriture. Cela capture une dimension de la qualité et rate tout ce qui importe.
Le problème fondamental : nous mesurons ce qui est facile à mesurer plutôt que ce qui importe. Les questions à choix multiples sont faciles à noter. La qualité ouverte est difficile à noter. Donc nous utilisons des questions à choix multiples et prétendons qu’elles mesurent la qualité ouverte. Ce n’est pas le cas.
Principes pour de Meilleurs Benchmarks
Évaluation multidimensionnelle. Ne réduisez pas la qualité à un seul score. Évaluez les modèles sur des dimensions indépendantes : exactitude factuelle, profondeur du raisonnement, empathie, clarté, sensibilité contextuelle, calibrage de l’incertitude. Rapportez chaque dimension séparément. Un modèle qui obtient 95 sur la précision et 40 sur l’empathie est très différent d’un qui obtient 75 sur les deux, même s’ils moyennent le même.
Benchmarks dynamiques. Les benchmarks statiques se font contaminer et truquer. Les benchmarks dynamiques génèrent régulièrement de nouveaux éléments d’évaluation, rendant la mémorisation impossible. C’est plus difficile à mettre en œuvre mais nécessaire pour une évaluation significative.
Ancrage au monde réel. Les benchmarks devraient corréler avec la satisfaction réelle des utilisateurs et l’achèvement des tâches dans les déploiements réels. Si un score de benchmark ne prédit pas la performance du monde réel, le benchmark mesure la mauvaise chose. L’analyse de corrélation régulière entre les scores de benchmarks et les métriques de déploiement devrait être une pratique standard.
Robustesse adversariale. Incluez des éléments d’évaluation spécifiquement conçus pour sonder les modes de défaillance : questions ambiguës, invites émotionnellement chargées, questions qui exigent reconnaître l’incertitude, questions multi-perspectives qui résistent aux réponses simples. Un modèle qui ne fonctionne bien que sur des questions claires n’est pas prêt pour les vrais utilisateurs.
Évaluation du processus, pas seulement évaluation des résultats. Ne vérifiez pas seulement si le modèle a obtenu la bonne réponse. Évaluez la qualité du processus de raisonnement. Un modèle qui arrive à la bonne réponse par un raisonnement défectueux est plus dangereux qu’un qui arrive à une mauvaise réponse par un raisonnement solide, parce que le premier échouera de manière imprévisible.
Benchmarks Dont Nous Avons Besoin Mais Que Nous N’Avons Pas
Benchmark d’empathie. Le modèle peut-il identifier avec précision l’état émotionnel derrière un message et répondre d’une manière qui démontre une véritable compréhension ? Pas en disant « je comprends ce que tu ressens » mais en répondant d’une manière qui montre qu’il a réellement compris.
Benchmark de nuance. Le modèle peut-il gérer des questions qui ont plusieurs réponses valides selon le contexte ? Peut-il présenter plusieurs perspectives sans les équilibrer faussement ? Peut-il reconnaître quand une question est véritablement difficile plutôt que de défaut à une réponse confiante ?
Benchmark de calibrage de l’incertitude. Quand le modèle dit « je ne suis pas sûr », est-il réellement incertain ? Quand il exprime la confiance, la confiance est-elle justifiée ? Le calibrage est l’une des capacités les plus pratiquement importantes et l’une des moins mesurées.
Benchmark de maintien de perspective. Le modèle peut-il représenter et maintenir plusieurs perspectives sur une question complexe simultanément ? Peut-il identifier les tensions entre perspectives sans les résoudre prématurément ? Peut-il basculer entre perspectives fluidement ?
Benchmark anti-simaresque. Le modèle maintient-il sa position quand l’utilisateur repousse avec une pression sociale plutôt que des preuves ? Accepte-t-il des affirmations clairement fausses quand l’utilisateur insiste ? C’est directement mesurable et critiquement important.
Construire Cela
Chez Laeka, nous développons des cadres d’évaluation qui abordent ces lacunes. Le travail est précoce et le domaine a besoin de plus de participants. Le développement de benchmarks n’est pas aussi glamour que le développement de modèles, mais c’est probablement plus important. Vous ne pouvez pas construire ce que vous ne pouvez pas mesurer. Et en ce moment, nous mesurons les mauvaises choses.
Réparez les benchmarks. Les modèles suivront.
Laeka Research — laeka.org