Des chercheurs du MIT développent une nouvelle méthode pour identifier les grands modèles de langage trop sûrs d'eux et signaler les hallucinations

La crise des hallucinations : Pourquoi l'excès de confiance dans l'IA est un risque pour la sécurité

Les Grands Modèles de Langage (Large Language Models, LLMs) ont transformé notre interaction avec la technologie, mais leur tendance à générer des informations « avec une assurance erronée » reste un obstacle majeur. Lorsqu'un système d'IA présente une réponse inexacte ou fabriquée avec une certitude élevée, cela crée une dangereuse illusion de compétence. Dans des domaines à enjeux élevés tels que la santé, les services juridiques et la finance, ces hallucinations peuvent avoir des conséquences dévastatrices dans le monde réel.

Pendant des années, les développeurs se sont appuyés sur des vérifications d'« auto-cohérence » (self-consistency) — tester si un modèle fournit la même réponse lorsqu'il est sollicité plusieurs fois — pour évaluer la fiabilité. Cependant, des recherches du Massachusetts Institute of Technology (MIT) suggèrent que cette approche est fondamentalement limitée. Parce qu'un modèle peut être systématiquement erroné sur plusieurs itérations, l'auto-cohérence échoue souvent à détecter quand un système hallucine véritablement. Pour remédier à cela, une équipe de chercheurs du MIT a introduit une nouvelle métrique plus robuste connue sous le nom d'« Incertitude Totale (Total Uncertainty) » (TU), qui promet de redéfinir la manière dont nous mesurons la fiabilité de l'IA.

Innover : La métrique d'Incertitude Totale du MIT

L'innovation principale développée par l'équipe du MIT, dirigée par Kimia Hamidieh, étudiante diplômée en génie électrique et en informatique, dépasse les limites de l'analyse par modèle unique. Les chercheurs soutiennent que les méthodes traditionnelles mesurent principalement l'incertitude aléatoire (aleatoric uncertainty) — la confiance interne d'un seul modèle — ce qui est insuffisant pour identifier quand un système manque de connaissances réelles.

Pour résoudre ce problème, la méthode du MIT intègre l'incertitude épistémologique (epistemic uncertainty), qui traite des « lacunes de connaissances » inhérentes à l'entraînement du modèle. En mesurant à quel point un modèle cible est en désaccord avec un ensemble diversifié d'autres LLMs, le système peut distinguer plus précisément un modèle véritablement confiant d'un modèle qui hallucine simplement.

Le fonctionnement de l'approche par ensemble

La méthode du MIT ne repose pas sur un test unique et monolithique. Elle utilise plutôt un ensemble de LLMs provenant de divers développeurs. En comparant la similitude sémantique de la sortie d'un modèle cible avec les réponses d'un groupe sélectionné de LLMs diversifiés, le système peut quantifier la divergence. Si les modèles fournissent des réponses radicalement différentes, l'incertitude épistémologique est élevée, signalant la réponse comme non fiable.

Cette métrique d'Incertitude Totale (TU) est calculée en additionnant l'incertitude aléatoire (cohérence interne) et l'incertitude épistémologique (désaccord entre modèles). Cette approche à double couche crée un filtre de sécurité plus complet. Selon les chercheurs, cette méthode a surpassé de manière constante les mesures autonomes existantes dans dix tâches réalistes, y compris le raisonnement mathématique, la traduction et les réponses aux questions factuelles.

Une comparaison pratique des techniques de détection

Pour comprendre pourquoi cette approche est supérieure, il est nécessaire de comparer la façon dont les différentes méthodes traitent l'incertitude de l'IA. Le tableau ci-dessous présente les principales différences entre l'auto-cohérence standard et la nouvelle métrique d'Incertitude Totale basée sur l'ensemble.

Méthode	Mécanisme central	Limitation principale
Auto-cohérence	Échantillons multiples d'un modèle	Vulnérable aux biais internes partagés
Incertitude épistémologique	Vérification du consensus entre modèles	Nécessite l'accès à plusieurs modèles
Incertitude Totale (TU)	Aléatoire & Épistémologique combinés	Surcharge de calcul initiale plus élevée

Implications pour la sécurité et la fiabilité de l'IA

Le déploiement de la métrique d'Incertitude Totale a des implications profondes pour l'avenir de la sécurité de l'IA (AI safety). En signalant avec précision les hallucinations, la métrique TU permet aux développeurs de s'orienter vers le « calibrage de modèle » (model calibration), où le système devient plus apte à savoir ce qu'il ne sait pas.

Au-delà de la simple détection, les chercheurs ont noté que la méthode pouvait également servir de signal d'entraînement. En renforçant les réponses d'un LLM qui sont correctes et assurées — et en pénalisant les erreurs avec assurance — les développeurs peuvent affiner les modèles pour les rendre plus précis et fiables au fil du temps. De plus, l'équipe du MIT a découvert que leur méthode nécessitait souvent moins de requêtes pour parvenir à une évaluation fiable que les vérifications d'auto-cohérence traditionnelles, offrant potentiellement une voie plus économe en énergie vers la fiabilité de l'IA.

Défis et orientations futures

Bien que les résultats soient prometteurs, les chercheurs reconnaissent que l'efficacité de la métrique TU n'est pas uniforme dans tous les domaines. Actuellement, l'approche est la plus efficace pour les tâches qui ont une réponse correcte unique et objective, comme les requêtes factuelles ou les problèmes mathématiques standardisés. En revanche, sa performance sur l'écriture créative ouverte ou des tâches hautement abstraites reste un domaine à perfectionner.

L'équipe, qui comprend des chercheurs du MIT-IBM Watson AI Lab, prévoit de continuer à étendre les capacités de la métrique. Les futures itérations visent à améliorer les performances sur les requêtes ouvertes et à explorer d'autres formes de quantification de l'incertitude. À mesure que l'industrie évolue vers des agents d'IA plus autonomes, la capacité à évaluer avec précision les limites des connaissances d'une IA — et à communiquer cette incertitude aux utilisateurs — sera la pierre angulaire d'un écosystème technologique plus sûr et plus transparent.