Lien copié

Les modèles d’IA divergent sur deux faits sur trois, selon une étude

sam 30 Mai 2026 ▪ 5 min de lecture ▪ par Mikaia A.

S'informer ▪ Intelligence Artificielle

Résumer cet article avec :

L’industrie IA avance vite, parfois comme un négociateur arrivé trop tôt dans une salle encore mal éclairée. Pourtant, il serait dangereux de transformer ces modèles en oracles impeccables, posés au-dessus du réel. Les versions actuelles restent des bêta massives : puissantes, utiles, mais encore capables de confondre nuance, contexte et vérité.

En bref

L’étude compare cinq modèles IA avancés sur 1 000 affirmations soumises par utilisateurs réels cette année.
Les intelligences artificielles divergent fortement dans 67 % des vérifications factuelles réalisées durant l’expérience complète.
Le score Krippendorff atteint seulement 0,639, bien sous les standards scientifiques modernes de fiabilité algorithmique.
Les consensus unanimes apparaissent surtout sur les affirmations totalement vraies ou complètement fausses uniquement désormais.

Quand les géants de l’IA négocient chacun leur propre réalité

Une étude de Lenz Research secoue l’écosystème technologique. Les chercheurs ont soumis 1 000 affirmations réelles à cinq modèles avancés : GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro avec Search et Sonar Pro. Chaque modèle devait choisir entre quatre verdicts : vrai, « mostly true », « misleading » ou faux.

Le résultat n’a rien d’un simple bug de comptoir. Dans 672 cas sur 1 000, au moins une IA diverge de la majorité, ou aucune majorité stricte n’apparaît. Autrement dit, les modèles censés vérifier les faits ne signent pas le même contrat avec le réel.

Le rapport précise :

Ces affirmations ne sont pas des éléments de benchmark avec des réponses publiques ; ce sont des affirmations soumises par de vrais utilisateurs à une plateforme de vérification.
Source : rapport Lenz Research

Cette précision pèse lourd : les IA ne jouent plus sur terrain balisé, mais dans une négociation ouverte avec des faits rugueux.

Les modèles tech se fissurent dès que la nuance entre dans le deal

Le problème ne se limite pas aux hallucinations classiques, ces mensonges involontaires servis en costume trois pièces. Ici, les intelligences artificielles lisent parfois les mêmes éléments, puis livrent des jugements incompatibles. Dans 34 % des cas, le désaccord devient substantiel, avec au moins deux catégories d’écart entre modèles.

Le score Krippendorff atteint seulement 0,639. En droit comme en science, ce chiffre impose la prudence. Il indique un accord réel, mais trop faible pour traiter ces modèles comme juges interchangeables. Le seuil souvent retenu pour une fiabilité solide tourne autour de 0,8.

Le rapport résume cette fracture :

Les modèles convergent vers des verdicts définitifs ; le milieu de l’échelle est l’endroit où ils se fracturent.
Source : rapport Lenz Research

En effet, les consensus apparaissent surtout aux extrêmes. Sur 328 accords unanimes, seulement quatre portent sur « misleading ». Aucun ne concerne « mostly true ».

Quand plusieurs machines vérifient le même fait, la salle devient bruyante

Les exemples cités montrent une difficulté concrète. Une affirmation sur le portefeuille actif de la Banque mondiale au Nigeria divise fortement les modèles. GPT-5.4 choisit « mostly true ». Gemini 3 Pro répond « false ». Gemini 3 Pro avec Search préfère « misleading ». L’utilisateur reçoit donc trois tickets différents au même guichet.

Cryptosteel : Les meilleurs outils pour rester en securité Ce lien utilise un programme d’affiliation

Autre cas sensible : une affirmation liée à Donald Trump, l’Iran et une demande d’alliés du Golfe. GPT-5.4 juge cela faux, Claude Opus 4.7 répond « mostly true », Gemini 3 Pro répond faux, tandis que Gemini 3 Pro avec Search répond vrai. Pour le lecteur, la promesse de clarification devient une foire d’arbitrage algorithmique.

L’étude rappelle aussi qu’une majorité d’IA ne vaut pas vérité juridique. Une machine dissidente peut avoir raison contre quatre autres. Cette réserve concerne les médias, les enseignants, les entreprises tech et les services qui automatisent déjà leurs contrôles.

Les chiffres qui fissurent la vitrine IA

Cinq modèles testés sur 1 000 affirmations réelles récentes ;
Désaccord observé sur 672 affirmations parmi 1 000 ;
Désaccord substantiel relevé dans 34 % des cas ;
Accord unanime obtenu seulement sur 328 affirmations analysées ;
Aucun consensus « mostly true » parmi les verdicts unanimes.

Cette étude ne condamne pas l’IA ; elle rappelle plutôt son statut expérimental. En septembre dernier, une intelligence artificielle de Google avait résolu un problème mathématique réputé impossible. Le paradoxe demeure splendide : ces systèmes peuvent dominer l’abstraction scientifique, puis trébucher devant des vérités humaines ordinaires.

Maximisez votre expérience Cointribune avec notre programme 'Read to Earn' ! Pour chaque article que vous lisez, gagnez des points et accédez à des récompenses exclusives. Inscrivez-vous dès maintenant et commencez à cumuler des avantages.

Rejoindre le programme

Lien copié

Mikaia A.

La révolution blockchain et crypto est en marche ! Et le jour où les impacts se feront ressentir sur l’économie la plus vulnérable de ce Monde, contre toute espérance, je dirai que j’y étais pour quelque chose

DISCLAIMER

Les propos et opinions exprimés dans cet article n'engagent que leur auteur, et ne doivent pas être considérés comme des conseils en investissement. Effectuez vos propres recherches avant toute décision d'investissement.