Modelos de IA divergem em dois de cada três fatos, segundo um estudo

Sat 30 May 2026 ▪ 5 min de leitura ▪ por Mikaia A.

Informar-se ▪ Inteligencia artificial

Resumir este artigo com:

A indústria de IA avança rápido, às vezes como um negociador que chegou cedo demais em uma sala ainda mal iluminada. No entanto, seria perigoso transformar esses modelos em oráculos impecáveis, colocados acima do real. As versões atuais continuam sendo enormes betas: poderosas, úteis, mas ainda capazes de confundir nuance, contexto e verdade.

A bewildered man is confronted by several artificial intelligence systems offering conflicting answers, plunging the scene into total informational chaos

Em resumo

O estudo compara cinco modelos avançados de IA em 1.000 afirmações submetidas por usuários reais este ano.
As inteligências artificiais divergem fortemente em 67% das verificações de fatos realizadas durante toda a experiência.
A pontuação de Krippendorff alcança apenas 0,639, muito abaixo dos padrões científicos modernos de confiabilidade algorítmica.
Consensos unanimes aparecem principalmente em afirmações totalmente verdadeiras ou completamente falsas, somente agora.

Quando os gigantes da IA negociam cada um sua própria realidade

Um estudo da Lenz Research agita o ecossistema tecnológico. Os pesquisadores submeteram 1.000 afirmações reais a cinco modelos avançados: GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro com Search e Sonar Pro. Cada modelo deveria escolher entre quatro vereditos: verdadeiro, “mostly true”, “misleading” ou falso.

O resultado não é um simples bug de bar. Em 672 casos em 1.000, pelo menos uma IA diverge da maioria, ou nenhuma maioria estrita aparece. Em outras palavras, os modelos que deveriam verificar fatos não assinam o mesmo contrato com o real.

O relatório especifica:

Essas afirmações não são elementos de benchmark com respostas públicas; são afirmações submetidas por usuários reais a uma plataforma de verificação.
Fonte: relatório da Lenz Research

Essa especificação tem peso: as IAs não jogam mais em um terreno demarcado, mas em uma negociação aberta com fatos ásperos.

Os modelos tecnológicos se quebram assim que a nuance entra no acordo

O problema não se limita às alucinações clássicas, essas mentiras involuntárias apresentadas em traje social. Aqui, as inteligências artificiais às vezes leem os mesmos elementos e depois entregam julgamentos incompatíveis. Em 34% dos casos, o desacordo se torna substancial, com pelo menos duas categorias de disparidade entre modelos.

A pontuação de Krippendorff alcança apenas 0,639. Na lei como na ciência, esse número impõe prudência. Ele indica um acordo real, mas fraco demais para tratar esses modelos como juízes intercambiáveis. O limiar muitas vezes usado para uma confiabilidade sólida gira em torno de 0,8.

O relatório resume essa ruptura:

Os modelos convergem para vereditos definitivos; o meio da escala é onde eles se partem.
Fonte: relatório da Lenz Research

De fato, os consensos aparecem principalmente nas extremidades. De 328 acordos unânimes, apenas quatro tratam de “misleading”. Nenhum envolve “mostly true”.

Quando várias máquinas verificam o mesmo fato, a sala fica barulhenta

Os exemplos citados mostram uma dificuldade concreta. Uma afirmação sobre o portfólio ativo do Banco Mundial na Nigéria divide fortemente os modelos. GPT-5.4 escolhe “mostly true”. Gemini 3 Pro responde “false”. Gemini 3 Pro com Search prefere “misleading”. O usuário recebe, portanto, três tickets diferentes no mesmo guichê.

Cryptosteel: os melhores dispositivos para manter a segurança Este link usa um programa de afiliados

Outro caso sensível: uma afirmação ligada a Donald Trump, ao Irã e um pedido de aliados do Golfo. GPT-5.4 julga falso, Claude Opus 4.7 responde “mostly true”, Gemini 3 Pro responde falso, enquanto Gemini 3 Pro com Search responde verdadeiro. Para o leitor, a promessa de esclarecimento torna-se uma feira de arbitragem algorítmica.

O estudo também lembra que a maioria das IAs não equivale a verdade jurídica. Uma máquina dissidente pode estar certa contra outras quatro. Essa ressalva diz respeito às mídias, professores, empresas de tecnologia e serviços que já automatizam seus controles.

Os números que quebram a vitrine da IA

Cinco modelos testados em 1.000 afirmações reais recentes;
Desacordo observado em 672 afirmações entre 1.000;
Desacordo substancial registrado em 34% dos casos;
Acordo unânime obtido somente em 328 afirmações analisadas;
Nenhum consenso “mostly true” entre os veredictos unânimes.

Este estudo não condena a IA; ao contrário, lembra seu status experimental. Em setembro passado, uma inteligência artificial do Google resolveu um problema matemático considerado impossível. O paradoxo permanece esplêndido: esses sistemas podem dominar a abstração científica, e depois tropeçar diante de verdades humanas ordinárias.

Maximize sua experiência na Cointribune com nosso programa "Read to Earn"! Para cada artigo que você lê, ganhe pontos e acesse recompensas exclusivas. Inscreva-se agora e comece a acumular vantagens.

Entrar no programa

Lien copié

Mikaia A.

La révolution blockchain et crypto est en marche ! Et le jour où les impacts se feront ressentir sur l’économie la plus vulnérable de ce Monde, contre toute espérance, je dirai que j’y étais pour quelque chose

AVISO LEGAL

As opiniões e declarações expressas neste artigo são de responsabilidade exclusiva do autor e não devem ser consideradas como recomendações de investimento. Faça sua própria pesquisa antes de tomar qualquer decisão de investimento.