Estudo aponta falhas graves em chatbots de IA ao orientar pacientes
Ferramentas de inteligência artificial capazes de responder dúvidas médicas em segundos viraram rotina para milhões de pessoas. Mas um novo estudo publicado na revista Nature Medicine em 9 de fevereiro alerta que, na prática, esses chatbots ainda erram com frequência, e não superam buscas tradicionais, como o Google, quando o objetivo é decidir o que fazer diante de sintomas.
A pesquisa analisou o desempenho de modelos populares usados pelo público, incluindo o ChatGPT (OpenAI) e o Llama (Meta), em situações clínicas simuladas. A conclusão dos autores é direta: apesar de avanços importantes, os sistemas não estão prontos para orientar pacientes diretamente em decisões de saúde, especialmente quando existe risco de gravidade e urgência.

Como o estudo foi feito
O trabalho foi conduzido por pesquisadores ligados à Universidade de Oxford. Ao todo, 1.298 participantes no Reino Unido receberam descrições de casos fictícios com sintomas, histórico médico e estilo de vida. A maior parte não tinha formação na área da saúde.
Os voluntários foram divididos em grupos: um usou chatbots de IA para conversar e decidir a melhor conduta; outro buscou informações por métodos “tradicionais”, como pesquisa na internet e sites de saúde. Antes, um grupo de médicos definiu quais seriam as respostas consideradas corretas para cada cenário.

O que os resultados mostraram
Um ponto que chamou atenção foi o “abismo” entre o desempenho em condições controladas e o uso real por pessoas comuns.
- Quando os próprios pesquisadores testaram os modelos com dados completos, as IAs identificaram condições relevantes em cerca de 95% dos casos (94,9%).
- Quando pessoas comuns conduziram as conversas, a identificação de condições relevantes caiu para menos de 34,5%, e a decisão correta sobre a conduta (ex.: procurar emergência, marcar consulta, observar em casa) ficou abaixo de 44,2%, desempenho sem vantagem sobre métodos tradicionais.
- Em análises citadas por divulgadores científicos, o grupo que usou “Dr. Google” chegou a ter desempenho melhor que o grupo que usou chatbots em parte dos cenário.
Segundo os autores, isso acontece porque a resposta do chatbot depende diretamente da qualidade da descrição feita pelo usuário e, no mundo real, as pessoas tendem a informar sintomas aos poucos, sem detalhes essenciais.
A pesquisa aponta que, com informações incompletas, os chatbots podem gerar recomendações limitadas, imprecisas ou perigosas. Houve casos em que pequenas mudanças na forma de relatar sintomas levaram a orientações totalmente diferentes, mesmo quando o quadro clínico era parecido, o que preocupa por indicar inconsistência na orientação.
Além disso, os autores registraram situações de informações incorretas ou “alucinadas” (quando o sistema cria dados sem base), algo que pode confundir o paciente e atrasar a busca por atendimento.
Uso cresce, mas especialistas pedem cautela
O estudo reforça um alerta: embora a IA possa ser útil para explicar termos, organizar informações e indicar perguntas para levar ao médico, ela não substitui avaliação profissional, e pode falhar justamente nos cenários em que errar custa mais caro, como sinais de emergência.
Como usar IA com mais segurança (sem substituir atendimento)
- Use para entender conceitos e preparar perguntas para a consulta, não para decidir sozinho.
- Desconfie de respostas muito “certezas” sem pedir dados (duração, intensidade, localização, sinais associados).
- Na dúvida, priorize canais oficiais de saúde e atendimento local (no Brasil, por exemplo, 192 (Samu) e 193 (Bombeiros)).
- Se houver sinais de gravidade (dor forte súbita, falta de ar, desmaio, sinais neurológicos, sangramento importante), procure urgência.
O recado do estudo é que a tecnologia tem conhecimento “no papel”, mas ainda tropeça na interação com pessoas reais — e, na saúde, esse tipo de tropeço pode custar caro.
Fonte: Onda digital

