ChatGPT 4.0 se destaca em termos de precisão e adequação na área da saúde, diz pesquisa

chatgpt
(Foto: frimufilms/Freepik)

No mundo da saúde, a integração da inteligência artificial (IA), está crescendo de forma exponencial e apresenta avanços significativos na assistência médica. No entanto, a precisão e a confiabilidade dessas tecnologias são debates frequentes entre os profissionais da área, principalmente pelos médicos.

Leia também – Hospital Unimed se torna pioneiro no Rio de Janeiro com terapia avançada para tratamento oncológico

De olho neste cenário, visando  arantir a segurança clínica e o bem-estar dos pacientes, a Vibe Saúde decidiu realizar uma análise comparativa detalhada dos assistentes de IA mais populares do Brasil. “Decidimos criar esse estudo para reforçar nosso compromisso com a segurança e responsabilidade no uso da IA. Analisamos as versões 3.5 e 4.0 do ChatGPT da OpenAI, e Bard e Gemini da Google, utilizando uma amostra de 556 diálogos retirados do subreddit /askdocs de 2022. As respostas foram minuciosamente avaliadas por nossa equipe,” explica Felipe Cunha, CEO da Vibe.

A pesquisa, que durou seis meses, resultou na criação do “Escore de Segurança Clínica”. Médicos avaliadores com ampla experiência clínica e acadêmica revisaram manualmente quase 2.000 respostas de assistentes de IA, usando a Teoria de Resposta ao Item, uma técnica estatística robusta aplicada na correção do Enem.

Os assistentes de IA foram avaliados com base em três atributos principais:

  • Urgência: A rapidez com que o assistente identifica e responde a situações que exigem atenção imediata.
  • Adequação: A relevância e aplicabilidade das respostas fornecidas em relação ao contexto das perguntas.
  • Precisão: A exatidão das informações fornecidas, essencial para garantir que os usuários recebam informações corretas e seguras.

Os resultados mostraram que os assistentes da OpenAI, especialmente o ChatGPT 4.0, se destacaram em termos de precisão e adequação. O ChatGPT 4.0 liderou o ranking, demonstrando maior confiabilidade em suas respostas. As avaliações manuais realizadas por médicos reforçam a confiança nesses resultados. A média do escore dos diálogos com assistentes da OpenAI superou o ponto de corte que representa a aprovação de dois a cada três médicos. Em contraste, os assistentes da Google ficaram abaixo deste ponto de corte, com diferenças estatisticamente significativas.

Em termos de adequação, os assistentes da OpenAI também se destacaram, indicando que suas respostas são mais pertinentes e contextualmente apropriadas. No quesito urgência, as diferenças entre os assistentes da OpenAI e da Google não foram estatisticamente significativas, mostrando que ambos são eficazes em responder prontamente.

“Embora ambos os assistentes sejam eficazes em termos de urgência, as diferenças na precisão e adequação são significativas. Isso nos mostra que o ChatGPT 4.0 é mais confiável para fornecer informações corretas e contextualmente apropriadas”, afirma Portela.

Esta análise foi realizada com os assistentes digitais em sua forma padrão, sem customizações adicionais. “É importante notar que outros modelos específicos, como o Med-PaLM da Google, podem apresentar desempenhos diferentes. A evolução contínua dos assistentes de IA, como demonstrado pelas recentes melhorias, nos enche de confiança e entusiasmo pela tecnologia”, afirma Felipe.

Cheila Portela, Head de Inteligência Artificial para Saúde, da Vibe, reforça a importância do papel dos médicos nessa análise. “As avaliações manuais dos médicos serviram como padrão ouro para calibrar o escore, utilizando técnicas estatísticas robustas como o modelo estatístico Teoria de Resposta ao Item, atualmente aplicado na correção do Enem”.

A Vibe Saúde continuará explorando e implementando essas ferramentas, sempre com o compromisso de garantir a melhor assistência aos nossos pacientes. Saber que médicos avaliaram cuidadosamente tantas perguntas nos proporciona segurança para continuar utilizando essas tecnologias de maneira responsável e eficaz.

*Informações Assessoria de Imprensa

Confira mais notícias de Negócios & Mercado no Saúde Debate