Hospitais usam ferramenta de transcrição alimentada por modelo OpenAI propenso a erros – The

  • Um médico mostrou uma ferramenta de transcrição AI que ele usou para gravar e resumir reuniões com pacientes
  • OpenAI’s Whisper, que alimenta uma ferramenta usada por muitos hospitais, às vezes inventa frases ou sentenças
  • Pesquisadores descobriram que Whisper pode ter alucinações, especialmente para pessoas com distúrbios de linguagem

Algum tempo atrás, meu médico mostrou uma ferramenta de transcrição de IA que ele usava para gravar e resumir reuniões com pacientes. No meu caso, o resumo estava bom, mas pesquisadores citados neste relatório da Associated Press descobriram que nem sempre é o caso para transcrições criadas pelo Whisper da OpenAI, que alimenta uma ferramenta usada por muitos hospitais – às vezes ele simplesmente inventa coisas.

O Whisper é usado por uma empresa chamada Nabla para uma ferramenta que estima ter transcrito 7 milhões de conversas médicas, segundo a Associated Press. Mais de 30.000 clínicos e 40 sistemas de saúde o utilizam, escreve o site. O relatório diz que os funcionários da Nabla “estão cientes de que o Whisper pode ter alucinações e estão lidando com o problema”. Em um post no blog publicado na segunda-feira, os executivos escreveram que o modelo deles inclui melhorias para lidar com as “limitações bem documentadas do Whisper”.

Um grupo de pesquisadores da Universidade de Cornell, da Universidade de Washington e outros descreveu suas descobertas em um estudo revisado por pares apresentado em junho na conferência FAccT da Association for Computing Machinery. De acordo com os pesquisadores, “embora muitas das transcrições do Whisper fossem altamente precisas, descobrimos que cerca de um por cento das transcrições de áudio contêm frases ou sentenças inteiramente alucinadas que não existiam de forma alguma no áudio subjacente… 38 por cento das alucinações incluem danos explícitos, como perpetuar violência, inventar associações imprecisas ou implicar uma autoridade falsa.”

Os pesquisadores descobriram que as palavras adicionadas pelo AI poderiam incluir condições médicas inventadas ou frases que você esperaria de um vídeo do YouTube, como “Obrigado por assistir!” (A OpenAI supostamente costumava transcrever mais de um milhão de horas de vídeos do YouTube para treinar o GPT-4.)

A porta-voz da OpenAI, Taya Christianson, enviou um comunicado para o The Verge: Levamos esse problema a sério e estamos constantemente trabalhando para melhorar, incluindo a redução de alucinações. Para uso do Whisper em nossa plataforma de API, nossas políticas de uso proíbem o uso em determinados contextos de tomada de decisão de alto risco, e nosso cartão modelo para uso de código aberto inclui recomendações contra o uso em domínios de alto risco. Agradecemos aos pesquisadores por compartilharem suas descobertas.

Na segunda-feira, o CTO da Nabla, Martin Raison, e o engenheiro de machine learning Sam Humeau publicaram um post no blog intitulado “Como a Nabla usa Whisper”. Raison e Humeau dizem que as transcrições da Nabla não são diretamente incluídas no prontuário do paciente, com uma segunda camada de verificação por um grande modelo de linguagem (LLM) consultando a transcrição e o contexto do paciente e que “Apenas fatos para os quais encontramos uma prova definitiva são considerados válidos.” Eles também afirmam que processaram “9 milhões de encontros médicos” e que “embora alguns erros de transcrição às vezes fossem relatados, alucinações nunca foram relatadas como um problema significativo.”

Atualização, 28 de outubro: Adicionado post do blog da Nabla. Atualização, 29 de outubro: Clarificado que o estudo da Universidade de Cornell, etc. foi revisado por pares. Correção, 29 de outubro: Uma versão anterior desta história citou a ABC News. A história citada foi publicada pela Associated Press, e não pela ABC News.

#tecnologia #primeirapágina #saúde #ciência #ia-inteligência-artificial #tecnologia #aberto #notícias #fluxo-23374468