Como as IAs de geração de linguagem podem transformar a ciência

Algoritmos de aprendizado de máquina que geram linguagem fluente a partir de grandes quantidades de texto podem mudar a forma como a ciência é feita - mas não necessariamente para melhor, diz Shobita Parthasarathy, especialista em governança de tecnologias emergentes da Universidade de Michigan em Ann Arbor.

Em um relatório publicado em 27 de abril, Parthasarathy e outros pesquisadores tentam antecipar os impactos sociais das tecnologias emergentes de inteligência artificial (IA) chamadas modelos de linguagem ampla (LLMs). Eles podem produzir uma prosa surpreendentemente convincente, traduzir entre idiomas, responder a perguntas e até mesmo produzir código. As empresas que os constroem - incluindo Google, Facebook e Microsoft - pretendem usá-los em chatbots e mecanismos de busca e resumir documentos. (Pelo menos uma empresa, a Ought, em San Francisco, Califórnia, está testando LLMs em pesquisa; está construindo uma ferramenta chamada 'Elicit' para responder a perguntas usando a literatura científica.)

Os LLMs já são controversos. Às vezes, eles repetem erros ou estereótipos problemáticos nos milhões ou bilhões de documentos em que são treinados. E os pesquisadores temem que fluxos de linguagem aparentemente autoritária gerada por computador, indistinguíveis da escrita humana, possam causar desconfiança e confusão.

Parthasarathy diz que, embora os LLMs possam fortalecer os esforços para entender pesquisas complexas, eles também podem aprofundar o ceticismo público em relação à ciência. Ela falou com a Nature sobre o relatório.

Como os LLMs podem ajudar ou atrapalhar a ciência?

A princípio, pensei que os LLMs poderiam ter impactos democratizantes e empoderadores. Quando se trata de ciência, eles podem capacitar as pessoas a extrair insights rapidamente das informações: consultando sintomas de doenças, por exemplo, ou gerando resumos de tópicos técnicos.

Mas os resumos algorítmicos podem cometer erros, incluir informações desatualizadas ou remover nuances e incertezas, sem que os usuários percebam isso. Se alguém pode usar LLMs para tornar pesquisas complexas compreensíveis, mas corre o risco de obter uma visão simplificada e idealizada da ciência que está em desacordo com a realidade confusa, isso pode ameaçar o profissionalismo e a autoridade. Também pode exacerbar problemas de confiança do público na ciência. E a interação das pessoas com essas ferramentas será muito individualizada, com cada usuário obtendo suas próprias informações geradas.

O fato de os LLMs poderem se basear em pesquisas desatualizadas ou não confiáveis não é um grande problema?

Sim. Mas isso não significa que as pessoas não usarão LLMs. Eles são atraentes e terão um verniz de objetividade associado à sua produção fluente e ao seu retrato como novas tecnologias empolgantes. O fato de terem limites — de poderem ser construídos com base em conjuntos de dados parciais ou históricos — pode não ser reconhecido pelo usuário comum.

É fácil para os cientistas afirmarem que são inteligentes e perceberem que os LLMs são ferramentas úteis, mas incompletas - para iniciar uma revisão da literatura, por exemplo. Ainda assim, esses tipos de ferramentas podem estreitar seu campo de visão e pode ser difícil reconhecer quando um LLM erra em algo.

Como as AIs de geração de linguagem podem transformar a ciência

Os LLMs podem ser úteis em humanidades digitais, por exemplo: para resumir o que um texto histórico diz sobre um determinado tópico. Mas os processos desses modelos são opacos e não fornecem fontes juntamente com seus resultados, então os pesquisadores precisam pensar cuidadosamente sobre como vão usá-los. Eu vi alguns usos propostos em sociologia e fiquei surpreso com o quão crédulos alguns estudiosos foram.

Quem pode criar esses modelos para a ciência?

Meu palpite é que grandes editoras científicas estarão em melhor posição para desenvolver LLMs específicos da ciência (adaptados de modelos gerais), capazes de rastrear o texto completo proprietário de seus artigos. Eles também podem procurar automatizar aspectos da revisão por pares, como consultar textos científicos para descobrir quem deve ser consultado como revisor. Os LLMs também podem ser usados para tentar identificar resultados particularmente inovadores em manuscritos ou patentes, e talvez até para ajudar a avaliar esses resultados.

Os editores também podem desenvolver software LLM para ajudar pesquisadores em países que não falam inglês a melhorar sua prosa.

Os editores podem fechar acordos de licenciamento, é claro, disponibilizando seu texto para grandes empresas para inclusão em seus corpora. Mas acho que é mais provável que eles tentem manter o controle. Se assim for, suspeito que os cientistas, cada vez mais frustrados com seus monopólios de conhecimento, contestarão isso. Existe algum potencial para LLMs baseados em artigos de acesso aberto e resumos de artigos pagos. Mas pode ser difícil obter um volume suficientemente grande de texto científico atualizado dessa maneira.

Os LLMs poderiam ser usados para fazer papéis realistas, mas falsos?

Sim, algumas pessoas usarão LLMs para gerar documentos falsos ou quase falsos, se for fácil e eles acharem que isso ajudará em suas carreiras. Ainda assim, isso não significa que a maioria dos cientistas, que desejam fazer parte de comunidades científicas, não conseguirá chegar a um acordo sobre regulamentos e normas para o uso de LLMs.

Como o uso de LLMs deve ser regulamentado?

É fascinante para mim que quase nenhuma ferramenta de IA tenha sido submetida a regulamentos sistemáticos ou mecanismos de manutenção de padrões. Isso também é verdade para os LLMs: seus métodos são opacos e variam de acordo com o desenvolvedor. Em nosso relatório, fazemos recomendações para que os órgãos governamentais interfiram com a regulamentação geral.

Especificamente para o possível uso dos LLMs na ciência, a transparência é crucial. Os LLMs em desenvolvimento devem explicar quais textos foram usados e a lógica dos algoritmos envolvidos - e devem ser claros sobre se o software de computador foi usado para gerar uma saída. Achamos que a US National Science Foundation também deve apoiar o desenvolvimento de um LLM treinado em todos os artigos científicos disponíveis publicamente, em uma ampla diversidade de campos.

E os cientistas devem ter cuidado com periódicos ou financiadores que dependem de LLMs para encontrar revisores pares ou (possivelmente) estender esse processo a outros aspectos da revisão, como avaliação de manuscritos ou bolsas. Como os LLMs se voltam para dados anteriores, é provável que sejam muito conservadores em suas recomendações.

Este artigo foi reproduzido com permissão e foi publicado pela primeira vez em 28 de abril de 2022.