A PNL está inovando mais rápido do que outros domínios da IA

A Meta introduziu recentemente um modelo de transformador aberto pré-treinado (OPT) de 175 bilhões de parâmetros. A Meta afirma que esse modelo massivo, treinado em conjuntos de dados disponíveis publicamente, é o primeiro sistema de tecnologia de linguagem desse tamanho a ser lançado com seus modelos pré-treinados e código de treinamento. No que pode ser considerado uma ocorrência rara, a Meta abriu o código deste modelo.

O modelo OPT junta-se a vários outros modelos avançados de linguagem que foram desenvolvidos e introduzidos recentemente. O campo de IA da PNL passou por uma inovação massiva nos últimos anos, com a participação das principais empresas de tecnologia do mundo. Por que existe uma competição tão intensa neste campo, ou em outras palavras, outros domínios de IA estão ficando para trás da PNL em termos de inovação?

THE BELAMY

Inscreva-se para receber sua dose semanal de novidades em tecnologia emergente.

E-mail

Progresso em PNL

O campo da IA é amplamente fragmentado em domínios que visam diferentes tipos de problemas. Alguns sistemas são utilizados para resolver problemas que envolvem navegação e movimentação por espaços físicos, como veículos autônomos e robótica; outros lidam com aplicativos relacionados à visão computacional – diferenciando e categorizando imagens e padrões; IA de bom senso. Outras formas de IA resolvem problemas críticos e específicos. Como o AlphaFold da DeepMind resolveu um desafio de 50 anos. Essa inovação acelerou o processo de descoberta de medicamentos.

A PNL está inovando mais rápido do que outros domínios da IA

Dito isso, o processamento de linguagem natural é indiscutivelmente o campo mais quente da IA. Mesmo em humanos, ser multilíngue e ter proficiência no idioma foram considerados os principais indicadores de inteligência. Geralmente é considerado sugestivo de uma capacidade de analisar mensagens complexas e decifrar variações de codificação em contexto, gíria e dialetos. Não é de surpreender que os pesquisadores de IA considerem as máquinas de ensino a capacidade de entender e responder à linguagem natural um grande feito e até mesmo um passo para alcançar a inteligência geral.

Falando em inovação neste campo, um avanço amplamente considerado, o parâmetro GPT-3 de 175 bilhões foi lançado pela OpenAI em 2020. Uma rede neural complexa, o GPT-3 foi treinado em 700 gigabytes de dados extraídos da web , incluindo Wikipedia e livros digitalizados. O GPT-3 estabeleceu um precedente para modelos ainda maiores, avançados e, em alguns casos, computacionalmente baratos.

Inovação que suporta NLP

Houve vários estágios na evolução do campo de processamento de linguagem natural. Começou nos anos 80 com o sistema especialista, passando para a revolução estatística, para finalmente a revolução neural. Falando em revolução neural, ela foi possibilitada pela combinação de arquiteturas neurais profundas, hardware especializado e uma grande quantidade de dados. Dito isso, a revolução no domínio da NLP foi muito mais lenta do que em outros campos, como a visão computacional, que se beneficiou muito com o surgimento de modelos pré-treinados em larga escala, que, por sua vez, foram ativados por grandes conjuntos de dados como o ImageNet. Os modelos ImageNet pré-treinados ajudaram a obter resultados de ponta em tarefas como detecção de objetos, estimativa de pose humana, segmentação semântica e reconhecimento de vídeo. Eles permitiram a aplicação da visão computacional em domínios onde o número de exemplos de treinamento é pequeno e a anotação é cara.

Uma das invenções mais definitivas dos últimos tempos foram os Transformers. Desenvolvido no Google Brains em 2017, o Transformers é uma nova arquitetura de rede neural e é baseado no conceito do mecanismo de auto-atenção. O modelo superou os modelos recorrente e convolucional. Também foi observado que um Transformer requer menor poder computacional para treinar e é mais adequado para hardware de aprendizado de máquina moderno que acelera o treinamento em ordem de grandeza. Tornou-se a arquitetura de escolha para problemas de NLP, substituindo modelos anteriores como LSTM. A paralelização de treinamento adicional permitiu o treinamento em um conjunto de dados muito maior do que antes.

Graças aos Transformers e à subsequente invenção do BERT, a PNL alcançou seu ‘momento ImageNet’. O BERT revolucionou a PNL e, desde então, uma ampla gama de variações desses modelos foi proposta, como RoBERTa, ALBERT e XLNet. Além dos Transformers, várias técnicas de representação, como ELMo e ULMFiT, chegaram às manchetes ao demonstrar que modelos de linguagem pré-treinados podem alcançar resultados de ponta em uma variedade de tarefas de NLP.

“A arquitetura do Transformer revolucionou a PNL ao permitir a geração de linguagem e o ajuste fino em uma escala nunca antes vista na PNL. Além disso, esses modelos funcionam melhor quando treinados em grandes quantidades de dados; portanto, as organizações estão se concentrando em treinar modelos de linguagem cada vez maiores com pouca mudança na arquitetura do modelo. Grandes empresas como Google e Meta, que podem pagar por esse tipo de treinamento, estão desenvolvendo novos modelos de linguagem, e espero mais do mesmo de outras grandes corporações”, disse Shameed Sait, chefe de inteligência artificial da tmrw.

Ecolhendo o mesmo sentimento, Anoop Kuchukuttan, pesquisador da Microsoft e cofundador da AI4Bharat, disse: “Curiosamente, os benefícios do aprendizado profundo foram inicialmente vistos em grande parte no campo da visão e da fala por computador. O que aconteceu foi que a PNL teve uma espécie de avanço em termos do tipo de modelos que foram introduzidos posteriormente. O mecanismo baseado na atenção, por exemplo, levou a grandes avanços na PNL. Além disso, a introdução do aprendizado auto-supervisionado influenciou o progresso no campo da PNL.”

Acesso a dados massivos

Uma das principais vantagens do NLP é a disponibilidade de uma quantidade massiva de conjuntos de dados para treinar modelos avançados. A Hugging Face, uma startup que está construindo o ‘GitHub for Machine Learning’, tem trabalhado na democratização da IA, com foco especial em PNL. No ano passado, a Hugging Face lançou Datasets, uma biblioteca comunitária para PNL, que foi desenvolvida ao longo de um ano. Desenvolvido por mais de 250 desenvolvedores, esta biblioteca contém 650 conjuntos de dados exclusivos destinados a padronizar a interface do usuário final, controle de versão, documentação e oferecer um front-end leve para corpora em escala de Internet.

Da mesma forma, o banco de dados FLORES-101 de código aberto do Facebook AI para melhorar os modelos de tradução multilíngue. É um conjunto de dados de avaliação muitos-para-muitos que abrange 101 idiomas diferentes. Ao disponibilizar essas informações publicamente, o Facebook quer acelerar o progresso no NLP, permitindo que os desenvolvedores gerem ferramentas mais diversificadas e relevantes localmente.

O maior benefício da modelagem de linguagem é que os dados de treinamento são gratuitos com qualquer corpus de texto. A disponibilidade de uma quantidade potencialmente ilimitada de dados de treinamento é particularmente importante, pois a PNL não lida apenas com o idioma inglês.

Em direção à AGI? Ainda não chegou lá

Quando o modelo GPT-3 foi lançado, muitas publicações excessivamente entusiasmadas o consideraram o primeiro passo em direção ao AGI. Embora o modelo dessa magnitude e poder de processamento seja nada menos que uma maravilha tecnológica, considerá-lo um movimento em direção à AGI é um pouco exagerado.

O professor emérito da Universidade de Nova York, Gary Marcus, autor do recente livro ''Rebooting AI'', disse em uma entrevista anterior à Analytics India Magazine: "O caminho específico em que estamos são modelos de linguagem ampla, uma extensão de grandes dados. Minha visão sobre eles não é otimista. Eles são menos surpreendentes em sua capacidade de não serem tóxicos, dizer a verdade ou confiáveis. Não acho que queremos construir uma inteligência geral que não seja confiável, desinforme as pessoas e seja potencialmente perigosa. Por exemplo, você tem o GPT-3 recomendando que as pessoas cometam suicídio.

Houve um enorme progresso na tradução automática, mas não na compreensão automática. O raciocínio moral não está em lugar nenhum, e não acho que a IA seja um campo saudável no momento.”

Em uma ocorrência rara, o rival de Marcus, Yann LecCun, parece concordar com ele. Em uma conferência separada, Lecun chamou a linguagem de um epifenômeno da inteligência humana. Ele acrescentou que há muito na inteligência que não tem nada a ver com a linguagem. “É aí que devemos atacar as coisas primeiro. … [Language] é o número 300 na lista de 500 problemas que precisamos enfrentar”, disse Yann LeCun.

Portanto, embora os modelos de linguagem e o domínio da PNL possam ser certamente importantes para alcançar a AGI, isso simplesmente não é suficiente. Por enquanto, com o anúncio iminente do GPT-4 e outros modelos de linguagem esperando para serem introduzidos, pode-se continuar a ver o progresso acelerado no campo por muito tempo.