Pilotar projetos de aprendizado de máquina em meio a ventos contrários

Atualmente, geramos cerca de 2,5 quintilhões (milhões de trilhões) de bytes de dados em todo o mundo a cada dia. Em apenas quatro dias, o número total de bytes gerados é aproximadamente equivalente a toda a população de insetos na Terra. No lado receptor de muitos desses dados estão empresas de todas as formas e tamanhos. Seus futuros como empresas dependem de como eles convertem os dados coletados em inteligência comercial confiável que é aplicada e monetizada com sucesso.

"[Desbloquear] o valor comercial de todos os dados é fundamental", escreveu David Stodder, diretor sênior de pesquisa de inteligência de negócios da TDWI, em um relatório Pulse do terceiro trimestre de 2021. "As pessoas precisam de meios para explorar, analisar, visualizar e compartilhar insights de dados de maneira fácil e criativa, para que possam lidar com as mudanças nas circunstâncias e tomar decisões informadas."

A capacidade de aproveitar, analisar e monetizar a corrida diária de dados para os cofres corporativos depende da inteligência artificial – o grande equalizador do big data. Os modelos de aprendizado de máquina podem produzir resultados que influenciam todos os aspectos das operações de uma empresa, desde finanças até desenvolvimento de produtos e padrões de compra do cliente. No entanto, as empresas lutam com o avanço de projetos de aprendizado de máquina além do estágio piloto, retardando ou sabotando seus esforços para implantar modelos de IA em tempo hábil.

“Devido às dores de cabeça que as implantações de IA criam, as organizações estão vendo o tempo necessário para colocar um modelo de ouro em produção como uma área oportunista de melhoria”, relatou o Enterprise Strategy Group (ESG), uma divisão da TechTarget. “Com a velocidade com que os dados mudam em um negócio moderno e dinâmico, as organizações estão sentindo cada vez mais que é inaceitável levar quase um mês para operacionalizar a IA”.

Neste vídeo, Kathleen Walch e Ron Schmelzer, da Cognilytica, abordam os obstáculos que as empresas encontram em pilotos de projetos de aprendizado de máquina, os quais podem levar a atrasos dispendiosos na implantação do modelo. Tudo começa com as perguntas certas sobre visibilidade e aplicação de negócios, qualidade e quantidade de dados, infraestrutura e execução, equipe e experiência e seleção de fornecedores e produtos. As respostas a essas perguntas determinarão se o projeto de aprendizado de máquina é viável ou não.

Transcrição

Kathleen Walch: Olá a todos, bem-vindos a este webinar, "Como mover seu projeto de aprendizado de máquina além do piloto". Esta será uma visão geral da metodologia para fazer projetos de IA, certo, vamos falar sobre, você sabe, por que usar IA e, em seguida, algumas armadilhas a serem evitadas. Isso é apresentado pelos analistas da Cognilytica Kathleen Walch e Ron Schmelzer.

Então, um pouco sobre a Cognilytica, caso você não esteja familiarizado conosco: a Cognilytica é uma empresa de consultoria e educação focada em IA e tecnologia cognitiva. Produzimos pesquisas de mercado, assessoria e orientação em inteligência artificial, aprendizado de máquina e tecnologia cognitiva. Também produzimos o popular podcast AI Today. Estamos fazendo isso há cerca de quatro anos, então você deve ter nos ouvido lá. Também temos uma série de infográficos, white paper e outros conteúdos populares em nosso site. Estamos focados na adoção de IA pelas empresas e pelo setor público e também estamos contribuindo com escritores para a Forbes e a TechTarget.

Ron Schmelzer: Sim. Esperamos que você tenha lido muitos de nossos artigos sobre os tópicos de IA e aprendizado de máquina. E o objetivo aqui para nós agora é ajudá-lo, se você estiver trabalhando com o projeto de aprendizado de máquina, superar algumas das lutas que você pode ter para tornar esses projetos de aprendizado de máquina uma realidade. Então, vamos passar agora para o nosso próximo slide aqui.

E acho que um dos maiores obstáculos para muitas pessoas que estão tentando levar adiante seus projetos de aprendizado de máquina é garantir que estão resolvendo o problema certo. Muitas vezes, você sabe, um dos problemas mais fundamentais com a IA é que as pessoas estão tentando aplicá-la a um problema para o qual ela não é muito adequada. E uma das coisas que podemos observar à medida que avançamos, para que a IA realmente é adequada? Uma coisa sobre a qual falamos em nossa pesquisa são esses sete padrões de IA, porque o problema com a IA é que é um termo um pouco geral. E o desafio é que quando duas pessoas diferentes estão falando sobre IA, elas podem não estar falando sobre a mesma coisa.

Em geral, sem entrar em detalhes, temos esses padrões. Você poderia ter sistemas de IA que são bons em classificar ou identificar sistemas -- o padrão de reconhecimento -- ou usar o processamento de linguagem natural para criar sistemas de conversação. Você aproveita o big data e encontra ambos os padrões nesse big data, ou anomalias no big data, ou ajuda você a fazer previsões melhores com a análise preditiva? Também podemos ter sistemas de aprendizado de máquina que podem nos ajudar a fazer coisas que os humanos fariam com sistemas autônomos. Ou talvez encontre a solução ideal para um quebra-cabeça ou um jogo ou algo assim, ou algum cenário, que é chamado de sistemas orientados a objetivos. Ou, na verdade, poderíamos ter nossos sistemas de aprendizado de máquina de IA mastigando enormes quantidades de dados para ajudar a criar um perfil de um indivíduo. O que todos eles têm em comum é que estamos usando dados para obter insights. E, por causa disso, não é como se estivéssemos escrevendo regras e usando probabilidade, mas estatística. E se não podemos escrever uma regra para um sistema, mas precisamos que a máquina faça algo, é um bom sinal de que o aprendizado de máquina de IA pode ser uma boa solução para isso. Se for probabilístico, que é o que são os sistemas de aprendizado de máquina, devemos usar um modelo de aprendizado. Isso é aprendizado de máquina.

Walch: Certo. Portanto, é importante entender quando usar IA e também é importante entender para que ela não é adequada. Portanto, se você tiver uma tarefa de automação repetitiva e determinística, não use inteligência artificial e aprendizado de máquina. Se você possui análises estereotipadas, vá em frente e faça isso. Além disso, sistemas que exigem 100% de precisão. Por ser probabilístico e não determinístico, você nunca pode obter 100% de precisão - e se é isso que você precisa, a inteligência artificial e o aprendizado de máquina não são a ferramenta certa para isso. Situações com poucos dados de treinamento - você sabe, a questão sempre é de quantos dados de treinamento eu realmente preciso? E dizemos que depende de qual padrão você está tentando fazer. Mas, em geral, se você não tem muitos dados de treinamento - você sabe, é muito, muito mínimo - provavelmente não é uma boa opção para IA e tecnologias cognitivas. Além disso, situações em que contratar uma pessoa só pode ser mais fácil, mais barato e mais rápido. Você sabe, leva tempo para construir esses sistemas, você não pode simplesmente pegá-lo e começar a usá-lo. Portanto, se for um projeto pequeno ou algo em que apenas contratar um humano seja mais fácil, essa pode ser uma solução melhor. E também não faça IA apenas por fazer IA porque é um fator legal ou um chavão, as pessoas estão falando sobre isso. Certifique-se de que está realmente fornecendo valor e sendo usado na situação certa. Então, como Ron mencionou anteriormente, se for probabilístico, vá em frente com IA; se for determinístico, use uma abordagem de programação.

Piloting machine learning projects through harsh headwinds

Schmelzer: Certo. Agora, sei que muitos de vocês podem argumentar com alguns desses pontos e dizer: "Espere um segundo, não estamos tentando construir sistemas de IA que possam usar uma pequena quantidade de dados de treinamento, talvez nenhum dado de treinamento, a visão de o que é chamado de aprendizado zero-shot -- ou mesmo o uso de sistemas baseados em nuvem que possuem um modelo enorme que talvez possamos retreinar ou estender usando aprendizado de transferência, algumas dessas coisas de visão em nuvem?" A resposta é sim, é verdade; embora alguns desses pontos estejam realmente começando a desaparecer, o que significa que estamos ampliando o alcance de onde a IA e o aprendizado de máquina podem ser aplicados a situações com dados de treinamento mais baixos ou situações em que talvez tenhamos um humano realizando uma tarefa e talvez o O sistema de IA agora, apenas, o custo e a complexidade diminuíram consideravelmente.

A única razão pela qual mencionamos isso é porque às vezes esses problemas são um fator. E eles se tornam um fator quando você olha para algo chamado decisão de ir/não ir de IA, que é algo que a Intel e outros popularizaram e faz parte de uma metodologia para fazer bem projetos de aprendizado de máquina de IA. Nesse caso, você deve se fazer essas perguntas – e essas são as perguntas que o ajudarão a identificar se os projetos de aprendizado de máquina de IA são possíveis, dados os problemas que você está tentando resolver. Primeiro, você tem uma definição de problema que seja clara? Você sabe qual problema está tentando resolver? Se não, isso é como o maior no-go, certo? Você tem pessoas em sua organização que estão dispostas a mudar tudo o que estão fazendo agora? Se a resposta for não, então não faz sentido construir uma prova de conceito e você não pode nem mesmo tornar o piloto uma realidade. E então, é claro, a questão é se isso terá algum impacto? Essas são questões de visibilidade do negócio.

Depois, temos essas questões de dados, que remontam a alguns dos pontos sobre os quais Kathleen estava falando anteriormente. Temos dados que medem aquilo com que nos preocupamos? Mesmo que seja uma quantia pequena, será que mede o que queremos? Temos o suficiente? Bem, você sabe, embora possamos querer fazer aprendizado de tiro zero e talvez poucos tiros, isso não é possível em todos os cenários. Pode ser possível em situações em que temos um grande modelo pré-treinado, como visão computacional, mas pode não ser possível para análise preditiva e padrões e anomalias, onde um pequeno -- você não vai querer detectar um padrão, quando você só tem cinco ou seis exemplos desse padrão. Tudo depende do padrão que você está tentando resolver. Finalmente, é claro, temos problemas de qualidade de dados. Você sabe, lixo que entra é lixo que sai. Esse é definitivamente o caso do aprendizado de máquina. Então, nós temos esses problemas. Essas são todas as questões de dados.

E então, do lado da execução, a questão é que podemos construir a tecnologia que queremos? Temos a infraestrutura tecnológica de que precisamos? Temos a pilha de desenvolvimento de aprendizado de máquina que queremos? Podemos mesmo, se construirmos este modelo, podemos fazê-lo dentro do tempo necessário? Um problema é que pode levar muito tempo para treinar, temos? E quanto ao tempo de execução do modelo? é muito lento? Essas são perguntas que precisamos fazer.

E, claro, este último ponto é, podemos usar o modelo onde queremos usar o modelo? É possível usar o modelo se tivermos que usá-lo, tipo, em um dispositivo de borda, em uma nuvem ou em um ambiente local? Podemos mesmo fazer isso? Se a resposta a qualquer uma dessas perguntas for não, isso realmente torna seu projeto muito difícil ou quase impossível. Se todas as respostas a essas perguntas forem sim, você pode imaginá-las como um conjunto de semáforos: Se todos os semáforos estiverem verdes, nosso projeto pode prosseguir. Você sabe, isso não resolve todos os problemas, mas nos permite saber como podemos levar nosso projeto adiante. E isso é uma espécie de chave para este desafio.

Walch: E o que é realmente importante é garantir que a equipe correta esteja no lugar e que as funções corretas estejam e sejam utilizadas para o projeto também. Então, sempre, você sabe, fazemos a pergunta: "A equipe de IA certa está no lugar?" E há algumas áreas diferentes nas quais você pode se concentrar. Então, o lado do negócio, você quer ter uma linha de negócios disponível? Analistas de negócios, arquitetos de soluções, cientistas de dados - muitas vezes, os cientistas de dados se enquadram nessa linha de negócios. Então, você sabe, você tem as funções e os conjuntos de habilidades certos? Então, a própria ciência de dados - você sabe, você tem um cientista de dados em sua equipe? Você tem um especialista de domínio? E então conversamos sobre problemas de dados e problemas de qualidade de dados. Portanto, se necessário, você tem rotulagem ou contribuidores externos para obter seus dados - especialmente no aprendizado supervisionado que precisa de dados bons, limpos e bem rotulados. Você tem rotulagem, você sabe, soluções em vigor? Também falamos sobre a função de engenharia de dados. Dentro desta função, e você sabe, você tem engenheiro de dados, engenheiros de sistema, uma equipe de dados e também uma equipe de nuvem que você está utilizando para este projeto e esta equipe. E depois a operacionalização. Então, é quando você realmente deseja usar o modelo em produção. Você pode precisar de desenvolvedores de aplicativos, administradores de sistema e nuvem. Portanto, todas essas são funções diferentes necessárias para tornar sua equipe de projeto de IA um sucesso. E você precisa falar sobre isso e dizer, você sabe, eu preciso de cada função? Eu tenho cargos? E, você sabe, eu tenho isso em geral para que eu possa realmente aplicá-los quando necessário?

Schmelzer: Sim, e acho que o desafio com isso é que você pode ou não ser uma organização, pode ser uma pequena empresa. Você pode ser apenas um punhado de pessoas em sua organização ou pode ser uma organização muito grande. E você pode pensar nisso como "oh meu Deus, eu tenho que contratar todas essas pessoas." E a resposta é, bem, você não precisa necessariamente contratá-los como indivíduos. Eles só precisam existir como funções e, se você não as tiver como funções na organização, será muito mais desafiador passar da fase do projeto piloto, que é o tema deste webinar.

Agora, sim, existem empresas construindo ferramentas que estão democratizando, por assim dizer, a ciência de dados para colocá-la nas mãos de mais pessoas. Existem ferramentas que estão ajudando na engenharia de dados e tornando essa tarefa muito mais realista para um pequeno número de pessoas. E também há coisas acontecendo no lado da operacionalização, com esse espaço em evolução de MLOps e gerenciamento de ML, governança de ML. E, mas acho que o ponto é que você deve garantir que isso seja resolvido de alguma forma. É abordado com uma pessoa, é abordado com uma função ou é abordado com uma ferramenta. Se não for abordado com nenhuma dessas coisas, e você tiver um monte de gente que quer fazer as coisas acontecerem, mas muito poucas pessoas que podem fazer isso acontecer, então você descobrirá que se deparará com esse obstáculo.

Portanto, parte do caminho para evitar esses obstáculos é, obviamente, como o grande mantra - que é "pense grande, comece pequeno e repita com frequência". Mas isso basicamente se relaciona a cada um desses desafios específicos do projeto de IA, certo? E podemos meio que passar por eles. Na verdade, falamos sobre alguns deles ao longo deste webinar -- parte do qual é que, se você tiver problemas de qualidade de dados e problemas de quantidade de dados, esse é um obstáculo em potencial e você precisa descobrir: "Devo preciso resolver tudo de uma vez? Ou posso resolver um pouco?" Mais uma vez, aplique "pense grande, comece pequeno e repita com frequência" a cada um desses marcadores. E talvez você possa começar com um problema menor que exija dados menores que exija um número menor de etapas que você pode usar para resolver problemas de qualidade de dados.

Walch: Certo. Há também problemas de pipeline de engenharia de dados e problemas de equipe de ciência de dados. Você sabe, nós conversamos sobre você tem os papéis certos no lugar? E se não, então, você sabe, pense em como você pode conseguir isso. Você sabe, há outra solução que eu possa obter? Posso contratar alguém para esta função? Posso treinar alguém nesta função? E se a resposta for não, então isso pode ser um problema, pode ser um obstáculo que você tem.

Schmelzer: A mesma coisa com as operações, podemos pensar sobre as coisas que precisamos fazer com as operações. Como vou versionar meu modelo? Como vou iterar meu modelo? Criei um pipeline de retreinamento? Se a resposta for não, então eu posso - em vez de abordá-lo novamente, mordendo mais do que posso mastigar - posso iterar? Comece com um modelo pequeno; versão que um modelo; descobrir como retreinar aquele modelo, um modelo pequeno; em seguida, mude para dois modelos ou um modelo maior. Você sabe, nós podemos fazer isso dessa maneira. É assim que lidamos com o obstáculo. A mesma coisa com ROI - se eles estão dizendo: "Olha, eu não vou, você sabe, não vou investir X milhões de dólares nesta solução enorme, que não tenho ideia de qual é o ROI. Posso começar pequeno? Existe uma maneira de começar com um projeto menor com um ROI menor e iterar para uma solução melhor?" A mesma coisa com os padrões, você sabe. Talvez eu esteja tentando, você sabe, ferver o oceano aqui e fazer três ou quatro ou cinco padrões de IA de uma vez - um sistema de reconhecimento de conversação que faz análises preditivas e detecção de padrões e anomalias de maneira autônoma. Isso pode ser uma coisa muito, muito difícil de fazer. Então, posso dividir este projeto em fases menores e talvez apenas abordar a parte de conversação, apenas abordar a parte de reconhecimento ou outra coisa e, em seguida, construir isso ao longo do tempo?

Acho que a próxima preocupação é que há uma diferença entre um piloto e uma prova de conceito, certo? Às vezes, eles são usados de forma intercambiável, mas não deveriam. Uma prova de conceito é: posso apenas experimentar esta tecnologia? Posso fazer até mesmo o que eu quero fazer? Você sabe, é como, você sabe, eu tenho as habilidades específicas? Você sabe, estou experimentando isso, posso construir como um chamado projeto de brinquedo apenas para ver se funciona? Considerando que um piloto deve ser um problema real em um ambiente real com dados reais com problemas reais. E eu acho que se você puder resolver esses problemas -- novamente, poderíamos começar, poderíamos pensar grande, começar pequeno e iterar frequentemente -- com um pequeno piloto que realmente será útil, não algum tipo de coisa que é nem vai servir. Certo?

Walch: Certo. Outra coisa que vimos é, você sabe, não compre óleo de cobra de vendedor. Portanto, há muito marketing, giro e empolgação em torno de algumas dessas empresas e algumas ferramentas e ofertas que as empresas dizem que podem fornecer. Tente evitar essas armadilhas. Porque isso será um obstáculo. Você sabe, se uma empresa diz que pode fazer, você sabe, cinco, 10, 15 coisas diferentes e realmente não pode, certifique-se de entender isso. Além disso, você está lidando com os problemas de IA mais difíceis primeiro? Você sabe, Ron continua dizendo - e na Cognilytica, continuamos dizendo - pense grande. Portanto, pense nesses problemas difíceis, mas comece pequeno e repita com frequência. Se você está lidando com os problemas de IA mais difíceis primeiro, deve ser uma surpresa, você sabe, que será um projeto incrivelmente difícil e provavelmente falhará. Se você começar pequeno e continuar iterando, terá uma chance muito maior de sucesso e de que o projeto continuará avançando. Além disso, você está resolvendo um problema de negócios real? Você sabe, isso também remonta à questão do ROI. Você está resolvendo um problema real de negócios ou está apenas construindo aquele pequeno projeto de brinquedo sobre o qual Ron falou? E então, está realmente fornecendo ROI real que é mensurável e tem impacto na empresa?

Schmelzer: Sim, e finalmente, você sabe, outro desafio que você pode enfrentar se estiver enfrentando um obstáculo piloto é onde o projeto de IA está sendo executado? É executado dentro da organização de TI, tratado como uma coisa de tecnologia? Ou está dentro da linha de negócios, que é tratada como uma coisa de negócios? Obviamente, nossa perspectiva é que os produtos de IA são transformadores e devem fazer parte do negócio. Não é uma coisa de TI, embora haja um componente de tecnologia. Mas, assim como você não pede à sua organização de TI para montar planilhas e gráficos do Excel para o seu negócio - isso geralmente faz parte de qualquer linha de negócios, funções, vendas, marketing, finanças, operações, qualquer que seja - a mesma coisa com IA. A IA não é uma função da tecnologia; é uma função da função do negócio e, portanto, o negócio deve ser responsável por isso e possuir isso.

Então, uma das coisas sobre as quais falamos muito na Cognilytica é que existe uma metodologia para fazer projetos de aprendizado de máquina de IA com mais sucesso. Chama-se CPMAI - gerenciamento de projetos cognitivos para IA, se você quiser saber o que significa - e é baseado em uma metodologia de décadas chamada CRISP DM, que originalmente se concentrava apenas em data warehouse e gerenciamento de dados, projetos de mineração de dados , que é a parte DM do CRISP DM. E é basicamente uma metodologia iterativa para começar com a compreensão do negócio, mas depois passar por essas outras fases de compreensão dos dados: preparação de dados, modelagem de dados, avaliação do modelo e, finalmente, operacionalização do modelo. E o que o CPMAI faz é adicionar os requisitos específicos de IA sobre desenvolvimento e avaliação de modelos. E, veja, o CRISP DM realmente não fala sobre a operacionalização do modelo. Então, isso é uma coisa completamente nova. E a outra coisa que o CPMAI faz é trazer a metodologia Agile, que realmente não era muito popular quando o CRISP DM foi lançado. E essa é a metodologia aceita, que é: podemos fazer sprints de duas semanas para projetos de IA onde podemos realmente realizar algo realmente útil? Um projeto real de aprendizado de máquina em um curto sprint? A resposta é claro que você pode, e é disso que se trata a metodologia CPMAI. Trata-se de alcançar o sucesso fazendo o que o Agile provou - que é, novamente, pensar grande, começar pequeno e iterar com frequência. E é disso que se trata esta metodologia.

Walch: Certo. Então, obrigado a todos por se juntarem a nós nesta apresentação. E se você tiver alguma dúvida, pode sempre entrar em contato conosco na Cognilytica. Nossas informações estão abaixo.