5 perguntas para Kevin Yee, cofundador e CTO da betterdata

O Center for Data Innovation conversou com Kevin Yee, cofundador e CTO da betterdata, uma startup com sede em Cingapura com foco em dados sintéticos. Yee discutiu algumas das tecnologias de preservação da privacidade que ele espera que surjam nos próximos anos.

Gillian Diebold: Como os dados sintéticos podem ajudar as empresas a inovar?

Kevin Yee: Você provavelmente já ouviu a frase de que os dados são o novo petróleo - um ativo que tem um valor significativo além de seu uso atual. Muitas pessoas têm essa percepção porque as empresas usam dados para desenvolver, experimentar e inovar. Por outro lado, vazamentos de dados, como vazamentos de óleo, podem ser extremamente devastadores para organizações, pessoas e sociedade.

As empresas agora precisam inovar com dados que contenham informações valiosas sobre o comportamento de um cliente, mas também devem lidar com os riscos envolvidos e o espectro em constante mudança das expectativas do usuário. Isso inclui responsabilidades de segurança e questões de privacidade, especialmente quando os dados contêm informações de identificação pessoal (PII) vulneráveis a vazamentos que podem colocar uma organização em risco regulatório e de reputação.

Devido à intangibilidade dos dados, as organizações não têm uma forma estruturada de medir a relação risco-recompensa do uso de dados. Isso geralmente leva a uma abordagem mais conservadora em que os dados são isolados em bancos de dados - sem uso e sem alavancagem. É um caso de incerteza, e todos nós sabemos que a incerteza não pode ser quantificada.

Tudo isso pode parecer assustador no começo, mas é exatamente aqui que os dados sintéticos ganham destaque. Os dados sintéticos ajudam as organizações a tornar os dados livremente acessíveis e portáteis entre equipes, negócios e fronteiras internacionais. Técnicas avançadas de IA, como redes adversárias generativas (GANs), são capazes de produzir dados sintéticos que mantêm as propriedades e padrões estatísticos dos dados originais, garantindo a privacidade ao ter um risco quase zero de reidentificação em comparação com os métodos atuais de anonimização de dados, nos quais o o risco é super alto.

Seja para dar suporte ao desenvolvimento de inteligência artificial e aprendizado de máquina (AI/ML) ou compartilhar dados interna e externamente, os dados sintéticos gerados artificialmente podem ser usados como substitutos de dados reais com total acessibilidade e conformidade. Assim, as organizações agora podem inovar com dados sintéticos sem os riscos e obstáculos de conformidade do uso de dados reais.

Diebold: Como a privacidade diferencial protege os dados do usuário?

Sim: Falando de uma perspectiva de IA, a privacidade diferencial é uma das técnicas predominantes usadas para impedir que os modelos de aprendizagem profunda exponham as informações privadas dos usuários nos conjuntos de dados usados para treiná-los.

Iniciado por Cynthia Dwork na Microsoft Research, ele foi amplamente adotado por gigantes da tecnologia para "aprender" sobre a comunidade de usuários estendida sem aprender sobre indivíduos específicos. Portanto, um conjunto de dados sintético produzido por um modelo diferencialmente privado protege os dados do usuário fornecendo garantias de privacidade apoiadas por provas matemáticas publicamente disponíveis, mantendo o mesmo esquema e mantendo a maioria das propriedades estatísticas do conjunto de dados original.

A chave para toda a técnica aqui está em equilibrar privacidade e precisão com um parâmetro chamado ε (épsilon) — quanto menor o valor de ε, maior a privacidade preservada, mas menor a precisão dos dados. Com um valor de ε cuidadosamente escolhido, é possível criar um conjunto de dados sintético com uma utilidade bastante alta, garantindo privacidade suficiente.

Isso significa que os dados sintéticos privados diferencialmente atenuam diferentes ataques de privacidade, como inferência de associação e ataques de inversão de modelo, que podem potencialmente reconstruir os dados de treinamento em parte ou no todo devido ao vazamento de informações de um modelo de IA treinado.

5 perguntas para Kevin Yee, co- fundador e CTO da betterdata

Diebold: Você pode explicar como os dados sintéticos podem levar a modelos de IA "mais justos"? O que significa “justiça”?

Sim: Este tópico está muito em debate, sem respostas certas ou erradas. Justiça é um conceito complexo que significa coisas diferentes em contextos diferentes para pessoas diferentes. Digamos que, para os praticantes de IA, a imparcialidade tende a ser vista de uma perspectiva quantitativa em que os algoritmos estão sujeitos a restrições de imparcialidade envolvendo atributos sensíveis e legalmente protegidos. O objetivo é garantir que os algoritmos tenham um bom desempenho na vida real e, ao mesmo tempo, tratar as pessoas de maneira “justa” e sem preconceitos em relação a atributos como raça, religião, trabalho, renda, sexo; A lista continua.

É justo dizer que não existe uma única causa de viés e, portanto, nenhuma solução única. No entanto, um bom remédio pode estar na fonte – os próprios dados. Uma maneira de reduzir o viés em um conjunto de dados é garantir a paridade demográfica entre subgrupos protegidos em que a participação em um subgrupo protegido não tem correlação com o resultado preditivo de um modelo AI/ML downstream. Simplificando, um modelo de IA não deve discriminar nenhum atributo e, para isso, uma versão “fixa” de um conjunto de dados é muito necessária.

Digamos que temos um conjunto de dados de renda do cidadão em que a paridade demográfica não é satisfeita na variável "sexo" protegida. Em outras palavras, há uma proporção maior de homens em relação às mulheres na categoria de alta renda. A correção do viés no nível dos dados pode ser obtida com dados sintéticos devido ao controle total sobre o processo de geração de dados. Isso nos permite gerar uma proporção igual de homens e mulheres nas categorias de renda alta e baixa para remover a correlação entre “sexo” e “renda” e atenuar o viés da renda em relação ao gênero.

Reduzir o viés por meio de uma perspectiva quantitativa é apenas um passo. Com a justiça na interseção entre direito, ciência social e tecnologia, a questão de modelos de IA mais justos não pode ser abordada apenas por meio de uma via e exigiria um conjunto de diversas partes interessadas para fornecer suas perspectivas para moldar decisões e políticas futuras.

Diebold: Quais são alguns casos de uso reais para dados sintéticos?

Sim: Pessoalmente, acredito que os dados sintéticos são o futuro para a inovação de dados abertos e uma economia de dados responsável. Há uma tonelada de casos de uso por aí, mas deixe-me compartilhar um que fica perto do meu coração. Digamos que você seja uma empresa de reconhecimento facial que usa imagens faciais para treinar um modelo de IA e classificar pessoas. Vamos supor que a maioria das imagens pertence a um tom de pele específico, levando a uma alta precisão de classificação para esse tom de pele e não para os outros. Ao usar dados sintéticos, rostos com todos os tipos de tons de pele podem ser gerados e o modelo de IA pode ser aprimorado para detectar melhor pessoas que foram classificadas incorretamente devido à falta de dados.

Falando em um nível mais amplo agora, a Amazon está usando dados sintéticos para treinar o reconhecimento de visão do Amazon Go e os sistemas de linguagem do Alexa. A Roche, uma das empresas farmacêuticas líderes do setor, está usando dados médicos sintéticos para pesquisas e testes clínicos mais rápidos e baratos. O Google Waymo está usando dados sintéticos para treinar seus veículos autônomos. A Ford está combinando mecanismos de jogos com dados sintéticos para treinamento de IA - que legal. A Deloitte está construindo modelos de IA mais precisos, gerando artificialmente 80% dos dados de treinamento, e a American Express está usando dados financeiros sintéticos para melhorar os algoritmos de detecção de fraudes.

Diebold: Além dos dados sintéticos, que outras tecnologias de preservação da privacidade serão importantes nos próximos anos?

Sim: como mais de 120 países já aprovaram regulamentos de proteção de dados, as tecnologias de preservação da privacidade (PPTs) ou tecnologias de aprimoramento da privacidade (PETs) se tornarão cada vez mais importantes nos próximos anos. Essas tecnologias se complementarão para resolver diferentes problemas e serão uma peça central para superar as sensibilidades regulatórias, éticas e sociais em torno dos dados. Além de dados sintéticos e privacidade diferencial, estou entusiasmado com as seguintes novas tecnologias:

Primeiro, blockchain para rastrear a proveniência dos dados, transparência e propriedade sem custódia dos dados pessoais das pessoas. Acho que o blockchain (web3) tem as ferramentas certas de segurança e privacidade para democratizar os dados.

Da mesma forma, estou interessado no aprendizado federado para treinar um modelo compartilhado, mantendo todos os dados de treinamento locais nos dispositivos dos usuários, trocando os parâmetros do modelo de IA em vez dos próprios dados brutos. É adequado para casos de uso em que os dados são distribuídos por um grande número de partes interessadas, como smartphones, onde a privacidade do usuário é indispensável. É menos adequado para casos de uso envolvendo uso, compartilhamento ou análise de grandes quantidades de dados confidenciais e centralizados.

A computação multipartidária segura permite que várias partes compartilhem com segurança seus dados e realizem cálculos sem realmente revelar as entradas individuais. Embora essa técnica ofereça maior fidelidade de segurança do que o aprendizado federado, ela requer operações criptográficas caras, o que resulta em custos de computação super altos. Portanto, é mais adequado para um número menor de participantes e modelos básicos de aprendizado de máquina.

Por último, na minha opinião, ambientes de execução confiáveis realmente mudam o jogo. Eles estão um passo além da segurança de software e são baseados em enclaves de hardware seguros. Isso significa entrada e saída de dados criptografados - ao mesmo tempo em que estabelece a confidencialidade, integridade e atestado dos dados do código ou da função que está sendo executada no próprio enclave.