O apelo que muda o jogo da malha de dados-a nova pilha

Confluente patrocinou esta postagem

Este artigo é o primeiro em uma série de quatro partes.

Adam BellemareAdam Bellemare is a staff technologist at Confluent and formerly a data platform engineer at Shopify, Flipp and BlackBerry. He has been working in the data space for over a decade with a successful history in big-data architecture, event-driven microservices and building streaming data in an organization. He is also the author of the O’Reilly title 'Building Event-Driven Microservices.'

Os dados moldam a organização moderna de cima para baixo, tanto que um apetite voraz por dados geralmente forma o ponto de partida de quase todas as decisões de negócios.Mas, como nossas ambições orientadas a dados dispararam, a arquitetura para a maneira como os dados importantes dos negócios são armazenados, acessados e usados em uma organização não continuou.

A chamada democratização de dados não conseguiu cumprir sua promessa.Os dados ainda são difíceis de acessar e geralmente são apenas um tipo de coisa "alcance e agarre por si mesmo".Isso levou a uma forma de anarquia de dados.

É aí que entra a malha de dados.

Se você esteve em qualquer lugar perto deste site no ano passado, mais ou menos, provavelmente encontrou o conceito de malha de dados.Foi desenvolvido há mais de um ano por Zhamak Dehghani, consultora de tecnologia da Thoughtworks, para corrigir o que ela via como grandes falhas na maneira como os dados são gerados e consumidos no mundo dos negócios de hoje.

A malha de dados é a fase mais recente de um processo em constante evolução para acessar e usar mais de maneira mais inteligente dados para tomar melhores decisões estratégicas e atender melhor a nossos clientes.Eu acredito que não apenas foi projetado para se tornar uma parte essencial do processo de inteligência de negócios, mas também para servir processos operacionais.

Em termos gerais, é uma construção estratégica e tática para projetar uma plataforma de dados mais confiável, fechando a lacuna entre os planos operacionais e analíticos de cada domínio de negócios, rejeitando como os dados são produzidos e como são consumidos.Ele extrai idéias do design orientado a domínio (usado para desenvolver microsserviços), DevOps (automação e infraestrutura de autoatendimento) ou observabilidade (registro e governança) e as aplica ao mundo dos dados.

A malha de dados é uma formulação de princípios importantes que, quando seguidos, mudam fundamentalmente a maneira como as organizações produzem, usam e distribuem dados.Este artigo é o primeiro de uma série de quatro partes projetada para estabelecer a necessidade de malha de dados e depois aconselhar sobre como você deve ajustar seu pensamento e fluxo de trabalho para que isso aconteça.Ele fornece um esboço para iniciar seu próprio projeto de malha de dados, desde a cobertura das idéias básicas até a execução de um sistema de protótipo em sua organização.

Então o que é?

Os dados agora são gerados continuamente em quase todos os pontos de uma organização.Isso levou ao processamento generalizado de fluxos de eventos (ESP), a prática de agir sobre uma série de pontos de dados que se originam de um sistema que nunca para de gerar dados.("Evento" refere -se a cada ponto de dados do sistema, e "Stream" refere -se à entrega contínua desses eventos.)

Os eventos consistem em algo relacionado aos negócios que aconteceu na organização, como registro de usuário, venda, alterações de inventário ou atualizações de funcionários.Esses eventos são então organizados sequencialmente em um fluxo, usado para facilitar a entrega contínua.

Os fluxos de eventos são atualizados à medida que novos dados estão disponíveis e seus dados podem ser gerados por qualquer fonte de negócios - vendas, streaming de vídeo e áudio e dados de texto, para citar apenas alguns.EsP permite todas as formas de informações operacionais, analíticas e híbridas a serem agrupadas, e chega em muitas formas diferentes, estruturadas e não estruturadas.Os fluxos de eventos desempenham um papel essencial na maioria das implementações de malha de dados.

Em muitas organizações, esse fluxo constante de dados de todos esses vários sistemas é derramado em um Data Lake, um repositório de informações armazenadas em seu formato natural/bruto, ou data warehouses, que combinam e armazenam dados de fontes díspares.A partir daí, uma equipe de analistas de dados limpa as informações para que possam ser usadas por pessoas diferentes e em muitos outros contextos diferentes.

Fusão desses petabytes de informação em um único sistema significa, teoricamente, essas idéias se desenvolvem mais rápido.As idéias podem levar a análises que prevêem eventos futuros baseados em padrões nos dados, ou como outro exemplo, para enriquecer que combina fontes de dados para criar mais contexto e significado.

Um data warehouse típico tem muitas fontes espalhadas por uma empresa, com níveis variados de qualidade.Haverá muitos trabalhos de ETL (Extrato, Transformar, Carregar) em execução em diferentes sistemas e puxando conjuntos de dados de volta ao Warehouse central.As equipes de análise limpam e corrigem muitos dados.Extrair e carregar levam o tempo restante.

The Game-Changing Appeal of Data Mesh – The New Stack

O modelo de data warehouse é um sistema projetado para ser escalável, confiável e durável, mas está cheio de problemas.O problema é que pedimos muitos de nossos dados nos últimos anos.Queremos que isso atenda a todos os requisitos para inteligência estratégica de negócios.Mas também precisamos disso para projetar aplicativos, manter os clientes felizes e otimizar os fluxos de trabalho operacionais.

Enquanto isso, as idéias analíticas informam todos os aspectos de nossos negócios, do gerente de produto que deve entender o comportamento de seus clientes para criar recomendações de personalização aos engenheiros que constroem essas soluções.

Tentamos enfrentar o escopo desse volume de dados que aumenta rapidamente com soluções como Apache Hadoop.Infelizmente, aqueles de nós no espaço de dados estão muito familiarizados com a escassez de dados consistentes, estáveis e bem definidos.Isso geralmente aparece como uma disparidade nos relatórios analíticos: por exemplo, o Analytics relata que 1.100 compromissos de produtos ocorreram, mas o cliente foi cobrado por 1.123 compromissos.Sistemas operacionais e sistemas analíticos nem sempre concordam, e isso se deve em grande parte devido ao fornecimento de dados de várias fontes divergentes.

A arquitetura de dados geralmente não tem rigor e evolui de uma maneira ad hoc sem tanta disciplina ou estrutura quanto gostaríamos.Os usuários sabem que quando chegam ao Data Lake para obter dados para mais processamento e análise, as informações podem ser quebradiças.O software mais antigo pode parecer confiável, mas falha quando apresentado com dados incomuns ou é alterado.E à medida que o software em um determinado projeto cresce cada vez maior e desenvolve uma base maior de usuários que lidam com ele, ele se torna cada vez menos maleável.

O data warehouse ou a estratégia de data lake, em resumo, tornou-se propenso a erros e insustentável.Isso leva a produtores de dados desconectados, consumidores de dados impacientes e uma equipe de dados sobrecarregada que luta para acompanhar o ritmo.O mais importante, ele simplesmente não fornece uma estrutura de suporte adequada para onde estamos hoje e para onde estamos indo.

Se você deseja que algum sistema escala, precisa reduzir o número de pontos de acoplamento, os locais de sincronização.Seguindo essa lógica, as arquiteturas de dados podem ser mais facilmente dimensionadas, sendo divididas em componentes menores bem definidos, orientados em torno de domínios.Outras equipes e produtos podem se inscrever nesses dados, garantiu que é a fonte definitiva de verdade, adquirindo diretamente de seus pares de maneira ponto a ponto.Portanto, a malha de dados.

Um sistema nervoso para dados

A malha foi projetada para criar um produto premium dos importantes dados comerciais em uma organização.Isso faz isso simplesmente.A malha de dados coloca o ônus da responsabilidade por fornecer dados limpos, disponíveis e confiáveis na tripulação que gera, usa e armazena os dados - não em uma equipe de análise centralizada.Ele coloca a responsabilidade por dados limpos sobre aqueles que estão mais próximos dos dados.Em outras palavras, por aqueles que entendem melhor.

Em uma malha de dados, a propriedade de um ativo é dada à equipe local mais familiarizada com sua estrutura, propósito e valor e quem possui a produção dele.Nesta abordagem descentralizada, muitas partes trabalham juntas para garantir excelentes dados.As partes que possuem os dados devem ser bons mordomos desses dados e se comunicar com outras pessoas para garantir que suas necessidades de dados sejam atendidas.

Os dados não são mais tratados como um subproduto de aplicativos, mas são previstos como um produto de dados bem definido.Pense na malha de dados como a antítese no data warehouse.Os produtos de dados são fontes de dados bem formados que são distribuídos pela sua empresa, cada um tratado como produtos de primeira classe por si só, com propriedade dedicada, gerenciamento do ciclo de vida e acordos de nível de serviço.A idéia é criar cuidadosamente, curar e apresentá -los ao restante da organização como produtos para outras equipes consumirem, fornecendo uma fonte confiável e confiável para compartilhar dados em toda a organização.

Os fluxos de eventos são a solução ideal para alimentar a grande maioria dos produtos de dados.Eles são uma maneira escalável, confiável e durável de armazenar e comunicar dados comerciais importantes e preencher a lacuna cada vez maior entre processamento analítico e operacional.Eles colocam o consumidor no controle de uma cópia sempre atualizada e somente leitura desses dados para processar, remodelar, armazenar e atualizar como acham o ajuste (pense em microsserviços).

Sponsor NoteConfluent, founded by the original creators of Apache Kafka®️, is pioneering a new category of data infrastructure focused on data in motion. With Confluent’s cloud native offering any organization can easily build and scale next-generation apps needed to run their business in real-time.

A prevalência de produtos de armazenamento e computação em nuvem facilita a acomodação;Os consumidores de análise podem afundar dados em um armazenamento de objetos em nuvem para processamento paralelo maciço, enquanto os usuários operacionais podem consumir os dados diretamente, agindo em eventos à medida que ocorrem.Isso elimina várias fontes do mesmo conjunto de dados que muitas vezes causam problemas com estratégias mais antigas de aquisição de dados.

Mas há muito mais na implementação da malha de dados, e vou explorar as principais considerações sobre os próximos três artigos: ∙ Como os dados são produzidos: dados como propriedade e propriedade de domínio ∙ Como os dados são consumidos: dados de autoatendimentoe governança federada ∙ Como organizar a força de trabalho: uma abordagem de trabalho em equipe para a malha ideal

Cada organização descobrirá que sua implementação de malha de dados pode diferir em seus tipos de produtos de dados suportados, design técnico, modelo de governança e estrutura organizacional.

Mas uma coisa é certa: à medida que as demandas dos consumidores de dados continuam a diversificar e a escala de nossas necessidades aceleram, acredito que as malhas de dados - com seu foco nos conjuntos de dados de domínio distribuídos fornecidos através de fluxos de eventos - se tornarão cada vez mais comuns e um críticoparte do nosso futuro orientado a dados.

A nova pilha é uma subsidiária integral da Insight Partners, um investidor nas seguintes empresas mencionadas neste artigo: Flipp.

Confluente é um patrocinador da nova pilha.

Foto de Damir Mijailovic da Pexels.