Cinco tendências emergentes no gerenciamento de dados corporativos

(cybrain/Shutterstock)

À medida que nos aproximamos de 2022, vale a pena lembrar que, menos de uma década atrás, o mercado de consumo corporativo considerava as soluções de dados – principalmente, armazenamento de dados – como um acessório inevitável de sua arquitetura de solução. Um monólito projetado para cobrir os impactos de custo e desempenho nas principais operações de negócios, a fim de satisfazer as necessidades rígidas de relatórios e análises. Na maioria das vezes, essas soluções eram vistas como centros de custos dependentes que exigiam orçamentos de manutenção significativos para um retorno limitado da inovação. Era apenas o custo de fazer negócios.

E, desde aquela época, os conceitos relacionados à computação infinita, infraestrutura elástica e serviços gerenciados na nuvem revitalizaram toda uma perspectiva demográfica sobre o valor dos dados. Esse novo valor imbuído de dados aparece com destaque na maioria das estratégias de 5 e 10 anos dos C-suites como uma fonte de geração de receita, com os dados agora recebendo valor extrínseco.

Esse pivô em dados como estratégia dificilmente aconteceu no vácuo; o surgimento de domínios de computação comoditizados, incluindo inteligência artificial, aprendizado de máquina, IIoT e categorias de produtos liderados por gráficos, tiveram o efeito de atrair as arquiteturas de dados para o futuro, bem como ver o ritmo da inovação da arquitetura de dados impulsionando os avanços nesses mesmos mercados de produtos .

Isso deu origem a uma explosão cambriana de novas tecnologias e start-ups, novas soluções verticais e arquiteturas de processamento reinventadas que acabaram de chegar ao norte de US$ 5 bilhões investidos no espaço apenas em 2021 - a maior parte sendo jogado no anel de análise e armazenamento.

Dada esta revisão abreviada, também estamos profundamente interessados em aprofundar para onde o espaço de dados se encontra e marcamos essa perspectiva com 5 tendências principais que suspeitamos ver o núcleo da evolução do gerenciamento de dados corporativos nos próximos meia década.

1.Infraestrutura de dados em nuvem onipresente

(sdecoret/Shutterstock)

Não há melhor lugar para começar do que com a infraestrutura que permitiu grande parte do crescimento neste espaço. Indo além dos sistemas legados no local para a nuvem e especificamente para a nuvem pública, desbloqueou recursos de outra forma vinculados dedicados à manutenção, confiabilidade e disponibilidade da infraestrutura e nivelou o campo de jogo para práticas inovadoras. O novo e atraente paradigma de piso baixo e teto alto para adoção de tecnologia está prestes a ganhar mais força com a previsão do Gartner de que os gastos com serviços de nuvem pública se aproximarão de US$ 500 bilhões até 2022.

Com cinco noves de disponibilidade (99,999%) e impressionantes onze noves de durabilidade (99,999999999%) alcançados pela AWS (a nuvem pública responsável por atender a um terço do mercado), menos tempo e recursos podem ser gastos no gerenciamento sistemas locais. Esse benefício é realizado tanto em despesas de capital de hardware quanto no exército indiscutivelmente mais caro de recursos humanos na forma de especialistas que cuidam da rede, administração, gerenciamento de dados, segurança, confiabilidade, manutenção, etc.

Do ponto de vista do gerenciamento de dados e do armazenamento, as plataformas de armazenamento nativas em nuvem construídas em arquiteturas novas e emergentes, como data warehouses em nuvem, data lakes em nuvem e os novos, mas familiares, cloud lakehouses, fornecem soluções de alto desempenho e facilmente escaláveis.

Por outro lado, a abundância de computação em nuvem infinitamente escalável, serviços em nuvem sem servidor e ferramentas de integração nativas em nuvem prontas para uso promovem um ecossistema saudável e rico para atender às necessidades de gerenciamento de dados corporativos.

Cinco tendências emergentes no gerenciamento de dados corporativos

2.Gerenciamento de metadados ativo e aumentado

Os dados que ajudam a descrever seus dados – metadados – representam uma chave fundamental para poder criar alavancagem sobre volumes astronômicos de captura de dados organizacionais. Como um pilar do espaço de catalogação de dados, a estratégia Enterprise Metadata Management (EMM) é evidente na condução de estratégias de indexação oportunas e eficientes para ajudar a atender às necessidades comuns, incluindo:

Uma implementação básica do EMM é o catálogo de dados operacionais que representa uma coleção indexada das fontes de dados da empresa. Indo um passo além, está o conceito de catálogos de dados aumentados cunhados pelo Gartner e definidos como uma camada de automação orientada por aprendizado de máquina no topo do catálogo de dados tradicional.

A automação em catálogos de dados aumentados permite simplificar a descoberta de dados, conectividade, enriquecimento de metadados, organização e governança. Com base nessa arquitetura automatizada, o Active Metadata Management (AMM) é um salto na mesma direção, permitindo a análise contínua das várias dimensões dos metadados corporativos para determinar “o alinhamento e as exceções entre os dados projetados e a experiência operacional”, conforme definido por Gartner.

3.Data Lakehouses – o melhor dos dois paradigmas

Embora o data lake tenha ajudado a resolver as peças de armazenamento e flexibilidade do quebra-cabeça de gerenciamento de dados, as empresas precisam resolver o processamento externo de ETL para desempenho insights e relatórios de inteligência de negócios, algo que normalmente pode ser gerenciado imediatamente no caso de um data warehouse. Para simplificar esse processo e ajudar a manter a infraestrutura de dados unificada e independente, surgiu o conceito de data lakehouses. Como o nome sugere, é uma solução híbrida de gerenciamento de dados que combina vantagens de data lakes e data warehouses em uma única plataforma, reduzindo assim a complexidade e a manutenção e, ao mesmo tempo, aproveitando a economia de escala. O primeiro uso documentado do termo “Data Lakehouse” data de 2017, quando foi usado pela primeira vez pelo Jellyvision Lab, um cliente Snowflake que usou o termo para descrever a plataforma Snowflake.

Semelhante aos data lakes, os dados estruturados mistos podem ser ingeridos no lakehouse com o aspecto diferenciador sendo a capacidade de adicionar uma camada de armazenamento no topo do lake. Isso permite alavancar a rigidez e a estrutura organizada de um depósito para as necessidades tradicionais de relatórios, mantendo uma arquitetura flexível e versátil do lago subjacente para uma ampla gama de outras aplicações.

4.Gerenciamento de qualidade de dados por meio de observabilidade

À medida que a infraestrutura de dados técnicos continua a ser comoditizada, o sistema moderno de produção de dados está se tornando cada vez mais complexo, com vários pontos potenciais de verificação (ou falha). Consequentemente, a resposta para a pergunta aparentemente simples de “o que deu errado?” ou no sentido preventivo “como podemos garantir que nada dê errado?” em um pipeline de dados torna-se mais difícil de abordar. Felizmente, a roda do gerenciamento de qualidade em configurações tão complexas não precisou ser reinventada. As lições aprendidas com a aplicação de metodologias enxutas e ágeis ao desenvolvimento de software, dando origem à revolução DevOps que continua a evoluir e amadurecer, agora também estão sendo aplicadas ao gerenciamento de dados corporativos. E um dos principais pilares para garantir a gestão total e contínua da qualidade dos dados é a observabilidade dos dados.

(kurhan/Shutterstock)

A observabilidade em si não é um conceito novo; foi introduzido pela primeira vez em 1960 por Rudolf E. Kalman no contexto de sistemas dinâmicos lineares. No contexto da teoria de Controle, a Observabilidade foi definida como o grau em que o estado interno de um determinado sistema pode ser inferido com base em suas saídas. Simplificando, ele fornece a resposta para a simples pergunta “o que podemos dizer sobre o desempenho de um sistema com base em sua saída?”.

No contexto do gerenciamento de dados, a definição geralmente aceita de observabilidade de dados envolve a capacidade de entender a integridade e o estado dos dados em seu sistema, permitindo a garantia da qualidade dos dados e o monitoramento e controle do ciclo de vida dos dados. Embora a engenharia de software tenha pilares de observabilidade de software (logs, métricas e rastreamentos), a observabilidade de dados é baseada em cinco pilares: atualização, distribuição, volume, esquema e linhagem.

5.Data Fabric como uma estrutura de dados multimodal

Está claro que uma solução central de gerenciamento de dados monolíticos não é mais uma opção para empresas modernas. A miríade de produtores de dados, consumidores e aplicativos e serviços intermediários exige uma estrutura de gerenciamento de dados moderna e abrangente, capaz de sustentar seu crescimento em complexidade e escala.

A malha de dados estabelece a base para uma arquitetura de plataforma de gerenciamento de dados multimodal que eleva o design e as práticas de gerenciamento de dados. A malha de dados está enraizada em três princípios fundamentais:

É importante mencionar que esta visão geral das tendências emergentes no gerenciamento de dados corporativos se refere principalmente aos aspectos técnicos e arquiteturais do gerenciamento de dados corporativos. Mas, como observamos historicamente em outros espaços e indústrias, o crescimento explosivo das capacidades técnicas é apenas uma parte da realização do potencial de negócios no espaço. O crescimento sustentável e a adoção dessas tendências no espaço empresarial dependem da adoção e implementação das estratégias corretas de gerenciamento de mudanças organizacionais e de ter os recursos técnicos e organizacionais adequados para catalisar e apoiá-los.

Sobre os autores: Khalid Marbou (à esquerda) é estrategista sênior de produtos da Infor para o Infor OS Data Fabric. Mike Kalinowski é o diretor de gerenciamento de produtos do Infor OS Data Fabric.

Itens relacionados:

Malha de dados vs. Data Fabric: entendendo as diferenças

A malha de dados surge em busca da harmonia de dados

Data Fabrics Surgem para Amenizar os Pesadelos de Gerenciamento de Dados em Nuvem

Aplicações:Enterprise Analytics Technologies:Middleware Setores:Serviços Financeiros Fornecedores:Infor Tags:big data, cloud, data fabric, gerenciamento de dados, tendências de dados