O modelo hub-and-spoke: uma alternativa à malha de dados
[ad_1]
Estamos empolgados em trazer o Grow to be 2022 de volta pessoalmente em 19 de julho e virtualmente de 20 a 28 de julho. Junte-se aos líderes de IA e dados para conversas perspicazes e oportunidades de networking empolgantes. Registre-se hoje!
A malha de dados é um tópico importante na comunidade de dados e análises. Introduzido em 2020 por Zhamak Dehghani em seu artigo “Princípios de malha de dados e arquitetura lógica”, a malha de dados é um novo modelo distribuído para organizar equipes de análise para fornecer produtos de dados e destina-se a enfrentar os desafios de dados centralizados e descentralizados. Mas essa abordagem é realmente a melhor para as empresas de hoje?
Modelos de organização para análise
Ao longo dos anos, vimos modelos organizacionais centralizados e descentralizados para fornecer análises aos negócios. Embora ambos os modelos tenham suas vantagens, cada um tem algumas desvantagens graves que os tornam inadequados para atender às necessidades dos consumidores famintos por dados de hoje.
1. Modelo centralizado
O knowledge warehouse permite que as empresas armazenem dados em um único native selecionado para que, em teoria, todos possam encontrar e consultar seus dados com confiança. Com controle central sobre a plataforma de dados e os padrões, os dados podem ser definidos de forma consistente e entregues de forma confiável.
Na prática, no entanto, há alguns grandes problemas com essa abordagem. Primeiro, os dados devem ser cuidadosamente selecionados e carregados, de modo que somente a TI tenha as habilidades necessárias para construir o knowledge warehouse. Isso configura a TI como um gargalo para a integração de novos dados. Em segundo lugar, uma vez que a equipe de TI normalmente não entende o negócio, eles lutam para traduzir os requisitos de negócios em requisitos técnicos – e, portanto, exacerbam o gargalo, frustrando seus clientes. Finalmente, os usuários de negócios lutam para analisar milhares de tabelas de knowledge warehouse, tornando o knowledge warehouse centralizado atraente apenas para os usuários mais sofisticados.
2. Modelo descentralizado
Impulsionados pela frustração do usuário ultimate e pela explosão na popularidade de ferramentas de visualização como o Tableau, os usuários corporativos resolveram o problema com uma abordagem descentralizada. Em vez de esperar que a TI forneça dados, os usuários de negócios criaram suas próprias extrações de dados, modelos de dados e relatórios. Ao descentralizar a preparação de dados, os usuários de negócios se libertaram da TI e evitaram o problema de “perda na tradução” associado à abordagem centralizada liderada pela TI.

Na prática, no entanto, essa abordagem, como a abordagem centralizada, também apresentou alguns desafios importantes. Primeiro, com a falta de controle sobre as definições de negócios, os usuários de negócios criaram suas próprias versões da realidade com cada painel que criaram. Como resultado, as definições e os resultados de negócios concorrentes destruíram a confiança da administração nos resultados analíticos. Em segundo lugar, a abordagem descentralizada levou à proliferação de plataformas e ferramentas concorrentes e muitas vezes incompatíveis, dificultando ou impossibilitando a integração de análises entre unidades de negócios.
A malha de dados
A malha de dados destina-se a enfrentar os desafios de ambos os modelos. Ele aceita que os dados atuais sejam distribuídos e permite que todos os usuários de uma organização acessem e analisem insights de negócios de praticamente qualquer fonte de dados, sem a intervenção de equipes de dados especializadas. Baseia-se mais em pessoas e organização do que em tecnologia, e é por isso que é tão atraente. A arquitetura distribuída de uma malha descentraliza a propriedade de cada domínio de negócios. Isso significa que cada domínio tem controle sobre a qualidade, privacidade, atualização, precisão e conformidade dos dados para casos de uso analíticos e operacionais.
A abordagem de malha de dados, no entanto, defende um modelo organizacional totalmente descentralizado, abolindo completamente a equipe centralizada. Gostaria de sugerir uma alternativa a essa abordagem que apresenta um centro de excelência para viabilizar um modelo descentralizado de gerenciamento de dados para a maioria das empresas.
Modelo hub-and-spoke: uma alternativa à malha de dados
Está claro que nenhuma abordagem, centralizada ou descentralizada, pode oferecer agilidade e consistência ao mesmo pace. Esses objetivos estão em conflito. Existe um modelo, no entanto, que pode oferecer o melhor dos dois mundos se implementado com ferramentas e processos adequados.
O modelo “hub-and-spoke” é uma alternativa à arquitetura de malha de dados com algumas diferenças críticas. Ou seja, o modelo hub-and-spoke introduz uma equipe de dados central, ou centro de excelência (o “hub”). Essa equipe é proprietária da plataforma de dados, ferramentas e padrões de processo, enquanto as equipes de domínio de negócios (os “spokes”) possuem os produtos de dados para seus domínios. Essa abordagem get to the bottom of o fenômeno “vale tudo” do modelo descentralizado, ao mesmo pace em que capacita especialistas no assunto (SMEs), ou administradores de dados, a criar de forma autônoma produtos de dados que atendam às suas necessidades.

O hyperlink crítico: o modelo de dados
O suporte a um modelo descentralizado de hub-and-spoke para criar produtos de dados exige que as equipes falem uma linguagem de dados comum, e não SQL. O que é preciso é um lógico maneira de definir relacionamentos de dados e lógica de negócios separada e distinta da representação física dos dados. Um modelo de dados semânticos é um candidato ultimate para servir como a Pedra de Roseta para equipes de domínio de dados díspares, pois pode ser usado para criar um gêmeo virtual da empresa, mapeando dados físicos em termos amigáveis aos negócios. Os especialistas de domínio podem codificar seus conhecimentos de negócios em formato virtual para que outros possam consultar, conectar e aprimorar.
Para que essa abordagem funcione em escala, é basic implementar uma plataforma de camada semântica comum que suporte compartilhamento de modelo de dados, dimensões conformadas, colaboração e propriedade. Com uma camada semântica, a equipe central de dados (hub) pode definir modelos comuns e dimensões conformadas (ou seja, pace, produto, cliente), enquanto os especialistas do domínio (spokes) possuem e definem seus modelos de processos de negócios (ou seja, “faturamento”, “ envio”, “geração de leads”). Com a capacidade de compartilhar ativos de modelo, os usuários de negócios podem combinar seus modelos com modelos de outros domínios para criar novos mashups para responder a perguntas mais profundas.

O modelo hub-and-spoke é bem-sucedido porque aproveita os pontos fortes das equipes de domínio centralizado e de negócios: a equipe centralizada possui e opera a plataforma técnica e publica modelos compartilhados, enquanto as equipes de negócios criam produtos de dados específicos de domínio usando um conjunto consistente de definições de negócios e sem a necessidade de entender os modelos de negócios de outros domínios.
Como chegar lá
Mudar para um modelo hub-and-spoke para fornecer produtos de dados não precisa ser disruptivo. Existem dois caminhos para o sucesso, dependendo do seu modelo existente para entrega de análises.
Se sua organização de análise atual for centralizado, a equipe central e as equipes de negócios devem identificar coletivamente os principais domínios de dados, atribuir a administração de dados e incorporar um engenheiro de análise em cada um. O engenheiro de análise pode vir da equipe central ou da equipe de negócios. Usando uma plataforma de camada semântica, o engenheiro de análise incorporado pode trabalhar dentro da equipe de domínio de negócios para criar modelos de dados e produtos de dados para esse domínio. O engenheiro de análise integrado trabalha com a equipe de dados central para definir padrões para ferramentas e processos enquanto identifica modelos comuns.
Se sua organização atual é descentralizado, você pode criar uma equipe de dados central para estabelecer padrões para ferramentas e processos. Além de gerenciar a plataforma da camada semântica e seus objetos e modelos compartilhados, a equipe de dados central pode gerenciar pipelines de dados e plataformas de dados compartilhadas pelas equipes de domínio.
Construindo para escala
O modelo organizacional ultimate para análise dependerá do tamanho e da maturidade de sua organização. No entanto, nunca é cedo demais para construir em escala. Não importa quão pequeno seja, investir em um modelo descentralizado de hub-and-spoke para criar produtos de dados renderá dividendos agora e no futuro. Ao promover a administração e propriedade de dados por especialistas de domínio, usando um conjunto comum de ferramentas e definições semânticas, toda a sua organização terá o poder de criar produtos de dados em escala.
David P. Mariani é CTO e cofundador da AtScale, Inc.
Tomadores de decisão de dados
Bem-vindo à comunidade VentureBeat!
DataDecisionMakers é onde especialistas, incluindo o pessoal técnico que trabalha com dados, podem compartilhar insights e inovações relacionadas a dados.
Se você quiser ler sobre ideias de ponta e informações atualizadas, práticas recomendadas e o futuro dos dados e da tecnologia de dados, junte-se a nós no DataDecisionMakers.
Você pode até considerar contribuir com um artigo seu!
Leia mais sobre DataDecisionMakers
[ad_2]
Fonte da Notícia: venturebeat.com