Obstáculos para obter a IA em pace actual correta

Osmar Queiroz05/06/2022

5 minutos de leitura

[ad_1]

Analistas estimam que até 2025, 30% dos dados gerados serão dados em pace actual. Ou seja, 52 zettabytes (ZB) de dados em pace actual por ano – aproximadamente a quantidade de overall dados produzidos em 2020. Como os volumes de dados cresceram tão rapidamente, 52 ZB é três vezes a quantidade de overall dados produzidos em 2015. Com esse crescimento exponencial, fica claro que conquistar dados em pace actual é o futuro da ciência de dados.

Ao longo da última década, tecnologias foram desenvolvidas por empresas como Materialize, Deephaven, Kafka e Redpanda para trabalhar com esses fluxos de dados em pace actual. Eles podem transformar, transmitir e persistir fluxos de dados em pace actual e fornecer os blocos de construção básicos necessários para construir aplicativos para a nova realidade em pace actual. Mas para realmente tornar esses enormes volumes de dados úteis, inteligência synthetic (AI) deve ser empregado.

As empresas precisam de tecnologia perspicaz que possa criar conhecimento e compreensão com o mínimo de intervenção humana para acompanhar a onda de dados em pace actual. Colocar em prática essa ideia de aplicar algoritmos de IA a dados em pace actual ainda está em sua infância. Fundos de hedge especializados e grandes gamers de IA – como Google e Fb – fazem uso de IA em pace actual, mas poucos outros entraram nessas águas.

Para tornar a IA em pace actual onipresente, o instrument de suporte deve ser desenvolvido. Este instrument precisa fornecer:

Um caminho fácil para a transição de dados estáticos para dinâmicos
Um caminho fácil para limpar dados estáticos e dinâmicos
Um caminho fácil para ir da criação e validação do modelo à produção
Um caminho fácil para gerenciar o instrument conforme os requisitos – e o mundo external – mudam

Um caminho fácil para a transição de dados estáticos para dinâmicos

Desenvolvedores e cientistas de dados querem gastar seu pace pensando em problemas importantes de IA, sem se preocupar com o encanamento de dados demorado. Um cientista de dados não deve se importar se os dados são uma tabela estática do Pandas ou uma tabela dinâmica do Kafka. Ambos são tabelas e devem ser tratados da mesma forma. Infelizmente, a maioria dos sistemas de geração atual tratam dados estáticos e dinâmicos de forma diferente. Os dados são obtidos de maneiras diferentes, consultados de maneiras diferentes e usados de maneiras diferentes. Isso torna as transições da pesquisa para a produção caras e trabalhosas.

Para realmente obter valor da IA em pace actual, desenvolvedores e cientistas de dados precisam ser capazes de fazer a transição perfeita entre o uso de dados estáticos e dados dinâmicos no mesmo ambiente de instrument. Isso requer APIs comuns e uma estrutura que possa processar dados estáticos e em pace actual de maneira consistente com UX.

Um caminho fácil para limpar dados estáticos e dinâmicos

O trabalho mais attractive para engenheiros de IA e cientistas de dados é criar novos modelos. Infelizmente, a maior parte do pace de um engenheiro de IA ou cientista de dados é dedicado a ser um zelador de dados. Os conjuntos de dados estão inevitavelmente sujos e devem ser limpos e massageados na forma correta. Este é um trabalho ingrato e demorado. Com uma inundação exponencialmente crescente de dados em pace actual, todo esse processo deve exigir menos trabalho humano e deve funcionar tanto em dados estáticos quanto em streaming.

Na prática, a limpeza fácil de dados é obtida por meio de uma maneira concisa, poderosa e expressiva de realizar operações comuns de limpeza de dados que funcionam em dados estáticos e dinâmicos. Isso inclui remover dados incorretos, preencher valores ausentes, unir várias fontes de dados e transformar formatos de dados.

Atualmente, existem algumas tecnologias que permitem aos usuários implementar a lógica de limpeza e manipulação de dados apenas uma vez e usá-la para dados estáticos e em pace actual. Materialize e ksqlDb permitem consultas SQL de fluxos Kafka. Essas opções são boas opções para casos de uso com lógica relativamente simples ou para desenvolvedores de SQL. Deephaven tem uma linguagem de consulta orientada a tabelas que suporta Kafka, Parquet, CSV e outros formatos de dados comuns. Esse tipo de linguagem de consulta é adequado para lógica mais complexa e matemática ou para desenvolvedores de Python.

Um caminho fácil para ir da criação e validação do modelo à produção

Muitos – possivelmente até a maioria – novos modelos de IA nunca passam da pesquisa à produção. Isso ocorre porque a pesquisa e a produção são normalmente implementadas usando ambientes de instrument muito diferentes. Os ambientes de pesquisa são voltados para trabalhar com grandes conjuntos de dados estáticos, calibração de modelos e validação de modelos. Por outro lado, os ambientes de produção fazem previsões sobre novos eventos à medida que eles chegam. Para aumentar a fração de modelos de IA que impactam o mundo, as etapas para passar da pesquisa para a produção devem ser extremamente fáceis.

Considere um cenário excellent: primeiro, dados estáticos e em pace actual seriam acessados e manipulados por meio da mesma API. Isso fornece uma plataforma consistente para criar aplicativos usando dados estáticos e/ou em pace actual. Em segundo lugar, a lógica de limpeza e manipulação de dados seria implementada uma vez para uso em casos de pesquisa estática e produção dinâmica. Duplicar essa lógica é caro e aumenta as probabilities de que pesquisa e produção diferem de maneiras inesperadas e conseqüentes. Terceiro, os modelos de IA seriam fáceis de serializar e desserializar. Isso permite que os modelos de produção sejam trocados simplesmente alterando um caminho de arquivo ou URL. Por fim, o sistema facilitaria o monitoramento – em pace actual – do desempenho dos modelos de IA de produção na natureza.

Um caminho fácil para gerenciar o instrument conforme os requisitos – e o mundo external – mudam

A mudança é inevitável, especialmente ao trabalhar com dados dinâmicos. Em sistemas de dados, essas mudanças podem ser em fontes de dados de entrada, requisitos, membros da equipe e muito mais. Não importa o quão cuidadosamente um projeto seja planejado, ele será forçado a se adaptar ao longo do pace. Muitas vezes essas adaptações nunca acontecem. A dívida técnica acumulada e o conhecimento perdido por meio de mudanças de pessoal matam esses esforços.

Para lidar com um mundo em mudança, a infraestrutura de IA em pace actual deve tornar todas as fases de um projeto (do treinamento à validação e produção) compreensíveis e modificáveis por uma equipe muito pequena. E não apenas a equipe authentic para a qual foi criado – deve ser compreensível e modificável por novos indivíduos que herdam os aplicativos de produção existentes.

À medida que a onda de dados em pace actual ocorrer, veremos inovações significativas na IA em pace actual. A IA em pace actual irá além dos Googles e Facebooks do mundo e entrará no package de ferramentas de todos os engenheiros de IA. Obteremos respostas melhores, mais rápidas e com menos trabalho. Engenheiros e cientistas de dados poderão passar mais pace focando em soluções interessantes e importantes em pace actual. As empresas obterão respostas oportunas e de alta qualidade de menos funcionários, reduzindo os desafios de contratar talentos de IA.

Quando tivermos ferramentas de instrument que facilitem esses quatro requisitos, finalmente poderemos obter a IA em pace actual correta.

Chip Kent é o cientista-chefe de dados da Laboratórios de dados Deephaven.

Tomadores de decisão de dados

Bem-vindo à comunidade VentureBeat!

DataDecisionMakers é onde especialistas, incluindo o pessoal técnico que trabalha com dados, podem compartilhar insights e inovações relacionadas a dados.

Se você quiser ler sobre ideias de ponta e informações atualizadas, melhores práticas e o futuro dos dados e da tecnologia de dados, junte-se a nós no DataDecisionMakers.

Você pode até considerar contribuindo com um artigo de sua autoria!