Por que dados sintéticos tornam a IA actual melhor

Osmar Queiroz27/06/2022

7 minutos de leitura

[ad_1]

Estamos empolgados em trazer o Turn out to be 2022 de volta pessoalmente em 19 de julho e virtualmente de 20 a 28 de julho. Junte-se aos líderes de IA e dados para conversas perspicazes e oportunidades de networking empolgantes. Registre-se hoje!

Os dados são preciosos – por isso foi afirmado; tornou-se a mercadoria mais valiosa do mundo.

E quando se trata de treinar modelos de inteligência synthetic (IA) e aprendizado de máquina (ML), isso é absolutamente essencial.

Ainda assim, devido a vários fatores, dados de alta qualidade do mundo actual podem ser difíceis – às vezes até impossíveis – de obter.

É aqui que os dados sintéticos se tornam tão valiosos.

Dados sintéticos refletem dados do mundo actual, tanto matematicamente quanto estatisticamente, mas são gerados no mundo virtual por simulações de computador, algoritmos, modelagem estatística, regras simples e outras técnicas. Isso se opõe aos dados coletados, compilados, anotados e rotulados com base em fontes, cenários e experimentação do mundo actual.

O conceito de dados sintéticos existe desde o início da década de 1990, quando o professor de estatística de Harvard, Donald Rubin, gerou um conjunto de respostas anônimas do Censo dos EUA que espelhavam as do conjunto de dados unique (mas sem identificar os entrevistados por endereço residencial, número de telefone ou número do seguro social). .

Os dados sintéticos passaram a ser mais amplamente utilizados na década de 2000, principalmente no desenvolvimento de veículos autônomos. Agora, os dados sintéticos estão sendo cada vez mais aplicados a vários casos de uso de IA e ML.

Dados sintéticos as opposed to dados reais

Os dados do mundo actual são quase sempre a melhor fonte de insights para modelos de IA e ML (porque, bem, são reais). Dito isto, muitas vezes pode simplesmente estar indisponível, inutilizável devido a regulamentos e restrições de privacidade, desequilibrado ou caro. Erros também podem ser introduzidos por viés.

A este ponto, Estimativas do Gartner que até 2022, 85% dos projetos de IA apresentarão resultados errôneos.

“Os dados do mundo actual são casuais e não contêm todas as permutações de condições ou eventos possíveis no mundo actual”, disse Alexander Linden, analista de vice-presidente do Gartner, em uma sessão de perguntas e respostas conduzida pela empresa.

Dados sintéticos podem combater muitos desses desafios. De acordo com especialistas e profissionais, geralmente é mais rápido, fácil e barato de produzir e não precisa ser limpo e mantido. Ele take away ou reduz as restrições no uso de dados confidenciais e regulamentados, pode levar em conta casos extremos, pode ser adaptado a determinadas condições que poderiam ser inatingíveis ou ainda não ocorreram e pode permitir insights mais rápidos. Além disso, o treinamento é menos complicado e muito mais eficaz, principalmente quando os dados reais não podem ser usados, compartilhados ou movidos.

Como observa Linden, às vezes as informações injetadas em modelos de IA podem ser mais valiosas do que a observação direta. Da mesma forma, alguns afirmam que os dados sintéticos são melhores que os reais – até mesmo revolucionários.

As empresas aplicam dados sintéticos a uma variedade de casos de uso: teste de device, advertising and marketing, criação de gêmeos digitais, teste de sistemas de IA para viés ou simulação do futuro, futuros alternativos ou metaverso. Bancos e instituições financeiras usam dados sintéticos para explorar comportamentos de mercado, tomar melhores decisões de empréstimos ou combater fraudes financeiras, explica Linden. Enquanto isso, os varejistas confiam nele para sistemas de checkout autônomo, lojas sem caixa e análise de dados demográficos dos clientes.

“Quando combinados com dados reais, os dados sintéticos criam um conjunto de dados aprimorado que muitas vezes pode mitigar os pontos fracos dos dados reais”, diz Linden.

Ainda assim, ele adverte que os dados sintéticos têm riscos e limitações. Sua qualidade depende da qualidade do modelo que o criou, pode ser enganoso e levar a resultados inferiores e pode não ser “100% à prova de falhas” em termos de privacidade.

Depois, há o ceticismo do usuário – alguns se referem a isso como “dados falsos” ou “dados inferiores”. Além disso, à medida que se torna mais amplamente adotado, os líderes empresariais podem levantar questões sobre técnicas de geração de dados, transparência e explicabilidade.

Crescimento do mundo actual para dados sintéticos

Em uma citação muito predição do Gartner, até 2024, 60% dos dados usados para o desenvolvimento de projetos de IA e analytics serão gerados sinteticamente. Na verdade, a empresa disse que modelos de IA de alta qualidade e alto valor simplesmente não serão possíveis sem o uso de dados sintéticos. O Gartner estima ainda que, até 2030, os dados sintéticos ofuscarem completamente os dados reais nos modelos de IA.

“A amplitude de sua aplicabilidade o tornará um acelerador crítico para a IA”, diz Linden. “Dados sintéticos tornam a IA possível onde a falta de dados torna a IA inutilizável devido a viés ou incapacidade de reconhecer cenários raros ou sem precedentes”.

De acordo com a Cognilytica, o mercado para geração de dados sintéticos foi de aproximadamente US$ 110 milhões em 2021. A empresa de pesquisa espera que chegue a US$ 1,15 bilhão até 2027. A Grand View Analysis prevê que o mercado de conjuntos de dados de treinamento de IA atinja mais de US$ 8,6 bilhões até 2030, representando um composto taxa de crescimento anual (CAGR) de pouco mais de 22%.

E à medida que o conceito cresce, os concorrentes também crescem.

Um número crescente de startups está entrando no espaço de dados sintéticos e recebendo financiamento significativo para isso. Isso inclui a Datagen, que recentemente fechou uma série B de US$ 50 milhões; Gretel.ai, com uma série B de US$ 50 milhões; Principalmente AI, com uma série B de US$ 25 milhões; e Synthesis AI, com uma série A de US$ 17 milhões.

Outras empresas no espaço incluem Sky Engine, OneView, Cvedia e a empresa líder de engenharia de dados Innodata, que lançou recentemente um portal de comércio eletrônico onde os clientes podem comprar conjuntos de dados sintéticos sob demanda e treinar modelos imediatamente. Várias ferramentas de código aberto também estão disponíveis: Synner, Synthea, Synthetig e The Artificial Knowledge Vault.

Da mesma forma, Google, Microsoft, Fb, IBM e Nvidia já estão usando dados sintéticos ou estão desenvolvendo mecanismos e programas para isso.

A Amazon, por sua vez, confiou em dados sintéticos para gerar e ajustar seu assistente digital Alexa. A empresa também oferece o WorldForge, que permite a geração de cenas sintéticas, e acaba de anunciar em sua conferência re:MARS (System Finding out, Automation, Robotics and Area) na semana passada que sua ferramenta SageMaker Flooring Fact agora pode ser usada para gerar imagem sintética rotulada dados.

“Combinar seus dados do mundo actual com dados sintéticos ajuda a criar conjuntos de dados de treinamento mais completos para treinar seus modelos de ML”, disse Antje Barth, fundamental defensora do desenvolvedor de IA e ML na Amazon Internet Products and services (AWS) em um put up publicado em conjunto com re: MARTE.

Como os dados sintéticos aprimoram o mundo actual, aprimoram

Barth descreveu a construção de modelos de ML como um processo iterativo envolvendo coleta e preparação de dados, treinamento de modelos e implantação de modelos.

Ao começar, um cientista de dados pode passar meses coletando centenas de milhares de imagens de ambientes de produção. Um grande obstáculo nisso é representar todos os cenários possíveis e anotá-los corretamente. A aquisição de variações pode ser impossível, como no caso de defeitos raros do produto. Nesse caso, os desenvolvedores podem ter que danificar intencionalmente os produtos para simular vários cenários.

Em seguida, vem o processo demorado, propenso a erros e caro de rotular manualmente as imagens ou construir ferramentas de rotulagem, ressalta Barth.

A AWS apresentou o SageMaker Flooring Fact, o novo recurso do serviço de rotulagem de dados da Amazon, para ajudar a simplificar, otimizar e aprimorar esse processo. A nova ferramenta cria imagens sintéticas e fotorrealistas.

Por meio do serviço, os desenvolvedores podem criar um número ilimitado de imagens de um determinado objeto em diferentes posições, proporções, condições de iluminação e outras variações, explica Barth. Isso é basic, ela observa, pois os modelos aprendem melhor quando têm uma abundância de imagens de amostra e dados de treinamento, permitindo que eles calculem inúmeras variações e cenários.

Dados sintéticos podem ser criados por meio do serviço em enormes quantidades com rótulos “altamente precisos” para anotações em milhares de imagens. A precisão do rótulo pode ser feita em granularidade fina – como subobjeto ou nível de pixel – e entre modalidades, incluindo caixas delimitadoras, polígonos, profundidade e segmentos. Objetos e ambientes também podem ser personalizados com variações em elementos como iluminação, texturas, poses, cores e fundo.

“Em outras palavras, você pode ‘pedir’ o caso de uso exato para o qual está treinando seu modelo de ML”, diz Barth.

Ela acrescenta que “se você combinar seus dados do mundo actual com dados sintéticos, poderá criar conjuntos de dados mais completos e equilibrados, adicionando variedade de dados que os dados do mundo actual podem não ter”.

Qualquer cenário

No SageMaker Flooring Fact, os usuários podem solicitar novos projetos de dados sintéticos, monitorá-los em andamento e visualizar lotes de imagens geradas assim que estiverem disponíveis para revisão.

Depois de estabelecer os requisitos do projeto, uma equipe de desenvolvimento de projetos da AWS cria pequenos lotes de teste coletando entradas, incluindo fotos de referência e fontes 2D e three-D, explica Barth. Estes são então personalizados para representar qualquer variação ou cenário – como arranhões, amassados e texturas. Eles também podem criar e adicionar novos objetos, configurar distribuições e localizações de objetos em uma cena e modificar o tamanho, a forma, a cor e a textura da superfície do objeto.

Uma vez preparados, os objetos são renderizados por meio de um mecanismo de física fotorrealista e rotulados automaticamente. Durante todo o processo, as empresas recebem um relatório de fidelidade e diversidade fornecendo estatísticas em nível de imagem e objeto para “ajudar a entender” as imagens sintéticas e compará-las com imagens reais, disse Barth.

“Com dados sintéticos”, disse ela, “você tem a liberdade de criar qualquer ambiente de imagens”.

A missão do VentureBeat é ser uma praça virtual para os tomadores de decisões técnicas adquirirem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Aprender mais sobre a associação.

[ad_2]

Fonte da Notícia: venturebeat.com

Etiquetas