AI Weekly: o compromisso da Nvidia com a IA de voz – e uma despedida

Osmar Queiroz25/03/2022

6 minutos de leitura

[ad_1]

Perdeu uma sessão no Knowledge Summit? Assistir sob demanda Aqui.

Esta semana, a Nvidia anunciou uma série de inovações de {hardware} e instrument focadas em IA durante sua conferência GTC 2022 de março. A empresa revelou o Superchip de CPU Grace, um processador de information heart projetado para atender a aplicativos de computação e IA de alto desempenho. E detalhou o H100, o primeiro de uma nova linha de {hardware} de GPU destinado a acelerar as cargas de trabalho de IA, incluindo o treinamento de grandes modelos de linguagem herbal.

Mas um anúncio que passou despercebido foi a disponibilidade geral do Riva 2.0 SDK da Nvidia, bem como a oferta gerenciada Riva Undertaking da empresa. Ambos podem ser implantados para a criação de aplicativos de IA de fala e apontam para o crescente mercado de reconhecimento de fala em explicit. Espera-se que o mercado de reconhecimento de voz e voz cresça de US$ 8,3 bilhões em 2021 para US$ 22,0 bilhões até 2026, de acordo com Markets and Markets, impulsionado por aplicativos corporativos.

Em 2018, uma pesquisa Pindrop com 500 tomadores de decisão de TI e negócios encontrado que 28% estavam usando tecnologia de voz com os clientes. Gartner, por sua vez, previsto em 2019, 25% dos trabalhadores digitais usarão assistentes virtuais de funcionários diariamente até 2021. E uma pesquisa recente da Opus descobriu que 73% dos executivos veem valor nas tecnologias de voz de IA para “eficiência operacional”.

“À medida que a IA de fala está se expandindo para novos aplicativos, os cientistas de dados das empresas estão procurando desenvolver, personalizar e implantar aplicativos de fala”, disse um porta-voz da Nvidia ao VentureBeat por e mail. “Riva 2.0 inclui specialty integração com TAO, uma solução de baixo código para cientistas de dados, para personalizar e implantar aplicativos de fala. Esta é uma área de foco ativa e planejamos tornar o fluxo de trabalho ainda mais acessível para os clientes no futuro. Também introduzimos o Riva em plataformas incorporadas para acesso antecipado e teremos mais para compartilhar posteriormente.”

A Nvidia diz que a Snap, a empresa por trás do Snapchat, integrou o reconhecimento automático de fala da Riva e as tecnologias de texto para fala em sua plataforma de desenvolvedor. A RingCentral, outro cliente, está aproveitando o reconhecimento automático de fala da Riva para legendas ao vivo de videoconferência.

As tecnologias de fala também abrangem ferramentas de geração de voz, incluindo ferramentas de “clonagem de voz” que usam IA para imitar o tom e a prosódia da fala de uma pessoa. No outono passado, a Nvidia revelou Voz personalizada da Rivaum novo equipment de ferramentas que a empresa afirma que pode permitir que os clientes criem vozes personalizadas “semelhantes a humanos” com apenas 30 minutos de dados de gravação de fala.

Vozes de marca como a da Modern Flo são frequentemente encarregados de gravar árvores telefônicas e scripts de e-learning em séries de vídeos de treinamento corporativo. Para as empresas, os custos podem somar — um fonte fixa a taxa horária média para atores de voz em $ 39,63, mais taxas adicionais para activates de resposta de voz interativa (IVR). A sintetização pode aumentar a produtividade dos atores reduzindo a necessidade de gravações adicionais, potencialmente liberando os atores para buscar um trabalho mais criativo – e economizando dinheiro para as empresas no processo.

De acordo com to Markets and Markets, o mercado international de clonagem de voz pode crescer de US$ 456 milhões em valor em 2018 para US$ 1,739 bilhão até 2023.

Quanto ao que está no horizonte, a Nvidia vê novos aplicativos de voz entrando em produção em realidade aumentada, videoconferência e IA de conversação. As expectativas e o foco dos clientes estão na alta precisão, bem como em maneiras de personalizar as experiências de voz, diz a empresa.

“Soluções de baixo código para IA de fala [will continue to grow] já que os desenvolvedores que não são de instrument estão procurando construir, ajustar e implantar soluções de fala”, continuou o porta-voz, referindo-se a plataformas de desenvolvimento de baixo código que exigem pouca ou nenhuma codificação para criar aplicativos de voz. “Novas pesquisas estão trazendo texto para fala emocional, transformando a forma como os humanos irão interagir com as máquinas.”

Por mais empolgantes que sejam essas tecnologias, elas introduzirão – e já introduziram – novos desafios éticos. Por exemplo, fraudadores usaram a clonagem para imitar a voz de um CEO suficientemente bem para iniciar uma transferência eletrônica. E alguns algoritmos de reconhecimento de fala e de conversão de texto em fala demonstraram reconhecer as vozes de usuários minoritários com menos precisão do que aqueles com inflexões mais comuns.

Cabe a empresas como a Nvidia fazer esforços para enfrentar esses desafios antes de implantar suas tecnologias em produção. Para seu crédito, a empresa tomou medidas na direção certa, por exemplo, proibindo o uso da Riva para a criação de conteúdo “fraudulento, falso, enganoso ou enganoso”, bem como conteúdo que “promova[s] discriminação, intolerância, racismo, ódio, assédio ou dano contra qualquer indivíduo ou grupo”. Felizmente, há mais nessa veia por vir.

Uma despedida

Como adendo ao boletim desta semana, é com tristeza que anuncio que estou deixando a VentureBeat para buscar oportunidades profissionais em outro lugar. Esta edição do AI Weekly será a minha última – uma realização agridoce, de fato, enquanto tento encontrar as palavras para colocar no papel.

Quando me juntei à VentureBeat como redator da equipe de IA há quatro anos, ecu tinha apenas uma vaga noção da difícil jornada que estava pela frente. European não technology excepcionalmente versado em IA – minha formação technology em tecnologia de consumo – e o jargão do setor technology esmagador para mim, para não dizer contraditório. Mas como aprendi particularmente com aqueles do lado acadêmico da ciência de dados, uma mente aberta – e uma vontade de admitir ignorância, francamente – talvez seja o ingrediente mais importante para entender a IA.

Nem sempre tive sucesso nisso. Mas, como repórter, tentei não perder de vista o fato de que meu conhecimento de domínio é insignificante em comparação com os titãs da indústria e da academia. Seja abordando histórias sobre preconceitos em modelos de visão computacional ou o impacto ambiental de sistemas de treinamento de idiomas, é minha política me apoiar em outras pessoas por suas perspectivas de especialistas e apresentar essas perspectivas, levemente editadas, aos leitores. A meu ver, meu trabalho é contextualizar e confiar, não pontificar. Há um lugar para pontificação, mas é em páginas de opinião – não em artigos de notícias.

Aprendi que uma dose saudável de ceticismo também ajuda muito na reportagem sobre IA. Não são apenas os vendedores de óleo de cobra que devem ser cautelosos, mas as corporações com operações de relações públicas bem lubrificadas, lobistas e consultores pagos alegando evitar danos, mas na verdade fazendo o oposto. Perdi a conta do número de conselhos de ética que foram dissolvidos ou provaram ser desdentados; o número de algoritmos prejudiciais foi vendido aos clientes; e várias empresas tentaram silenciar ou reagir contra os denunciantes.

O lado positivo é a crescente percepção dos reguladores do engano da indústria. Mas, como em outros lugares do Vale do Silício, tecno-otimismo revelou-se pouco mais que um instrumento de publicidade.

É fácil se deixar levar pela novidade da nova tecnologia. European fiz uma vez – e ainda faço. O desafio é reconhecer o perigo dessa novidade. me lembrei da novela Quando deixamos de entender o mundo do escritor chileno Benjamín Labatut, que examina grandes descobertas científicas que levaram à prosperidade e ao sofrimento incalculável em partes iguais. Por exemplo, o químico alemão Fritz Haber desenvolveu o processo Haber-Bosch, que sintetiza amônia a partir de gases de nitrogênio e hidrogênio e quase certamente evitou a fome ao permitir a fabricação em massa de fertilizantes. Ao mesmo pace, o processo Haber-Bosch simplificou e barateou a produção de explosivos, contribuindo para milhões de mortes sofridas por soldados durante a Primeira Guerra Mundial.

A IA, como o processo Haber-Bosch, tem potencial para um bem enorme – e bons atores estão tentando desesperadamente concretizar isso. Mas qualquer tecnologia pode ser mal utilizada, e é trabalho dos repórteres descobrir e destacar esses usos indevidos – idealmente para afetar a mudança. É minha esperança que ecu, juntamente com meus distintos colegas da VentureBeat, tenha conseguido isso em alguma pequena parte. Aqui está um futuro de relatórios de IA fortes.

Para cobertura de IA, certifique-se de assinar o Boletim semanal de IA e marque nosso canal de IA, A máquina.

Obrigado por ler,

Kyle Wiggers

Escritor Sênior da Equipe de IA

A missão do VentureBeat é ser uma praça virtual para os tomadores de decisões técnicas adquirirem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Saber mais

[ad_2]

Fonte da Notícia

Publicidade

Etiquetas
compromisso despedida Nvidia uma voz Weekly