Combinar visão e linguagem pode ser a chave para uma IA mais capaz – TechCrunch

Osmar Queiroz10/04/2022

4 minutos de leitura

[ad_1]

Dependendo da teoria de inteligência que você adota, alcançar a IA de “nível humano” exigirá um sistema que possa alavancar várias modalidades – por exemplo, som, visão e texto – para raciocinar sobre o mundo. Por exemplo, quando mostrada uma imagem de um caminhão tombado e um carro da polícia em uma rodovia com neve, uma IA de nível humano pode inferir que condições perigosas da estrada causaram um acidente. Ou, correndo em um robô, quando solicitados a pegar uma lata de refrigerante da geladeira, eles navegavam entre pessoas, móveis e animais de estimação para recuperar a lata e colocá-la ao alcance do solicitante.

A IA de hoje fica aquém. Mas novas pesquisas mostram sinais de progresso encorajador, desde robôs que podem descobrir passos para satisfazer comandos básicos (por exemplo, “pegue uma garrafa de água”) a sistemas de produção de texto que aprendem com explicações. Nesta edição revivida da Deep Science, nossa série semanal sobre os mais recentes desenvolvimentos em IA e o campo científico mais amplo, estamos cobrindo o trabalho da DeepMind, Google e OpenAI que avança em direção a sistemas que podem – se não entender perfeitamente o mundo – resolva tarefas restritas como gerar imagens com robustez impressionante.

Laboratório de pesquisa de IA O DALL-E aprimorado da OpenAI, DALL-E 2, é facilmente o projeto mais impressionante que surgiu das profundezas de um laboratório de pesquisa de IA. Como meu colega Devin Coldewey escreve, enquanto o DALL-E authentic demonstrou uma habilidade notável para criar imagens para corresponder a praticamente qualquer solicitação (por exemplo, “um cachorro usando uma boina”), o DALL-E 2 leva isso adiante. As imagens que ele produz são muito mais detalhadas, e o DALL-E 2 pode substituir de forma inteligente uma determinada área em uma imagem – por exemplo, inserindo uma mesa em uma foto de um piso de mármore repleto de reflexos apropriados.

Um exemplo dos tipos de imagens que o DALL-E 2 pode gerar.

DALL-E 2 recebeu a maior parte da atenção esta semana. Mas na quinta-feira, pesquisadores do Google detalharam um sistema de compreensão visible igualmente impressionante chamado Visually-Pushed Prosody for Textual content-to-Speech – VDTTS — em um publish publicado no weblog de IA do Google. O VDTTS pode gerar fala com sincronia labial com som realista, com nada mais do que quadros de texto e vídeo da pessoa que está falando.

O discurso gerado pelo VDTTS, embora não seja um substituto perfeito para o diálogo gravado, ainda é muito bom, com expressividade e pace convincentemente semelhantes aos humanos. O Google o vê um dia sendo usado em um estúdio para substituir o áudio authentic que pode ter sido gravado em condições barulhentas.

É claro que a compreensão visible é apenas um passo no caminho para uma IA mais capaz. Outro componente é a compreensão da linguagem, que fica para trás em muitos aspectos – mesmo deixando de lado a IA bem documentado toxicidade e viés questões. Em um exemplo gritante, um sistema de ponta do Google, Pathways Language Fashion (PaLM), memorizou 40% dos dados que foram usados para “treiná-lo”, de acordo com um artigo, resultando no PaLM plagiando texto até avisos de direitos autorais em partes de codigo.

Felizmente, o DeepMind, o laboratório de IA apoiado pela Alphabet, está entre os que exploram técnicas para resolver isso. Em um novo estudaros pesquisadores da DeepMind investigam se os sistemas de linguagem de IA – que aprendem a gerar texto a partir de muitos exemplos de texto existente (pense em livros e mídias sociais) – poderiam se beneficiar ao receber explicações desses textos. Depois de anotar dezenas de tarefas de linguagem (por exemplo, “Responda a essas perguntas identificando se a segunda frase é uma paráfrase apropriada da primeira, frase metafórica”) com explicações (por exemplo, “os olhos de David não eram literalmente punhais, é uma metáfora usada para implicam que David estava olhando ferozmente para Paul.”) e avaliando o desempenho de diferentes sistemas neles, a equipe do DeepMind descobriu que os exemplos realmente melhoram o desempenho dos sistemas.

A abordagem da DeepMind, se for aprovada na comunidade acadêmica, poderá um dia ser aplicada em robótica, formando os blocos de construção de um robô que pode entender solicitações vagas (por exemplo, “jogar fora o lixo”) sem instruções passo a passo. O novo “Faça o que european posso, não o que european digo” dá um vislumbre desse futuro – embora com limitações significativas.

Uma colaboração entre Robotics no Google e a equipe On a regular basis Robotics no laboratório X da Alphabet, Do As I Can, No longer As I Say busca condicionar um sistema de linguagem de IA para propor ações “viáveis” e “contextualmente apropriadas” para um robô, dada uma escolha arbitrária tarefa. O robô atua como as “mãos e olhos” do sistema de linguagem enquanto o sistema fornece conhecimento semântico de alto nível sobre a tarefa – a teoria é que o sistema de linguagem codifica uma riqueza de conhecimento útil para o robô.

Créditos da imagem: Robótica no Google

Um sistema chamado SayCan seleciona qual habilidade o robô deve executar em resposta a um comando, considerando (1) a probabilidade de uma determinada habilidade ser útil e (2) a possibilidade de executar com sucesso tal habilidade. Por exemplo, em resposta a alguém dizendo “European derramei minha coca, você pode me trazer algo para limpar?”, SayCan pode direcionar o robô para encontrar uma esponja, pegar a esponja e trazê-la para a pessoa que pediu. isto.

O SayCan é limitado pelo {hardware} robótico – em mais de uma ocasião, a equipe de pesquisa observou o robô que eles escolheram para conduzir experimentos derrubando objetos acidentalmente. Ainda assim, junto com o trabalho de DALL-E 2 e DeepMind na compreensão contextual, é uma ilustração de como os sistemas de IA, quando combinados, podem nos aproximar muito mais de um Tipo Jetsons futuro.

[ad_2]

Fonte da Notícia

Etiquetas