Allen Institute lança novo benchmark para modelos de visão computacional de uso geral

Osmar Queiroz27/05/2022

4 minutos de leitura

[ad_1]

Não há nada como um bom benchmark para ajudar a motivar o visão computacional campo.

É por isso que uma das equipes de pesquisa do Allen Institute for AI, também conhecido como AI2, trabalhou recentemente em conjunto com a Universidade de Illinois em Urbana-Champaign para desenvolver um novo benchmark unificador chamado GRIT (Normal Powerful Symbol Activity) para modelos de visão computacional de uso geral. O objetivo deles é ajudar IA os desenvolvedores constroem a próxima geração de programas de visão computacional que podem ser aplicados a uma série de tarefas generalizadas – um desafio especialmente complexo.

“Discutimos, semanalmente, a necessidade de criar sistemas de visão computacional mais gerais que sejam capazes de resolver uma série de tarefas e possam generalizar de maneiras que os sistemas atuais não podem”, disse Derek Hoiem, professor de ciência da computação da Universidade de Illinois em Urbana-Champaign. “Percebemos que um dos desafios é que não há uma boa maneira de avaliar os recursos gerais de visão de um sistema. Todos os benchmarks atuais são configurados para avaliar sistemas que foram treinados especificamente para esse benchmark.”

O que os modelos gerais de visão computacional precisam ser capazes de fazer

De acordo com Tanmay Gupta, que ingressou na AI2 como cientista de pesquisa após receber seu Ph.D. da Universidade de Illinois em Urbana-Champaign, disse que houve outros esforços para tentar construir modelos multitarefa que podem fazer mais de uma coisa – mas um modelo de propósito geral requer mais do que apenas ser capaz de fazer três ou quatro tarefas diferentes.

“Muitas vezes você não saberia com antecedência quais são todas as tarefas que o sistema seria obrigado a fazer no futuro”, disse ele. “Queríamos fazer a arquitetura do modelo de tal forma que qualquer pessoa de uma formação diferente pudesse emitir instruções em linguagem herbal para o sistema.”

Por exemplo, ele explicou, alguém poderia dizer “descreva a imagem” ou dizer “encontre o cachorro marrom” e o sistema poderia executar essa instrução e retornar uma caixa delimitadora – um retângulo ao redor do cachorro ao qual você está se referindo – ou devolva uma legenda dizendo ‘há um cachorro marrom brincando em um campo verde.’ Então, esse foi o desafio, construir um sistema que possa executar instruções, incluindo instruções que ele nunca viu antes e fazê-lo para uma ampla gama de tarefas que englobam segmentação ou caixas delimitadoras ou legendas, ou responder a perguntas”, disse ele. .

O benchmark GRIT, continuou Gupta, é apenas uma maneira de avaliar esses recursos de forma que o sistema possa ser avaliado quanto à robustez às distorções nas imagens e à generalidade em diferentes fontes de dados. “Isso get to the bottom of o problema não apenas para um ou dois ou dez ou vinte conceitos diferentes, mas para milhares de conceitos?” ele disse.

Os benchmarks serviram como drivers para a pesquisa de visão computacional

Os benchmarks têm sido um grande impulsionador de visão computacional pesquisa desde os primórdios, disse Hoiem. “Quando um novo benchmark é criado, se for bem orientado para avaliar os tipos de pesquisa em que as pessoas estão interessadas, isso realmente facilita essa pesquisa, tornando muito mais fácil comparar o progresso e avaliar as inovações sem precisar reimplementar algoritmos, o que leva muito pace”, disse.

A visão computacional e a IA fizeram muito progresso genuíno na última década, acrescentou. “Você pode ver isso em smartphones, assistência domiciliar e sistemas de segurança veicular, com a IA circulando de maneiras que não eram o caso dez anos atrás”, disse ele. “Costumávamos ir a conferências de visão computacional e as pessoas perguntavam ‘O que há de novo?’ e dizíamos: ‘Ainda não está funcionando’ – mas agora as coisas estão começando a funcionar.”

A desvantagem, no entanto, é que os sistemas de visão computacional existentes são normalmente projetados e treinados para realizar apenas tarefas específicas. “Por exemplo, você pode fazer um sistema que pode colocar caixas em torno de veículos, pessoas e bicicletas para um aplicativo de direção, mas se você quiser também colocar caixas em torno de motocicletas, você teria que mudar o código e a arquitetura e retreiná-lo. .”

Os pesquisadores do GRIT queriam descobrir como construir sistemas mais parecidos com pessoas, no sentido de que eles pudessem aprender a fazer uma série de diferentes tipos de testes. “Não precisamos mudar nossos corpos para aprender a fazer coisas novas”, disse ele. “Queremos esse tipo de generalidade na IA, onde você não precisa mudar a arquitetura, mas o sistema pode fazer muitas coisas diferentes.”

Benchmark vai avançar no campo da visão computacional

A grande comunidade de pesquisa de visão computacional, na qual dezenas de milhares de artigos são publicados a cada ano, tem visto uma quantidade crescente de trabalho para tornar os sistemas de visão mais gerais, acrescentou, incluindo diferentes pessoas relatando números no mesmo benchmark.

Os pesquisadores disseram que o benchmark GRIT fará parte de um workshop Open Global Imaginative and prescient na Conferência de Visão Computacional e Reconhecimento de Padrões de 2022 em 19 de junho. referência”, disse Gupta. “Esperamos que no próximo ano veremos uma quantidade significativa de trabalho nessa direção e um pouco de melhoria de desempenho de onde estamos hoje.”

Devido ao crescimento da comunidade de visão computacional, há muitos pesquisadores e indústrias que querem avançar no campo, disse Hoiem.

“Eles estão sempre procurando novos benchmarks e novos problemas para trabalhar”, disse ele. “Uma boa referência pode mudar um grande foco do campo, então este é um ótimo native para estabelecer esse desafio e ajudar a motivar o campo, a construir nessa nova e empolgante direção.”

[ad_2]

Fonte da Notícia

Etiquetas