Estudo contundente expõe a abordagem prejudicial do Google ao desenvolvimento de IA
[ad_1]
Um estudo publicado no início desta semana por Surge AI parece revelar um dos maiores problemas que assolam a indústria de IA: besteira, práticas de rotulagem de dados exploratórias.
No ano passado, o Google construiu um conjunto de dados chamado “GoEmotions”. Ele foi anunciado como um “conjunto de dados de emoção refinado” – basicamente um conjunto de dados pronto para treinar para construir IA que pode reconhecer sentimentos emocionais em texto.
Por uma postagem do weblog do Google:
Em “GoEmotions: A Dataset of High-quality-Grained Feelings”, descrevemos o GoEmotions, um conjunto de dados anotado por humanos de 58 mil comentários do Reddit extraídos de subreddits populares em inglês e rotulados com 27 categorias de emoção. Como o maior conjunto de dados detalhados de emoções em inglês totalmente anotado até o momento, projetamos a taxonomia GoEmotions com a psicologia e a aplicabilidade de dados em mente.
Aqui está outra maneira de colocar isso: o Google raspou 58.000 comentários do Reddit e depois enviou esses arquivos para uma empresa terceirizada para rotulagem. Mais sobre isso mais tarde.
O estudo
A Surge AI examinou uma amostra de 1.000 comentários rotulados do conjunto de dados GoEmotions e descobriu que uma parte significativa deles estava rotulada incorretamente.
De acordo com o estudo:
Um colossal 30% do conjunto de dados é severamente rotulado erroneamente! (Tentamos treinar um modelo no conjunto de dados, mas notamos problemas profundos de qualidade. Então, pegamos 1.000 comentários aleatórios, perguntamos aos Surgers se a emoção unique generation razoavelmente precisa e encontramos erros fortes em 308 deles.)
Ele continua apontando alguns dos principais problemas com o conjunto de dados, incluindo este doozy:
Problema nº 1: “Os comentários do Reddit foram apresentados sem metadados adicionais”
Em primeiro lugar, a linguagem não vive no vácuo! Por que você apresentaria um comentário sem metadados adicionais? O subreddit e o submit pai ao qual ele está respondendo são um contexto especialmente importante.
Consider que você veja o comentário “suas armadilhas escondem a porra do sol” sozinho. Você teria alguma ideia do que significa? Provavelmente não – talvez seja por isso que o Google rotulou erroneamente.
Mas e se lhe dissessem que veio do subreddit /r/nattyorjuice dedicado ao fisiculturismo? Você perceberia, então, que armadilhas se referem aos músculos trapézios de alguém?
O problema
Esse tipo de dado não pode ser rotulado corretamente. Usando o comentário acima “suas armadilhas escondem a porra do sol” como exemplo, é impossível imaginar uma única pessoa no planeta capaz de entender todos os casos extremos quando se trata de sentimento humano.
Não é que os rotuladores em specific não tenham feito um bom trabalho, é que eles receberam uma tarefa impossível.
Não há atalhos para obter insights sobre as comunicações humanas. Não somos estúpidos como as máquinas. Podemos incorporar todo o nosso ambiente e história vivida no contexto de nossas comunicações e, por meio da expressão mais mansa de nossa compreensão magistral da manipulação semântica, transformar o absurdo em filosofia (coisas acontecem) ou transformar uma declaração verdadeiramente mundana no ultimate de uma piada sem idade. (Para chegar ao outro lado).
O que esses pesquisadores do Google fizeram foi gastar quem sabe quanto pace e dinheiro desenvolvendo uma versão virtual ruim de uma Bola 8 Mágica. Às vezes está certo, às vezes está errado, e não há como ter certeza de uma forma ou de outra.
Esse tipo específico de desenvolvimento de IA é uma fraude. Isto é um golpe. E é um dos mais antigos do livro.
Veja como funciona: os pesquisadores pegaram um problema impossível, “como determinar o sentimento humano em texto em escalas massivas sem contexto”, e usaram a magia da besteira para transformá-lo em um problema relativamente simples que qualquer IA pode resolver “como combinar palavras-chave para rótulos.”
A razão pela qual é uma fraude é porque você não precisa de IA para corresponder palavras-chave a rótulos. Inferno, você poderia fazer isso no Microsoft Excel 20 anos atrás.
Um pouco mais profundo
Você sabe que o conjunto de dados em que a IA foi treinada contém dados rotulados incorretamente. Assim, a única maneira de você ter certeza absoluta de que um determinado resultado retornado é preciso é verificar você mesmo – você precisa ser o chamado humano no circuito. Mas e todos os resultados que não retorna que deveria?
Não estamos tentando encontrar todos os carros vermelhos em um conjunto de dados de imagens de automóveis. Estamos fazendo determinações sobre os seres humanos.
Se a IA errar e perder alguns carros vermelhos, é improvável que esses carros sofram resultados negativos. E se acidentalmente rotular alguns carros azuis como vermelhos, esses carros azuis devem ficar bem.
Mas esse conjunto de dados específico é construído especificamente para a tomada de decisões relacionadas a resultados humanos.
Por Google:
Tem sido um objetivo de longo prazo entre a comunidade de pesquisa permitir que as máquinas entendam o contexto e a emoção, o que, por sua vez, permitiria uma variedade de aplicativos, incluindo chatbots empáticos, modelos para detectar comportamentos on-line prejudiciais e interações aprimoradas de suporte ao cliente.
Mais uma vez, sabemos que qualquer modelo de IA treinado nesse conjunto de dados produzirá saídas errôneas. Isso significa que toda vez que a IA toma uma decisão que recompensa ou pune qualquer humano, causa danos demonstráveis a outros humanos.
Se a saída da IA pode ser usada para influenciar as recompensas humanas – por exemplo, apresentando todos os currículos em uma pilha que tenham “sentimento positivo” neles – temos que assumir que alguns dos arquivos que não vieram à tona foram discriminados injustamente contra.
Isso é algo que os humanos no circuito não podem ajudar. Exigiria que uma pessoa revisasse cada arquivo que não generation selecionado.
E, se a IA tem a capacidade de influenciar castigos — ao, por exemplo, retirar do ar um conteúdo que considera “discurso de ódio” — podemos ter certeza de que sentimentos que objetivamente não merecem punição serão erroneamente à tona e, assim, os humanos serão prejudicados.
Pior de todos, estudo após estudo demonstra que esses sistemas são inerentemente cheios de preconceitos humanos e que os grupos minoritários são sempre desproporcionalmente impactados negativamente.
A solução
Só há uma maneira de consertar esse tipo de pesquisa: jogá-la no lixo.
É nossa posição aqui na Neural que é totalmente antiético treinar uma IA em conteúdo criado por humanos sem o consentimento particular person expresso dos humanos que o criaram.
Se é criminal fazê-lo ou não, é irrelevante. Quando publico no Reddit, faço-o na boa fé de que meu discurso é destinado a outros humanos. O Google não me compensa pelos meus dados, por isso não deve usá-los, mesmo que os termos de serviço o permitam.
Além disso, também é nossa opinião que não é ético implantar modelos de IA treinados em dados que não foram verificados como livres de erros quando a saída desses modelos tem o potencial de afetar os resultados humanos.
Pensamentos finais
Os pesquisadores do Google não são estúpidos. Eles sabem que um algoritmo genérico de “pesquisa e comparação de palavras-chave” não pode transformar um modelo de IA em um especialista em nível humano em psicologia, sociologia, cultura pop e semântica apenas porque o alimentam com um conjunto de dados cheio de postagens do Reddit rotuladas aleatoriamente .
Você pode tirar suas próprias conclusões sobre suas motivações.
Mas nenhuma quantidade de talento e tecnologia pode transformar um saco cheio de besteira em um modelo útil de IA quando os resultados humanos estão em jogo.
[ad_2]
Fonte da Notícia: thenextweb.com