É terrivelmente fácil para os repórteres explorarem os algoritmos de notícias do Google

Osmar Queiroz24/02/2022

8 minutos de leitura

[ad_1]

Passei os últimos oito meses transformando o Google Notícias em meu playground pessoal. Ecu manipulei o algoritmo e fiz com que minhas histórias fossem relevantes para tópicos específicos ou não. Isto é um grande problema.

Sou um repórter common — um escritor. Não tenho habilidades de programação ou educação formal em ciência da computação.

O Google é indiscutivelmente o mais avançado tecnologicamente IA empresa no Vale do Silício. Também vale mais de dois trilhões de dólares.

O Google Notícias atinge quase 300 milhões de usuários. E consegui manipular seus algoritmos alterando uma única palavra em uma página da internet. Assustador não é?

Temos de agradecer a “aprendizagem por reforço” (RL) por este pesadelo em explicit.

Estúpido dentro, estúpido fora

Como Thomas Macaulay da Neural escreveu recentemente:

[The reinforcement learning] A técnica fornece comments na forma de uma “recompensa” – um número positivo que informa a um algoritmo que a ação que ele acabou de realizar beneficiará seu objetivo.

Parece bastante simples. É uma ideia que funciona com crianças (você pode sair e brincar depois de terminar suas tarefas) e animais (doguinho faz uma travessura, doguinho ganha uma guloseima).

Vamos usar o Netflix como exemplo. Se você assistir O Karatê Childhá uma boa probability de o algoritmo recomendar Cobra Kai. E se 10 milhões de pessoas assistirem O Rei Tigrehá uma boa probability de você receber uma recomendação para ele, mesmo que não tenha assistido a títulos relacionados.

Mesmo que você nunca aceite uma das sugestões do algoritmo, ele continuará apresentando resultados porque não tem escolha.

A IA foi projetada para buscar recompensas e só pode ser recompensada se fizer uma recomendação.

E isso é algo que podemos explorar.

Os dados que alimentam os algoritmos da Netflix vêm de seus usuários. Somos diretamente responsáveis pelo que o algoritmo recomenda. Assim, hipoteticamente falando, seria trivial explorar o sistema de recomendação da Netflix.

Se, por exemplo, você quiser aumentar o número overall de recomendações que um conteúdo específico recebeu do algoritmo, tudo o que você precisa fazer é se inscrever em uma quantidade X de contas Netflix e assistir a esse conteúdo até que o algoritmo seja escolhido o tráfego, onde X é o número necessário para mover a agulha.

Obviamente é um pouco mais complicado do que isso. E há salvaguardas que a Netflix pode implementar para mitigar essas ameaças, como aumentar o peso dos dados para contas mais antigas e limitar a influência daqueles que não atendem a um limite mínimo de horas de exibição.

No ultimate das contas, esse não é um problema significativo para a Netflix, porque todo conteúdo da plataforma precisa ser aprovado explicitamente. Ao contrário do Google Notícias, a Netflix não obtém conteúdo da Web.

É o mesmo com o Spotify. Poderíamos se inscrever para 10 milhões de contas gratuitas, mas isso levaria uma eternidade e ainda estaríamos apenas aumentando os fluxos para um artista que já foi curado na plataforma por humanos.

Mas o algoritmo do Google Notícias é diferente. Ele não apenas obtém conteúdo da Web e o agrega com base na popularidade, mas também obtém dados importantes de jornalistas como european.

Como european explorei os algoritmos de notícias do Google para exibir meu próprio conteúdo

Último Junho, european escrevi sobre um efeito estranho que meu perfil de autor do TNW teve nas histórias que o Google Information apareceu para a string de pesquisa “synthetic intelligence queer”.

Como um dos poucos editores queer do mundo encarregado de a seção de IA em um grande veículo de notícias de tecnologia, a interseção de tecnologias de inteligência synthetic e questões de diversidade é um native de grande interesse para mim.

Os tópicos de IA e LGBTQ + também eram uma combinação well-liked para os repórteres de tecnologia cobrirem na época, porque junho é o mês do orgulho.

Fiquei chocado ao descobrir que um número desproporcional de artigos que escrevi apareceu nos resultados da pesquisa.