TECNOLOGIA

BLOOM: Por dentro do novo projeto radical para democratizar a IA

BLOOM: Por dentro do novo projeto radical para democratizar a IA

[ad_1]

Mas o modelo do Meta está disponível apenas mediante solicitação e possui uma licença que limita seu uso para fins de pesquisa. Hugging Face vai um passo além. o Encontros detalhando seu trabalho ao longo do ano passado são gravados e enviados online, e qualquer pessoa pode baixar o modelo gratuitamente e usá-lo para pesquisa ou para construir aplicativos comerciais.



Um grande foco da BigScience foi incorporar considerações éticas no modelo desde o início, em vez de tratá-las como uma reflexão tardia. Os LLMs são treinados em toneladas de dados coletados por raspagem da Web. Isso pode ser problemático, porque esses conjuntos de dados incluem muitas informações pessoais e geralmente refletem vieses perigosos. O grupo desenvolveu estruturas de governança de dados especificamente para LLMs que devem deixar mais claro quais dados estão sendo usados ​​e a quem pertencem, e originou diferentes conjuntos de dados de todo o mundo que não estavam prontamente disponíveis on-line.

O grupo também está lançando um novo Licença de IA responsável, que é algo como um contrato de termos de serviço. Ele foi projetado para impedir o uso do BLOOM em setores de alto risco, como aplicação da lei ou assistência médica, ou para prejudicar, enganar, explorar ou se passar por pessoas. A licença é um experimento de auto-regulação de LLMs antes que as leis se atualizem, diz Danish Contractor, pesquisador de IA que se voluntariou no projeto e co-criou a licença. Mas, em última análise, não há nada que impeça alguém de abusar do BLOOM.

O projeto teve suas próprias diretrizes éticas desde o início, que funcionaram como princípios norteadores para o desenvolvimento do modelo, diz Giada Pistilli, eticista da Hugging Face, que elaborou Carta ética da BLOOM. Por exemplo, fez questão de recrutar voluntários de diversas origens e locais, garantindo que pessoas de fora possam reproduzir facilmente as descobertas do projeto e divulgando seus resultados abertamente.

Todos a bordo

Essa filosofia se traduz em uma grande diferença entre o BLOOM e outros LLMs disponíveis hoje: o grande número de linguagens humanas que o modelo pode entender. Ele pode lidar com 46 deles, incluindo francês, vietnamita, mandarim, indonésio, catalão, 13 idiomas índicos (como hindi) e 20 idiomas africanos. Pouco mais de 30% de seus dados de treinamento estavam em inglês. O modelo também entende 13 linguagens de programação.

Isso é altamente incomum no mundo dos grandes modelos de linguagem, onde o inglês domina. Essa é outra consequência do fato de que os LLMs são construídos a partir da extração de dados da web: o inglês é o idioma mais usado on-line.

A razão pela qual o BLOOM conseguiu melhorar essa situação é que a equipe reuniu voluntários de todo o mundo para construir conjuntos de dados adequados em outros idiomas, mesmo que esses idiomas não estivessem tão bem representados on-line. Por exemplo, a Hugging Face organizou workshops com pesquisadores africanos de IA para tentar encontrar conjuntos de dados, como registros de autoridades locais ou universidades, que poderiam ser usados ​​para treinar o modelo em línguas africanas, diz Chris Emezue, estagiário da Hugging Face e pesquisador da Masakhane , uma organização que trabalha no processamento de linguagem herbal para línguas africanas.

[ad_2]

Fonte da Notícia: www.technologyreview.com

Artigos relacionados

Botão Voltar ao topo