O MIT removeu um conjunto de dados que leva a modelos de IA racistas e misóginos

O MIT pediu desculpas e colocou offline um conjunto de dados que treina modelos de IA com tendências misóginas e racistas.

O conjunto de dados em questão é chamado 80 milhões de pequenas imagens e foi criado em 2008. Projetado para treinar IAs para detectar objetos, o conjunto de dados é uma enorme coleção de imagens que são rotuladas individualmente com base no que apresentam.

Os modelos de aprendizado de máquina são treinados usando essas imagens e seus rótulos. Uma imagem de uma rua – quando inserida em uma IA treinada em um conjunto de dados – pode falar sobre coisas que ela contém, como carros, iluminação pública, pedestres e bicicletas.

Dois pesquisadores – Vinay Prabhu, cientista chefe da UnifyID, e Abeba Birhane, candidata a PhD na University College Dublin, na Irlanda – analisaram as imagens e encontraram milhares de etiquetas relacionadas.

O conjunto de treinamento do MIT foi identificado para rotular as mulheres como “cadelas” ou “prostitutas” e pessoas de comunidades BAME com os tipos de termos depreciativos que tenho certeza de que você não precisa que eu escreva. O Register observa que o conjunto de dados também continha imagens em close de órgãos genitais femininos rotulados com a palavra C.

O Register alertou o MIT sobre os problemas encontrados por Prabhu e Birhane com o conjunto de dados e a faculdade prontamente o colocou offline. O MIT deu um passo adiante e instou qualquer pessoa que estivesse usando o conjunto de dados a parar de usá-lo e excluir as cópias.

Uma declaração no site do MIT alega que não tinha conhecimento dos rótulos ofensivos e eles eram “uma conseqüência do procedimento automatizado de coleta de dados que dependia de substantivos do WordNet”.

A declaração continua explicando os 80 milhões de imagens contidas no conjunto de dados, com tamanhos de apenas 32 × 32 pixels, significa que a inspeção manual seria quase impossível e não pode garantir que todas as imagens ofensivas serão removidas.

“Viéses, imagens ofensivas e prejudiciais e terminologia depreciativa alienam uma parte importante da nossa comunidade – precisamente aquelas que estamos fazendo esforços para incluir. Também contribui para preconceitos prejudiciais nos sistemas de IA treinados com esses dados ”, escreveu Antonio Torralba, Rob Fergus e Bill Freeman, do MIT.

“Além disso, a presença de imagens prejudiciais prejudica os esforços para promover uma cultura de inclusão na comunidade de visão computacional. Isso é extremamente infeliz e vai contra os valores que buscamos defender. ”

DEIXE UMA RESPOSTA

Please enter your comment!
Please enter your name here