
IA pode estar usando fotos e documentos de brasileiros sem autorização
IA pode estar usando fotos e documentos de brasileiros sem autorização
Uma investigação recente descobriu que milhões de brasileiros podem ter seus dados pessoais sendo usados para treinar sistemas de inteligência artificial sem qualquer tipo de consentimento. Pesquisadores identificaram a presença de documentos de identidade, cartões de crédito, currículos e até certidões de nascimento no DataComp CommonPool, um dos maiores repositórios de dados usados no desenvolvimento de IAs geradoras de imagens como o Stable Diffusion e o Midjourney.
O CommonPool reúne impressionantes 12,8 bilhões de imagens coletadas automaticamente da internet entre 2014 e 2022. O problema é que, ao vasculhar esse imenso acervo digital, os pesquisadores encontraram um volume alarmante de informações sensíveis que foram raspadas da web sem filtros adequados.
Você também pode gostar dos artigos abaixo:
De acordo com Rachel Hong, doutoranda em ciência da computação pela Universidade de Washington e principal autora do estudo, mais de 800 currículos e cartas de apresentação puderam ser rastreados até perfis reais em plataformas como LinkedIn. Esse número representa apenas uma pequena amostra do que pode existir no banco de dados completo, sugerindo uma escala muito maior do problema.
A gravidade da situação aumenta quando consideramos que, desde seu lançamento em 2023, o CommonPool já foi baixado mais de dois milhões de vezes. Isso significa que existem inúmeros modelos de inteligência artificial pelo mundo todo potencialmente treinados com dados pessoais de brasileiros e cidadãos de outros países.

Brechas legais e falta de proteção
Embora sua criação tenha sido justificada como uma iniciativa acadêmica, a licença do CommonPool não proíbe o uso comercial. Isso abre caminho para que empresas utilizem esse material – incluindo dados pessoais de brasileiros – sem grandes restrições ou compensações aos donos das informações.
O banco foi desenvolvido como sucessor do LAION-5B, outro repositório massivo que serviu de base para treinar ferramentas populares de geração de imagens por inteligência artificial. Ambos se alimentam da mesma fonte: conteúdos extraídos automaticamente da internet pelo projeto Common Crawl, sem discriminação entre o que é público por natureza e o que apenas está acessível online.
A pesquisa faz um alerta direto à comunidade de IA: é urgente repensar a prática generalizada de coletar informações da internet sem critérios rigorosos. Mesmo em países com legislações avançadas de proteção de dados, como o Brasil com a LGPD, existem brechas que permitem que projetos acadêmicos ou dados considerados “publicamente disponíveis” escapem de regulamentações mais rígidas.
Para os brasileiros, isso significa que documentos como RG, CPF, passaportes digitalizados, CNH e até fotos pessoais identificáveis podem estar sendo utilizados para ensinar algoritmos a reconhecer e até reproduzir esse tipo de conteúdo, sem qualquer tipo de consentimento ou compensação.
Os pesquisadores argumentam que a classificação de conteúdos como “publicamente disponíveis” é frequentemente enganosa. Currículos, fotos pessoais, números de documentos e blogs familiares acabam sendo tratados como dados livres, mesmo quando claramente expõem informações privadas que nunca foram disponibilizadas para uso em treinamento de inteligência artificial.
Leave A Comment
You must be logged in to post a comment.