IA pode estar usando fotos e documentos de brasileiros sem autorização

28 de julho de 2025 by: Jean Pierre Borges de Sousa in: Computadores No Comment

Uma investigação recente descobriu que milhões de brasileiros podem ter seus dados pessoais sendo usados para treinar sistemas de inteligência artificial sem qualquer tipo de consentimento. Pesquisadores identificaram a presença de documentos de identidade, cartões de crédito, currículos e até certidões de nascimento no DataComp CommonPool, um dos maiores repositórios de dados usados no desenvolvimento de IAs geradoras de imagens como o Stable Diffusion e o Midjourney.

O CommonPool reúne impressionantes 12,8 bilhões de imagens coletadas automaticamente da internet entre 2014 e 2022. O problema é que, ao vasculhar esse imenso acervo digital, os pesquisadores encontraram um volume alarmante de informações sensíveis que foram raspadas da web sem filtros adequados.

Você também pode gostar dos artigos abaixo:

De acordo com Rachel Hong, doutoranda em ciência da computação pela Universidade de Washington e principal autora do estudo, mais de 800 currículos e cartas de apresentação puderam ser rastreados até perfis reais em plataformas como LinkedIn. Esse número representa apenas uma pequena amostra do que pode existir no banco de dados completo, sugerindo uma escala muito maior do problema.

A gravidade da situação aumenta quando consideramos que, desde seu lançamento em 2023, o CommonPool já foi baixado mais de dois milhões de vezes. Isso significa que existem inúmeros modelos de inteligência artificial pelo mundo todo potencialmente treinados com dados pessoais de brasileiros e cidadãos de outros países.

Visualização conceitual de um banco de dados massivo com documentos e dados pessoais sendo processados — O DataComp CommonPool contém bilhões de imagens coletadas sem filtros adequados, incluindo documentos pessoais de brasileiros que podem ser explorados comercialmente

Brechas legais e falta de proteção

Embora sua criação tenha sido justificada como uma iniciativa acadêmica, a licença do CommonPool não proíbe o uso comercial. Isso abre caminho para que empresas utilizem esse material – incluindo dados pessoais de brasileiros – sem grandes restrições ou compensações aos donos das informações.

O banco foi desenvolvido como sucessor do LAION-5B, outro repositório massivo que serviu de base para treinar ferramentas populares de geração de imagens por inteligência artificial. Ambos se alimentam da mesma fonte: conteúdos extraídos automaticamente da internet pelo projeto Common Crawl, sem discriminação entre o que é público por natureza e o que apenas está acessível online.

A pesquisa faz um alerta direto à comunidade de IA: é urgente repensar a prática generalizada de coletar informações da internet sem critérios rigorosos. Mesmo em países com legislações avançadas de proteção de dados, como o Brasil com a LGPD, existem brechas que permitem que projetos acadêmicos ou dados considerados “publicamente disponíveis” escapem de regulamentações mais rígidas.

Para os brasileiros, isso significa que documentos como RG, CPF, passaportes digitalizados, CNH e até fotos pessoais identificáveis podem estar sendo utilizados para ensinar algoritmos a reconhecer e até reproduzir esse tipo de conteúdo, sem qualquer tipo de consentimento ou compensação.

Os pesquisadores argumentam que a classificação de conteúdos como “publicamente disponíveis” é frequentemente enganosa. Currículos, fotos pessoais, números de documentos e blogs familiares acabam sendo tratados como dados livres, mesmo quando claramente expõem informações privadas que nunca foram disponibilizadas para uso em treinamento de inteligência artificial.

IA pode estar usando fotos e documentos de brasileiros sem autorização

Você também pode gostar dos artigos abaixo:

Brechas legais e falta de proteção

Leave A Comment Cancel

Posts recentes

Comentários

Arquivos