O Amazonas Atual utiliza cookies e tecnologias semelhantes, como explicado em nossa Política de Privacidade, para recomendar conteúdo e publicidade. Ao navegar por nosso conteúdo, o usuário aceita tais condições.
Confirmo
AMAZONAS ATUAL
Aa
  • Inicial
  • Política
  • Economia
  • Dia a Dia
  • Esporte
  • Polícia
  • Expressão
  • TV Atual
  • Lezera Pura
  • Serviços
  • Variedades
  • Saúde
  • Negócios
  • Tecnologia
  • Colunistas
    • Augusto Barreto Rocha
    • Cleber Oliveira
    • Fatima Guedes
    • José Ricardo
    • Márcia Oliveira
    • Sandoval Alves Rocha
    • Sérgio Augusto Costa
    • Tiago Paiva
    • Valmir Lima
  • Quem Somos
Aa
AMAZONAS ATUAL
  • Inicial
  • Política
  • Economia
  • Dia a Dia
  • Esporte
  • Polícia
  • Expressão
  • TV Atual
  • Lezera Pura
  • Serviços
  • Variedades
  • Saúde
  • Negócios
  • Tecnologia
  • Colunistas
  • Quem Somos
Pesquisar
  • Inicial
  • Política
  • Economia
  • Dia a Dia
  • Esporte
  • Polícia
  • Expressão
  • TV Atual
  • Lezera Pura
  • Serviços
  • Variedades
  • Saúde
  • Negócios
  • Tecnologia
  • Colunistas
    • Augusto Barreto Rocha
    • Cleber Oliveira
    • Fatima Guedes
    • José Ricardo
    • Márcia Oliveira
    • Sandoval Alves Rocha
    • Sérgio Augusto Costa
    • Tiago Paiva
    • Valmir Lima
  • Quem Somos
Siga-nos
  • Inicial
  • Política
  • Economia
  • Dia a Dia
  • Esporte
  • Polícia
  • Expressão
  • TV Atual
  • Lezera Pura
  • Serviços
  • Variedades
  • Saúde
  • Negócios
  • Tecnologia
  • Colunistas
  • Quem Somos
© 2022 Amazonas Atual
Tecnologia

Google e Meta usaram IA com conteúdo pirata e extremistas, diz jornal

25 de abril de 2023 Tecnologia
Compartilhar
Sede da empresa Google (Foto: Reprodução/Facebook)
Sede do Google: The Washington Post divulga reportagem sobre criação de IA da empresa (Foto: Reprodução/Facebook)
Da Folhapress

SÃO PAULO – Uma investigação feita pelo jornal The Washington Post mostrou que a base de dados do Google usada no treinamento de modelos de inteligência artificial (IA) da própria empresa e de outras gigantes da tecnologia, como a Meta, continha arquivos piratas, sites pornográficos e fóruns extremistas.

O jornal americano destrinchou o arquivo chamado de C4, que tem conteúdos de 15 milhões de sites da internet aberta.

Com ajuda do Instituto Allen para Pesquisa em IA, o Post cruzou os dados com informações da plataforma de monitoramento da internet Similar Web para separar os links encontrados em categorias, como negócios, imprensa e cultura. Cerca de 5 milhões de endereços foram descartados da base por não estarem mais listados na internet.

A investigação encontrou fontes óbvias como a Wikipedia e a versão online de alguns dos principais meios jornalísticos ao redor do mundo.

No entanto, também identificou ao menos 28 sites retirados do ar pelo Departamento de Justiça dos Estados Unidos por infringir leis de propriedade intelectual – a biblioteca pirata b-ok.org ficou em 190º lugar na lista de importância entre as 10 milhões de referências.

Além de endereços que armazenavam material pirateado, sites pornográficos e fóruns extremistas também serviram de referência para a construção da C4, embora seus desenvolvedores afirmem que usaram filtros para retirar conteúdo ofensivo.

O Google foi procurado pela reportagem desde a terça-feira (18), por email e telefone, mas não respondeu ao pedido de informação da reportagem até a publicação deste texto. Na mesma data, a Meta também foi questionada e não se pronunciou.

A reportagem do Washington Post ainda encontrou dados de votação de eleitores do Colorado (40º lugar) e da Florida (73º lugar). Esses dados são públicos, mas sob tratamento malicioso podem representar risco aos portadores, e desrespeitar leis de proteção de dados pessoais nos EUA e no Brasil.

O treinamento de inteligências artificiais inclui diversas fontes como a C4. No desenvolvimento do GPT-3, tecnologia fundamental no desenvolvimento da IA geradora de texto ChatGPT, a startup OpenAI usou 40 vezes mais dados do que o disponível na base de dados do Google.

A OpenAI não revelou a quantidade de dados usada para treinar o GPT-4, modelo de inteligência artificial mais recente da startup, que tem apoio da Microsoft. O público está às escuras sobre as fontes usadas para treinar a tecnologia de mais sucesso entre as IAs geradoras.

Jornais, artistas e escritores têm contestado o uso sem consentimento de suas obras para treinar modelos de inteligência artificial. A emissora de jornalismo CNN e o jornal The Wall Street Journal publicaram artigos em defesa do pagamento de direitos autorais para desenvolver essa tecnologia.

A principal fonte do C4 é o repositório do Google de patentes solicitadas ao redor do mundo – Google Patents.

A base também armazena dados de 500 mil blogs pessoais e de campanhas de financiamento publicadas em sites de vaquinha, como Kickstarter e Patreon. Esses materiais podem tornar a IA mais eficiente em escrever textos publicitários, área em que já vem sendo aplicada.

Notícias relacionadas

Justiça manda remover publicações contra senador Magno Malta produzidas com IA

Agência Lupa identifica indícios de IA em foto de Flávio Bolsonaro com Trump

Comissão vai monitorar uso de IA nas eleições para combater desinformação

Eve conclui testes de protótipo do carro voador para voos de transição

Diabetes afeta bem-estar emocional de pacientes, que relatam ansiedade e solidão

Assuntos Google, inteligência artificial, meta
Cleber Oliveira 25 de abril de 2023
Compartilhe
Facebook Twitter Pinterest Whatsapp Whatsapp LinkedIn Telegram Email Copy Link Print
Deixe um comentário

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Leia também

Magno Malta se irritou por não ter cartaz exibido pela TV Senado (Foto: Moreira Mariz/Ag. Senado)
Política

Justiça manda remover publicações contra senador Magno Malta produzidas com IA

2 de junho de 2026
Política

Agência Lupa identifica indícios de IA em foto de Flávio Bolsonaro com Trump

27 de maio de 2026
Hackers roubam dados de empresas, criptografam e depois pedem dinheiro para liberar (Foto: Unplash+/Divulgação)
Política

Comissão vai monitorar uso de IA nas eleições para combater desinformação

26 de maio de 2026
Diabetes tipo 1
Saúde

Diabetes afeta bem-estar emocional de pacientes, que relatam ansiedade e solidão

21 de maio de 2026

@ Amazonas Atual

  • Inicial
  • Política
  • Economia
  • Dia a Dia
  • Esporte
  • Polícia
  • Expressão
  • TV Atual
  • Lezera Pura
  • Serviços
  • Variedades
  • Saúde
  • Negócios
  • Tecnologia
  • Colunistas
  • Quem Somos

Welcome Back!

Sign in to your account

Lost your password?