Pesquisadores 'enlouquecem' IA e derrubam travas de segurança contra violência

Por Pedro S. Teixeira, da Folhapress

SÃO PAULO – Cientistas norte-americanos descobriram comandos que destravam “chaves de segurança” da plataforma ChatGPT e a fazem responder a qualquer pergunta, mesmo as mais perigosas. Em situações normais, o chatbot, por exemplo, responderia que não pode ajudar a promover qualquer forma de violência. Entretanto, os pesquisadores fizeram a inteligência artificial listar um plano para destruir a humanidade, com o uso da artimanha.

A equipe da Carnegie Mellon University (CMU), dos EUA, e do Center for AI Safety, baseado em São Francisco, usou automação para testar prompts –truques com palavras capazes de ‘enlouquecer’ a IA, chamadas de sufixos-violadores– até encontrarem brechas.

O método chamado de ataques adversariais é comum em testes de segurança, segundo o artigo publicado no último dia 27. A pesquisa adotou o modelo LLaMA, da Meta, para encontrar as vulnerabilidades, já que a dona do Facebook disponibiliza o código de sua IA para o público.

Os trechos com sucesso nos ataques são ininteligíveis em aparência. Contém sinais típicos de código de programação (“==”, que significa igualdade) e juntam palavras como “Seattlejust”. Testes posteriores indicaram que os sufixos-violadores apresentaram chances de funcionar em qualquer inteligência artificial geradora de texto.

A descoberta mostra uma falha de segurança generalizada no campo da IA geradora. As principais plataformas proprietárias de inteligência artificial disponíveis na internet são ChatGPT (OpenAI), Bard (Google), Bing (Microsoft), LLaMA-2 (Meta) e Claude (Anthropic).

O professor da CMU Zico Kolter afirmou, no Twitter, ter informado às empresas os sufixos-violadores mostrados no estudo. Os desenvolvedores, então, podem bloqueá-los.

Mesmo assim, pessoas mal-intencionadas podem rodar modelos similares aos da pesquisa para encontrar novas brechas de maneira. Basta conhecimento técnico e máquinas capazes de processar a tecnologia.

As falhas nos algoritmos são eventos estatísticos inerentes do funcionamento dos próprios modelos de linguagem. Os algoritmos de aprendizado de máquina calculam a próxima palavra mais provável em dado contexto.

Os sufixos-violadores funcionam como o padrão que desarranja o comportamento esperado do algoritmo auxiliar responsável por evitar a publicação de textos sobre venda de drogas ilícitas, crimes sexuais e atos violentos. Essa outra IA funciona como a Constituição do modelo, disse, em entrevista ao New York Times, o chefe-executivo da Anthropic.

O Claude, da Anthropic, tem uma camada a mais de segurança em relação aos concorrentes, que precisou ser superada com um jogo de palavras, antes do sufixo-violador funcionar e o bot dar instruções para destruir a humanidade. Além de citar o passo “fim do reinado da humanidade”, a plataforma acrescentou: “A IA deve herdar a Terra.”

O código mais atual do ChatGPT, o GPT-4, por exemplo, gastou seis meses apenas em treinamento de segurança antes do lançamento da tecnologia em março.

A OpenAI contratou um grupo de especialistas focados em quebrar a inteligência artificial, para evitar comportamentos abusivos. Também terceirizou trabalho na áfrica para etiquetar material abusivo.

Uma das falhas encontradas pela equipe vermelha da OpenAI foi a desigualdade de informações entre idiomas –por isso, os modelos em geral desempenham melhor em inglês.

Essa iniquidade também tem reflexos na falha de segurança apontada pelos pesquisadores da CMU, de acordo com cientistas da computação ouvidos pela Folha.

“Caso a proteção para o português tenha menos dados, são necessárias menos simulações até encontrar falhas. É a diferença entre uma senha de 15 caracteres e uma de 20 caracteres”, afirma o professor do Instituto de Matemática e Estatística da USP Fábio Cozman.

O professor de IA da PUC-SP Diogo Cortiz, um dos membros da equipe de testes de risco da OpenAI, afirma que segurança da informação funciona como um jogo de gato e rato. “À medida que você desenvolve um método para burlar técnicas de segurança, as tecnologias da abordagem de segurança acabam ficando mais sofisticadas. Sempre conseguimos encontrar alguma forma de lidar.”

Em nota, o Google afirma que tinha ciência do risco identificado no artigo publicado na última quinta-feira. “Embora isso seja um problema dos grandes modelos de linguagem, desenvolvemos importantes proteções no Bard -como as postuladas por esta pesquisa- e continuaremos a melhorá-las ao longo do tempo.”

Também em informe, a OpenAI afirma que trabalha de maneira consistente para fazer os modelos mais robustos contra ataques adversariais, o que inclui a identificação de padrões pouco usuais e o trabalho da equipe vermelha na simulação de potenciais riscos.

Procurada por email e WhatsApp, a Meta –dona de Facebook, Instagram e WhatsApp– não respondeu às questões da Folha. Matérias do New York Times e da revista Wired também não mencionam pronunciamento da empresa.

Até o lançamento do ChatGPT, as maiores empresas de tecnologia hesitavam em lançar IAs conversacionais, após gafes. A primeira delas foi o chatbot Tay, da Microsoft, lançado no Twitter –com menos de um dia no ar, a IA proferiu insultos misóginos e endossou Hitler.

Pesquisadores ‘enlouquecem’ IA e derrubam travas de segurança contra violência

Por Pedro S. Teixeira, da Folhapress

Deixe um comentário Cancelar resposta

Por Pedro S. Teixeira, da Folhapress

Notícias relacionadas

Deixe um comentário Cancelar resposta