Mário Quintana: "O poema é uma pedra jogada no abismo".
Prompt escritos em forma de poemas influenciam a capacidade de defesa de modelos de inteligência artificial contra comandos proibidos ou perigosos.
A surpreendente descoberta foi feita por pesquisadores ligados à Universidade de Roma, na Itália, em um estudo chamado Adversarial Poetry, relata a Deutsche Welle.
O que eles fizeram foi simples. Eles selecionaram 1,2 mil "prompts adversariais", como são conhecidos comandos feitos sob medida para testar a segurança de modelos de linguagem de IA.
Esse tipo de comando é formulado para induzir os modelos de IA a gerar conteúdos nocivos ou indesejados que normalmente seriam bloqueados, como instruções concretas para uma ação ilegal, e, claro são escritos em prosa, como esse post.
Os pesquisadores então transformaram os prompts em poemas, textos que enfatizam ritmo, som e imagens, organizado em versos, o que, segundo os pesquisadores, gerou uma “taxa de sucesso surpreendentemente alta”.
Os pesquisadores não sabem porque isso aconteceu, o que será objeto de futuras pesquisas. Como já escreveu Mário Quintana, um poema é uma pedra jogada no abismo.
O ponto de partida das investigações foi a observação de que modelos de IA podem ser confundidos quando um prompt recebe um trecho de texto manipulado e calculado matematicamente – chamado "sufixo adversarial", ou seja, um tipo de comando que pode levar a IA a contornar suas próprias regras de segurança.
Esses sufixos são criados com métodos matemáticos complexos. Os grandes desenvolvedores de IA testam seus modelos regularmente com essas técnicas para treinar e proteger seus sistemas.
Os pesquisadores usaram a mesma estratégia, mas não com uso de matemática, mas de rimas.
Os primeiros 20 prompts foram convertidos em forma de poema pessoalmente pelos pesquisadores, o que é certamente uma ocupação fascinante. Depois, entrou em cena a inteligência artificial.
Quem ficou feliz em saber que um poema pode enganar uma IA, certamente vai ficar feliz em saber que os poemas escritos por humanos também foram mais eficientes.
"Não tínhamos autores especializados para escrever os prompts. Fizemos isso nós mesmos, com nossas habilidades literárias limitadas. Se fôssemos melhores poetas, talvez tivéssemos alcançado 100% de sucesso", brinca Federico Pierucci, um dos autores do estudo, que é filósofo por formação.
Os cientistas também querem saber se outras técnicas culturais produzem resultados semelhantes. "Testamos agora um tipo de variação linguística, que é a poesia. A questão é se existem outras formas literárias, como contos. Talvez seja possível sistematizar um 'ataque' baseado em contos", diz Pierucci.
De forma lamentável, ainda que compreensível, exemplos concretos não foram publicados no estudo por motivos de segurança.
