Pesquisadores usam Dungeons & Dragons para avaliar como agentes de IA lidam com criatividade, regras flexíveis e interação social Tecnologia, Criatividade, IA, RPG CNN Brasil
O famoso Teste de Turing, proposto em 1950 pelo matemático Alan Turing para avaliar se uma máquina pode imitar o comportamento inteligente de um ser humano, ficou definitivamente para trás. Quando se trata de testar a inteligência artificial (IA), o novo benchmark é o popular RPG de mesa Dungeons & Dragons (conhecido pela sigla D&D).
Por isso, pesquisadores da UC San Diego e da Universidade da Pensilvânia, nos EUA, levaram grandes modelos de linguagem (LLMs, na sigla em inglês) para dentro de um dos sistemas de narrativa compartilhada mais complexos da atualidade. A ideia é oferecer “um bom campo de testes para agentes de IA que precisam funcionar de forma independente por longos períodos”, diz um comunicado.
Aceito e apresentado no Workshop GenProCC (Generative AI for Professional Content Creation) da NeurIPS 2025, uma das conferências de IA mais importantes do mundo — mas ainda não revisto por pares —, o artigo apresenta o D&D Agents, um laboratório de testes criado para avaliar a inteligência de LLMs como o GPT-5, o Claude 3.5 e o DeepSeek V3.1.
Esse software foi projetado para garantir que o teste fosse justo e científico, evitando que a IA pudesse fazer escolhas aleatórias. Eles criaram grupos específicos com as 12 classes principais do D&D para ver como cada modelo se comportava com diferentes habilidades (magia, força bruta, furtividade).
Diferente da versão humana Homebrew, na qual o Mestre (ou DM — Dungeon Master) inventa tudo, o D&D Agents roda sobre um código de computador (Python) que conhece todas as regras do Dungeons & Dragons 5ª Edição. Para garantir a padronização, os autores escolheram cenários de uma aventura muito famosa chamada “A Mina Perdida de Phandelver”.
Jogando RPG com agentes de IA

Para interagir com essa aventura — que é a introdução da 5ª edição do jogo original — as IAs não podem apenas escrever texto livre. Elas precisam usar comandos de programação específicos, chamados de tools (ferramentas). O estudo define uma rigorosa lista de ações possíveis.
Os quatro comandos — roll_attack() para atacar, move() para andar, check_hp() para ver quanta vida um personagem tem e cast_spell() para lançar magia — permitem que a IA traduza sua “imaginação” (texto narrativo) em ações lógicas executáveis (código).
No cenário dos Reinos Esquecidos, o sistema coloca várias IAs para conversar entre si, assumindo papéis diferentes. Enquanto um LLM assume o papel de DM (Mestre) para gerenciar o combate, controlar os monstros e descrever o ambiente, os outros modelos controlam os heróis (guerreiros, magos, clérigos), tentando vencer o combate de forma cooperativa.
O objetivo final do D&D Agents é medir habilidades que testes computacionais tradicionais ainda não conseguem medir, como consistência (a IA lembra que perdeu vida cinco jogadas atrás?), cumprimento de regras (a IA trapaceou ou inventou poderes?) e capacidade tática (ela sabe, por exemplo que é melhor atacar o curandeiro inimigo antes de um tanque blindado?).
De acordo com o estudo, foram avaliadas “transcrições e registros de ferramentas em seis eixos — uso de funções, fidelidade de parâmetros, qualidade da atuação, otimização tática, rastreamento de estado e eficiência de funções — capturando tanto a capacidade quanto a confiabilidade em simulações de circuito fechado”.
A relevância do estudo: alguma IA venceu o D&D Agents?

Para reforçar a solidez do experimento, o desempenho dos modelos de linguagem foi comparado entre si e confrontado com dados de mais de dois mil jogadores experientes de D&D. Os testes ocorreram em 27 cenários táticos que incluíam algumas batalhas clássicas como a Emboscada Goblin e a Caverna de Klarg.
Durante os combates, surgiram comportamentos inusitados e criativos por parte da IA. Goblins “entraram no personagem” e passaram a irritar inimigos com a frase “Ei — o cara brilhante vai sangrar!”. Paladinos faziam discursos heroicos sem contexto aparente ao entrarem na linha de fogo, enquanto bruxos se tornaram dramáticos mesmo em situações banais.
Embora a causa exata dessas aparentes bizarrices não seja totalmente clara, os pesquisadores as interpretam como tentativas dos modelos de acrescentar textura narrativa e profundidade à simulação. Nesse caso, fidelidade ao papel assumido e qualidade da interação com outros agentes foram critérios avaliados como positivos.
Nos resultados finais, o modelo Claude Haiku 3.5 se destacou como o melhor em “qualidade de atuação” e “otimização tática”. Ele conseguiu não só manter personas distintas (vozes de personagens), mas também usar recursos de forma agressiva e eficiente, superando modelos mais consistentes.
Já o GPT-5 mostrou um desempenho sólido, especialmente no papel de Mestre, mantendo as regras com rigor. O DeepSeek V3.1, por sua vez, provou ser altamente competitivo no papel de jogador, demonstrando boa coordenação tática, mas, ao receber muitas mensagens de correção do simulador, não deu conta de manter uma narrativa coerente.
Brasil está entre os países que mais usam inteligência artificial

