29 de November de 2023

Pesquisadores povoaram uma pequena cidade virtual com IA (e era muito saudável)

O que aconteceria se você enchesse uma cidade virtual com AIs e os soltasse? Acontece que eles escovam os dentes e são muito legais um com o outro! Mas esse resultado desinteressante é uma boa notícia para os pesquisadores que o fizeram, já que eles queriam produzir “simulacros verossímeis do comportamento humano” e conseguiram exatamente isso.

Continua após a publicidade

O artigo que descreve o experimento , de pesquisadores de Stanford e do Google, não foi revisado por pares ou aceito para publicação em nenhum lugar, mas ainda assim é uma leitura interessante. A ideia era ver se eles poderiam aplicar os últimos avanços em modelos de aprendizado de máquina para produzir “agentes generativos” que aceitassem suas circunstâncias e gerassem uma ação realista em resposta.

E isso é o que eles conseguiram. Mas antes que você se deixe levar pelas imagens fofas e descrições de reflexão, conversa e interação, vamos ter certeza de que você entende que o que está acontecendo aqui é mais como uma trupe de improvisação interpretando um MUD do que qualquer tipo de proto-Skynet. (Apenas a geração do milênio entenderá a frase anterior.)

Esses pequenos personagens não são exatamente o que parecem ser. Os gráficos são apenas uma representação visual do que é essencialmente um monte de conversas entre várias instâncias do ChatGPT. Os agentes não andam para cima, para baixo, para a esquerda e para a direita ou se aproximam de um gabinete para interagir com ele. Tudo isso através de uma complexa e oculta camada de texto que sintetiza e organiza as informações pertencentes a cada agente.
Cidade virtual vira sala de aula para aprender de tudo - PORVIR

Vinte e cinco agentes, 25 instâncias do ChatGPT, cada um com informações formatadas de forma semelhante que fazem com que ele desempenhe o papel de uma pessoa em uma cidade fictícia. Veja como uma dessas pessoas, John Lin, é configurada:

John Lin é um lojista de farmácia no Willow Market and Pharmacy que adora ajudar as pessoas. Ele está sempre procurando maneiras de facilitar o processo de obtenção de medicamentos para seus clientes; John Lin está morando com sua esposa, Mei Lin, que é professora universitária, e seu filho, Eddy Lin, que estuda teoria musical; John Lin ama muito sua família; John Lin conhece o velho casal vizinho, Sam Moore e Jennifer Moore, há alguns anos; John Lin acha que Sam Moore é um homem bom e gentil…

Com essas informações, os agentes são solicitados a propor suas próximas ações, considerando o tempo e as circunstâncias. Por exemplo, eles podem dizer ao agente John que são 8 da manhã e ele acabou de acordar. O que ele faz? Bem, ele escova os dentes, beija a esposa (espero que nessa ordem), se veste e vai para a cozinha.

Leia Mais:  Ryan Reynolds investe na empresa de Montreal Nuvei

Enquanto isso, outra instância ChatGPT totalmente independente, representando o filho de John, Eddy, também recebeu suas próprias informações. Ele também se levanta, escova os dentes e vai para a cozinha.

E agora a estrutura geral do experimento entra em ação: os agentes que representam John e Eddy não estão “no” mesmo espaço virtual nem nada. Em vez disso, quando John termina de se vestir e diz que irá para a cozinha, a estrutura experimental o informa que seu filho Eddy está lá, porque em seu próprio caso, Eddy decidiu se mudar para a cozinha em um momento coincidente no experimento. “dia” de nível-nível com base em uma estimativa de quanto tempo várias ações levam.

Como os dois estão na sala ao mesmo tempo, a configuração experimental os informa que a outra pessoa está lá – junto com informações como a de que há uma mesa onde ninguém está sentado, o fogão está ligado, etc. fazer a seguir?

João: Bom dia Eddy. Você dormiu bem?
Eddy: Bom dia pai. Sim, dormi muito bem.
João: Isso é bom. No que você está trabalhando hoje?
Eddy: Estou trabalhando em uma nova composição musical para minha turma. É para esta semana, então estou tentando terminar. Mas estou me divertindo muito com isso!
João: Isso parece ótimo!

Que interação agradável e normal entre pais e filhos. Então Mei entra e eles têm uma interação agradável também. E tudo isso é feito perguntando a chatbots totalmente separados o que eles fariam se, em uma cidade fictícia onde é essa pessoa e tivesse uma família como essa e estivesse em uma sala neste momento, onde isso estivesse acontecendo… o que “eles” fariam? um ser humano real, fazer?

Assim, o ChatGPT adivinha o que uma pessoa faria nessa situação e dá sua resposta como se estivesse jogando uma aventura de texto. Se você dissesse a ele: “está escuro como breu, é provável que você seja comido por um grue”, provavelmente diria que acende uma tocha. Mas, em vez disso, o experimento faz com que os personagens continuem seu dia minuto a minuto, comprando mantimentos, caminhando no parque e indo para o trabalho.

Créditos da imagem: Google / Universidade de Stanford

Os usuários também podem escrever em eventos e circunstâncias, como uma torneira pingando ou um desejo de planejar uma festa, e os agentes respondem adequadamente, pois qualquer texto, para eles, é realidade.

Tudo isso é realizado solicitando laboriosamente todas essas instâncias do ChatGPT com todas as minúcias das circunstâncias imediatas do agente. Aqui está um aviso para John quando ele encontrar Eddy mais tarde:

É 13 de fevereiro de 2023, 16h56.
Status de John Lin: John voltou para casa mais cedo do trabalho.
Observação: John viu Eddy dando uma curta caminhada em seu local de trabalho.
Resumo do contexto relevante da memória de John:
Eddy Lin é filho de John Lin. Eddy Lin tem trabalhado em uma composição musical para sua classe. Eddy Lin gosta de passear pelo jardim quando está pensando ou ouvindo música.
John está perguntando a Eddy sobre seu projeto de composição musical. O que ele diria a Eddy?

[Resposta:] Ei Eddy, como está indo o projeto de composição musical para sua turma?

As instâncias rapidamente começariam a esquecer coisas importantes, já que o processo é tão demorado, então a estrutura experimental fica em cima da simulação e as lembra de coisas importantes ou as sintetiza em peças mais portáteis.

Leia Mais:  Slack GPT traz IA generativa nativa para aplicativo de bate-papo

Por exemplo, depois que o agente é informado sobre uma situação no parque, onde alguém está sentado em um banco conversando com outro agente, mas também há grama e contexto e um assento vazio no banco… nada disso é importante . O que é importante? De todas essas observações, que podem render páginas de texto para o agente, você pode obter a “reflexão” de que “Eddie e Fran são amigos porque eu os vi juntos no parque”. Isso entra na “memória” de longo prazo do agente – um monte de coisas armazenadas fora da conversa do ChatGPT – e o resto pode ser esquecido.

Então, o que significa toda essa ladainha? Algo menos do que verdadeiros agentes generativos propostos pelo artigo, com certeza, mas também uma tentativa inicial extremamente convincente de criá-los. Dwarf Fortress faz a mesma coisa , é claro, mas codificando manualmente todas as possibilidades. Isso não escala bem!

Não era óbvio que um grande modelo de linguagem como o ChatGPT responderia bem a esse tipo de tratamento. Afinal, não foi projetado para imitar personagens fictícios arbitrários a longo prazo ou especular sobre os detalhes mais entorpecentes do dia de uma pessoa. Mas manuseados corretamente – e com bastante massagem – não apenas um agente pode fazê-lo, mas também não quebra quando você os usa como peças em uma espécie de diorama virtual.

Isso tem implicações potencialmente enormes para simulações de interações humanas, onde quer que sejam relevantes – é claro que em jogos e ambientes virtuais elas são importantes, mas essa abordagem ainda é monstruosamente impraticável para isso. O que importa, porém, não é que seja algo que todos possam usar ou brincar (embora seja em breve, não tenho dúvidas), mas que o sistema funcione. Vimos isso na IA: se ela pode fazer algo mal, o fato de que pode fazê-lo geralmente significa que é apenas uma questão de tempo antes de fazê-lo bem.