Podemos confiar nos resumos de revisão gerados por IA da Amazon?

Recentemente, os usuários têm percebido um aumento de resumos de comentários de produtos na Amazon que são gerados por inteligência artificial. É possível confiar neles?

Os produtos da Amazon frequentemente recebem uma grande quantidade de avaliações, o que pode ser cansativo e demorado para analisar. No entanto, fazer compras na Amazon para encontrar um carrinho de laptop, por exemplo, pode exigir a análise de diversas opções no site, que variam consideravelmente em termos de qualidade. Essa tarefa pode ser tão exigente quanto comprar um carro, ao invés de um item doméstico diário. Em agosto passado, a Amazon anunciou uma solução para lidar com essa sobrecarga de informações: um resumo gerado por inteligência artificial que destaca de forma concisa os prós e contras mencionados pelos clientes.

Em teoria, o recurso é uma ferramenta conveniente que auxilia os consumidores a fazer decisões de compra de forma rápida. No entanto, a existência desses resumos evidencia as desvantagens de confiar na inteligência artificial generativa: imprecisão e fornecimento de informações enganosas.

Fiz uma rápida pesquisa na Amazon e encontrei diversos problemas. Uma análise automática dos comentários do tapete de ioga Manduka GRP Adapt mencionou equivocadamente um tapete de ioga concorrente chamado “Alo Warrior Yoga Mat”. A Amazon já resolveu esse problema específico após receber atenção do Mashable. No entanto, corrigir erros individuais em um modelo de linguagem extenso é semelhante a jogar “acerte o rato”, pois nem mesmo os engenheiros entendem completamente como os modelos se comportam.

Amazon reviews with an AI-generated summary at the top, referring to the Alo Warrior Yoga Mat instead of the product it — Imagem: xsix/FreeImages

E é aí que surge a dificuldade de depositar uma confiança excessiva na IA generativa. O processo de treinamento da IA para agir de forma autônoma também implica que os modelos possam se comportar de maneiras não planejadas ou que possam até mesmo prejudicar.

Em alguns outros exemplos menores, o resumo de revisão de IA para um produto chamado Musher’s Secret mencionou vagamente o produto como “fornecedores de tapetes” e afirmou que mantém as “almofadas de pata quentes”. Sendo uma pomada que protege as patas dos cães em pavimentos gelados, isso provavelmente significa que se refere às “almofadas de pata” a menos que “psa pads” seja algo desconhecido. Em termos de senso comum em IA, parece que o modelo “aprende” a escrever coisas como “psa pads” em vez de “almofadas de pata” com base nas peculiaridades de usuários reais, o que poderia dar às saídas da IA uma certa autenticidade. Mas será que isso é o que os usuários desejam?

AI-generated product review summary of Musher — Imagem:
chsyys/FreeImages

Para uma versão compacta da Thera Pistola de massagem, a análise resumida menciona repetidamente a palavra “app”, indicando que o aplicativo fornece informações úteis sobre a duração da bateria. No entanto, é possível considerar se o resumo se refere ao recurso técnico chamado “APP” em vez do aplicativo acompanhante.

AI-generated product review summary writing the word "app" in all caps — Imagem: timmossholder/UnPlash

Sim, esses são erros menores que não afetam o conteúdo principal do resumo. Além disso, as análises feitas por humanos frequentemente contém erros de digitação e isso não necessariamente diminui sua credibilidade. No entanto, talvez seja necessário ter um padrão mais alto para uma inteligência não-humana que ainda não conquistou a nossa confiança. Portanto, qualquer imprecisão ou falta de sentido parece ser um sinal de alerta imediato.

Pior ainda: se as imprecisões e alucinações passarem despercebidas, esses resumos – apresentados como autoritários – podem prejudicar a reputação dos produtos. Um relatório da Bloomberg revelou que os resumos de revisão do produto exageram os aspectos negativos das avaliações, enganando os consumidores. O resumo gerado pela IA para as bolas de tênis Penn, com uma classificação de 4,7 estrelas, destacou o odor como um aspecto negativo. No entanto, das 4.300 avaliações, apenas sete mencionaram um odor. Isso não apenas engana os clientes, mas também pode causar problemas para os comerciantes.

Adicionalmente, as opiniões não mencionaram o tipo de cheiro, mas nem todas as bolas de tênis novas possuem aquele característico odor de borracha forte que algumas pessoas até apreciam? As referências ao aroma das bolas de tênis parecem menos como críticas válidas e mais como comentários intrusivos de revisores excessivamente críticos que tendem a dar avaliações negativas aos produtos devido a algo irracional, como a dificuldade de abrir a embalagem.

O uso da tecnologia também suscita questões sobre quais revisões geradas por IA devem ser destacadas e quais não. Para garantir a qualidade e evitar resumos gerados por IA de avaliações fraudulentas, a Amazon opta por usar apenas avaliações de compras verificadas e se concentra em produtos que possuem um número mínimo de revisões. A porta-voz Maria Boschetti afirmou que a empresa também leva em consideração as situações em que os clientes compartilham a mesma opinião.

O YouTube está experimentando a utilização de resumos gerados por inteligência artificial na seção de comentários.
O WhatsApp está sendo criticado devido às respostas automáticas geradas por IA para o termo ‘Palestina’.
O ChatGPT está preparado para receber uma funcionalidade de vídeo.

No momento, a Amazon não apresenta destaques de revisão para livros, o que pode ser considerado positivo. No entanto, são exibidos destaques de revisão para produtos medicinais, como o Advil ibuprofeno. Embora isso possa não representar um perigo iminente, sugere uma abordagem negligente na implementação desse recurso. A Amazon afirma ter planos de expandir para outras categorias, o que indica que a cautela pode não ser uma prioridade no momento.

Apesar de haver exemplos com problemas, os clientes estão achando o recurso útil. Um funcionário do Mashable que estava procurando um tripé barato conseguiu decidir ao comparar os resumos de diferentes análises de produtos e escolheu um que não tinha críticas negativas, ao contrário de outros que tinham opiniões um pouco mais mistas.

“Boschetti afirmou que, de acordo com nossa análise, os destaques da revisão têm sido úteis para os clientes encontrarem os produtos desejados, o que tem resultado em um aumento das vendas para os vendedores. Ele ressaltou o compromisso em garantir a precisão dos destaques de revisão e em aprimorar constantemente essa experiência ao longo do tempo.”

E sejamos sinceros, a maioria das pessoas não tem o tempo ou o interesse em analisar comentários quando um resumo conciso fornece as informações necessárias, contanto que seja preciso.

Então, é necessário ter confiança nesses resumos de revisão? Uma maneira melhor de perguntar seria: esses resumos são mais práticos para os usuários do que o sistema anterior? Pode-se argumentar com cautela que a resposta para essa pergunta é “confie, mas verifique, entendendo as deficiências e fraquezas da tecnologia”.

A capacidade de processamento de informações e tomada de decisões por meio de máquinas e algoritmos, conhecida como Inteligência Artificial, está cada vez mais presente em diversos setores da sociedade.