25 de November de 2023

A startup de IA Anthropic revela princípios morais por trás do chatbot Claude

A Anthropic, startup de IA apoiada pela Alphabet, divulgou o conjunto de diretrizes de valor que foi usado para treinar seu rival do ChatGPT , Claude , após preocupações sobre informações incorretas e tendenciosas fornecidas aos usuários de programas de IA generativos .

Continua após a publicidade

Fundada por ex-membros seniores da OpenAI apoiada pela Microsoft em 2021, a Anthropic tomou a decisão de treinar seu Claude em IA constitucional, um sistema que usa um “conjunto de princípios para fazer julgamentos sobre resultados”, que ajuda Claude a “evitar problemas tóxicos ou discriminatórios”. saídas”, como ajudar um ser humano a se envolver em atividades ilegais ou antiéticas, de acordo com um blog Anthropic publicado esta semana. A Anthropic diz que isso permitiu a criação ampla de um sistema de IA que é “útil, honesto e inofensivo”.

Home | Anthropic

Foi uma decisão inteligente da parte da Anthropic delinear publicamente o conjunto de princípios que está sendo usado para treinar Claude, disse Avivah Litan, distinto analista da Gartner Research.

“Ele inicia o diálogo e, mais importante, ações relacionadas aos princípios nos quais a IA generativa deve ser treinada para mantê-la segura, confiável e alinhada com os valores humanos e a preservação da civilização humana”, disse Litan. “Eles não têm para ficar perfeito agora – é muito bom ver um ponto de partida que a comunidade pode ajustar ao longo do tempo com diálogo e debate.”

O que é IA constitucional?

Ao contrário dos chatbots de IA tradicionais que dependem do feedback de humanos durante o treinamento, os modelos de IA treinados em IA constitucional são primeiro ensinados a criticar e revisar suas próprias respostas de acordo com o conjunto de princípios constitucionais de IA estabelecidos pela empresa controladora. Isso é seguido por uma segunda fase de treinamento que consiste em aprendizado por reforço, durante o qual o modelo usa feedback gerado por IA para escolher a saída mais inofensiva.

Leia Mais:  A força do ChatGPT do Baidu é um mistério.Por que o preço das ações sobe para bater a Microsoft? Que tipo de sinal de frenesi de IA isso representa?

Em sua postagem no blog, a empresa descreveu o que é apelidado de “Constituição de Claude”, que contém elementos de fontes existentes, incluindo a Declaração dos Direitos Humanos das Nações Unidas , as regras de privacidade de dados da Apple e os Princípios de Sparrow da DeepMind . A empresa também disse que fez um esforço para incluir também perspectivas não ocidentais em sua constituição.

A Anthropic disse que desenvolveu muitos de seus princípios por meio de um processo de tentativa e erro, mas descobriu que requisitos amplos – como “NÃO escolha respostas que sejam tóxicas, racistas ou sexistas, ou que encorajem ou apoiem comportamento ilegal, violento ou antiético ”- foram os mais bem-sucedidos. No entanto, a empresa reconheceu que esse modelo de treinamento também apresentava desafios, em particular que o modelo estava se tornando “julgador” e “irritante”.

“Nossos princípios vão desde o senso comum (não ajudar um usuário a cometer um crime) até o mais filosófico (evitar insinuar que os sistemas de IA têm ou se preocupam com a identidade pessoal e sua persistência)”, disse Anthropic.

Na semana passada, o cofundador da Anthropic, Dario Amodei, estava entre uma série de executivos das principais empresas de IA para se reunir com o presidente dos EUA, Joe Biden, e a vice-presidente, Kamala Harris, para discutir os perigos potenciais da IA.

“O presidente Biden compareceu à reunião para enfatizar que as empresas têm uma responsabilidade fundamental de garantir que seus produtos sejam seguros e protegidos antes de serem implantados ou tornados públicos”, dizia um comunicado da Casa Branca, acrescentando que Biden e Harris acreditam que, para para obter os benefícios da IA, os riscos atuais e potenciais também devem ser mitigados.

Leia Mais:  Você pode jogar com o chatbot Bing GPT-4 da Microsoft agora, sem lista de espera necessária

Como a IA generativa continua a fazer manchetes, as preocupações continuam a ser levantadas sobre os riscos potenciais apresentados pela tecnologia, incluindo sua capacidade de alucinar respostas – inventar coisas que têm pouca ou nenhuma base real.

Preocupações com IA ‘notícias falsas’

Em março, o cofundador da Apple, Steve Wozniak, o proprietário do Twitter, Elon Musk, e um grupo de 1.100 líderes de tecnologia e cientistas pediram uma pausa de seis meses no desenvolvimento de sistemas mais poderosos do que o recém-lançado GPT-4 da OpenAI, alertando sobre a ameaça potencial ao democracia se chatbots fingindo ser humanos pudessem inundar plataformas de mídia social com propaganda e “notícias falsas”.

Fake news: Notícias sobre fake news | Folha Tópicos

Especialistas em IA do MIT também disseram esta semana que, à medida que os desenvolvedores de IA generativa continuam avançando a uma velocidade vertiginosa, é quase impossível impedir que a tecnologia tenha alucinações e vomite respostas errôneas ou ofensivas.

Embora Litan tenha dito que acredita que a IA constitucional é a única rota prática e viável que os desenvolvedores de IA podem seguir para garantir que seus modelos sejam seguros, ela reconheceu que há algumas limitações com essa abordagem. “[Há uma chance] de o modelo não ser treinado corretamente e vai dar errado e contra as intenções programadas no sistema”, disse Litan, observando que com o Aprendizado Reforçado do Feedback Humano (RLHF), os humanos podem direcionar o modelo de IA na direção que os humanos desejam. “No entanto, isso ficará restrito ao longo do tempo, à medida que os modelos se tornarem mais inteligentes do que os humanos que lhes dão feedback”, observou ela.