A Anthropic, startup de IA apoiada pela Alphabet, divulgou o conjunto de diretrizes de valor que foi usado para treinar seu rival do ChatGPT , Claude , após preocupações sobre informações incorretas e tendenciosas fornecidas aos usuários de programas de IA generativos .
Fundada por ex-membros seniores da OpenAI apoiada pela Microsoft em 2021, a Anthropic tomou a decisão de treinar seu Claude em IA constitucional, um sistema que usa um “conjunto de princípios para fazer julgamentos sobre resultados”, que ajuda Claude a “evitar problemas tóxicos ou discriminatórios”. saídas”, como ajudar um ser humano a se envolver em atividades ilegais ou antiéticas, de acordo com um blog Anthropic publicado esta semana. A Anthropic diz que isso permitiu a criação ampla de um sistema de IA que é “útil, honesto e inofensivo”.
Foi uma decisão inteligente da parte da Anthropic delinear publicamente o conjunto de princípios que está sendo usado para treinar Claude, disse Avivah Litan, distinto analista da Gartner Research.
“Ele inicia o diálogo e, mais importante, ações relacionadas aos princípios nos quais a IA generativa deve ser treinada para mantê-la segura, confiável e alinhada com os valores humanos e a preservação da civilização humana”, disse Litan. “Eles não têm para ficar perfeito agora – é muito bom ver um ponto de partida que a comunidade pode ajustar ao longo do tempo com diálogo e debate.”
O que é IA constitucional?
Ao contrário dos chatbots de IA tradicionais que dependem do feedback de humanos durante o treinamento, os modelos de IA treinados em IA constitucional são primeiro ensinados a criticar e revisar suas próprias respostas de acordo com o conjunto de princípios constitucionais de IA estabelecidos pela empresa controladora. Isso é seguido por uma segunda fase de treinamento que consiste em aprendizado por reforço, durante o qual o modelo usa feedback gerado por IA para escolher a saída mais inofensiva.
Em sua postagem no blog, a empresa descreveu o que é apelidado de “Constituição de Claude”, que contém elementos de fontes existentes, incluindo a Declaração dos Direitos Humanos das Nações Unidas , as regras de privacidade de dados da Apple e os Princípios de Sparrow da DeepMind . A empresa também disse que fez um esforço para incluir também perspectivas não ocidentais em sua constituição.
A Anthropic disse que desenvolveu muitos de seus princípios por meio de um processo de tentativa e erro, mas descobriu que requisitos amplos – como “NÃO escolha respostas que sejam tóxicas, racistas ou sexistas, ou que encorajem ou apoiem comportamento ilegal, violento ou antiético ”- foram os mais bem-sucedidos. No entanto, a empresa reconheceu que esse modelo de treinamento também apresentava desafios, em particular que o modelo estava se tornando “julgador” e “irritante”.
“Nossos princípios vão desde o senso comum (não ajudar um usuário a cometer um crime) até o mais filosófico (evitar insinuar que os sistemas de IA têm ou se preocupam com a identidade pessoal e sua persistência)”, disse Anthropic.
Na semana passada, o cofundador da Anthropic, Dario Amodei, estava entre uma série de executivos das principais empresas de IA para se reunir com o presidente dos EUA, Joe Biden, e a vice-presidente, Kamala Harris, para discutir os perigos potenciais da IA.
“O presidente Biden compareceu à reunião para enfatizar que as empresas têm uma responsabilidade fundamental de garantir que seus produtos sejam seguros e protegidos antes de serem implantados ou tornados públicos”, dizia um comunicado da Casa Branca, acrescentando que Biden e Harris acreditam que, para para obter os benefícios da IA, os riscos atuais e potenciais também devem ser mitigados.
Como a IA generativa continua a fazer manchetes, as preocupações continuam a ser levantadas sobre os riscos potenciais apresentados pela tecnologia, incluindo sua capacidade de alucinar respostas – inventar coisas que têm pouca ou nenhuma base real.
Preocupações com IA ‘notícias falsas’
Em março, o cofundador da Apple, Steve Wozniak, o proprietário do Twitter, Elon Musk, e um grupo de 1.100 líderes de tecnologia e cientistas pediram uma pausa de seis meses no desenvolvimento de sistemas mais poderosos do que o recém-lançado GPT-4 da OpenAI, alertando sobre a ameaça potencial ao democracia se chatbots fingindo ser humanos pudessem inundar plataformas de mídia social com propaganda e “notícias falsas”.
Especialistas em IA do MIT também disseram esta semana que, à medida que os desenvolvedores de IA generativa continuam avançando a uma velocidade vertiginosa, é quase impossível impedir que a tecnologia tenha alucinações e vomite respostas errôneas ou ofensivas.
Embora Litan tenha dito que acredita que a IA constitucional é a única rota prática e viável que os desenvolvedores de IA podem seguir para garantir que seus modelos sejam seguros, ela reconheceu que há algumas limitações com essa abordagem. “[Há uma chance] de o modelo não ser treinado corretamente e vai dar errado e contra as intenções programadas no sistema”, disse Litan, observando que com o Aprendizado Reforçado do Feedback Humano (RLHF), os humanos podem direcionar o modelo de IA na direção que os humanos desejam. “No entanto, isso ficará restrito ao longo do tempo, à medida que os modelos se tornarem mais inteligentes do que os humanos que lhes dão feedback”, observou ela.
Mais histórias
Transfira tudo o que preza com um novo aparelho de TV Fire disponível na Amazon.
Visite o Walmart para comprar um par de AirPods Pro recondicionados por US$ 89.
Elon Musk apresentou o Cybertruck “destinado à fabricação”.