24 de November de 2023

Pesquisadores AI2 lançam nova abordagem multimodal para aumentar os recursos de IA usando imagens e áudio

Nosso mundo é um lugar cheio de nuances e complexo, melhor experimentado por meio das modalidades mistas de nossos sentidos. Diante disso, os pesquisadores de IA também começaram a aplicar estratégias multimodais para criar modelos de visão e linguagem no contexto, na esperança de melhorar a forma como esses sistemas de IA veem e interpretam nosso mundo. 

Continua após a publicidade

No início deste mês, o Allen Institute for AI (AI2), com sede em Seattle, lançou um aumento multimodal aberto do popular corpus somente de texto, c4 . Esse novo conjunto de dados, que os pesquisadores do AI2 apelidaram de Multimodal C4, ou mmc4 , é um modelo disponível publicamente que intercala texto e imagens em um conjunto de dados em escala de bilhões. Esse conjunto de dados abertos permitirá que os pesquisadores explorem novas maneiras de melhorar a capacidade da IA ​​de interpretar e aprender, para que possam nos fornecer melhores ferramentas no futuro. 

Aran Komatsuzaki on Twitter: "Multimodal C4: An Open, Billion-scale Corpus  of Images Interleaved With Text 103M documents containing 585M images  interleaved with 43B English tokens https://t.co/hqx54pw5d1  https://t.co/olx1o1AAYz" / Twitter

“Esses modelos multimodais podem operar não apenas na linguagem, mas também em imagens e áudio”, disse Jack Hessel, um dos pesquisadores do projeto. “Multimodal C4 tem sido realmente emocionante para mim.” 

Os corpus c4 e mmc4 são derivados de dados coletados pelo Common Crawl, uma organização sem fins lucrativos que rastreia a web e fornece seus arquivos e conjuntos de dados ao público gratuitamente. O Common Crawl gera cerca de um petabyte de dados e é hospedado na AWS. O Google usou o Common Crawl em 2019 para desenvolver o Colossal Clean Crawled Corpus, ou c4, que foi agregado pelo Google para treinar seu transformador de transferência de texto para texto ou modelo T5. 

A equipe do AI2 aumentou o c4 intercalando-o com imagens coletadas do rastreamento, resultando em seu novo conjunto de dados mmc4. Esse corpus de imagens em escala de bilhões aumenta o texto associado para produzir um conjunto de dados rico e aberto que pode ser usado livremente por pesquisadores e desenvolvedores para desenvolver modelos de IA aprimorados.

Leia Mais:  LinkedIn demite 716 funcionários e fecha aplicativo de empregos na China

Em sua aplicação inicial, o mmc4 foi usado para fornecer dados de treinamento para o OpenFlamingo, o primeiro modelo público treinado neste corpus. É uma estrutura que permite o treinamento e avaliação de grandes modelos multimodais (LMMs), a fim de realizar uma gama diversificada de tarefas de linguagem de visão.

Uma reprodução de código aberto do modelo Flamingo da DeepMind, o OpenFlamingo foi desenvolvido para tornar seus recursos mais amplamente disponíveis. Como os dados de treinamento do Flamingo não estão disponíveis ao público, esta versão aberta tenta implementar a mesma arquitetura. Para fazer isso, ele aproveita recursos como reamostradores de percepção e camadas de atenção cruzada controladas para incorporar várias imagens e quadros de vídeo com o texto associado.

Esse tipo de visão em contexto e modelo de linguagem suporta sequências intercaladas de imagens e texto como sua entrada. É importante ressaltar que ele permite o aprendizado de poucos tiros — a capacidade de inferir e aprender com um pequeno número de exemplos. Ele também fornece prompts mais complexos que envolvem interações entre imagens. Por exemplo, pode ser questionado sobre quais características duas imagens diferentes têm em comum.

Usando um algoritmo de atribuição linear para intercalar imagens em corpos de texto mais longos, o modelo pode executar muitas tarefas diferentes. Isso inclui responder a perguntas e realizar tarefas que cobrem tópicos cotidianos como culinária, viagens, tecnologia, etc. Amostras aleatórias indicam que a grande maioria das imagens (90%) são topicamente relevantes e que o processo de atribuição linear freqüentemente selecionava frases individuais que eram bem alinhado com cada imagem (78%). Depois de filtrar imagens NSFW, anúncios etc., o corpus contém 103 milhões de documentos contendo 585 milhões de imagens intercaladas com 43 bilhões de tokens em inglês.

Leia Mais:  Use o ChatGPT para controlar o NPC, a ação é tão realista quanto uma pessoa normal! Stanford, o novo campo de bombardeio de pesquisa do Google, dotando modelos grandes com memória precisa

Para conseguir tudo isso, a equipe de pesquisa começou recuperando as páginas originais do Common Crawl e, em seguida, coletou as imagens para download que haviam sido excluídas anteriormente do c4. A limpeza de dados foi realizada por meio de desduplicação e filtragem de conteúdo, que visava eliminar imagens não seguras para o trabalho (NSFW) e não relacionadas, como anúncios. Além disso, os pesquisadores executaram a detecção de rosto e descartaram imagens com identificações positivas. Por fim, imagens e frases foram intercaladas usando uma técnica conhecida como correspondência bipartida, um algoritmo baseado na teoria dos grafos que ajuda a determinar onde no texto uma imagem deve ser colocada.

Talvez não surpreendentemente, sistemas multimodais como mmc4 e OpenFlamingo têm várias aplicações possíveis que são diferentes de outras estruturas e modelos de linguagem somente de texto mais fundamentais. Como grandes modelos de linguagem como o mmc4 podem responder a perguntas sobre conteúdo visual, há muitos casos de uso em potencial para educação e treinamento, saúde e trabalho de inteligência, além de melhorar a acessibilidade e a usabilidade no design UX. Isso inclui a geração de texto alternativo mais preciso para imagens da web. Essas interpretações apenas de texto de imagens fornecem maneiras para usuários com habilidades diferentes acessarem imagens na web.

“Acho que um caso de uso importante é a acessibilidade de imagens”, observou Hessel. “Existem muitos trabalhos excelentes de interação humano-computador que sugerem que ferramentas automatizadas podem fornecer um bom ponto de partida para melhorar o texto alternativo para imagens principais. Então, acho que há um caso de uso muito importante para fins de acessibilidade.” 

Além da versão completa do corpus, dois subconjuntos adicionais foram construídos para tornar o mmc4 mais utilizável, seguro e ecológico. Atualmente, isso inclui um subconjunto de menos rostos que visa remover imagens contendo rostos detectados e um subconjunto principal que usa critérios de filtragem mais rigorosos para reduzir o corpus original em uma ordem de grandeza. Isso reduz os requisitos de recursos, melhora o desempenho e requer menos computação ou ciclos de processamento, portanto, menos energia é necessária para executá-los. 

Leia Mais:  Fred Hutch faz parceria com streamers de videogame para arrecadar dinheiro e combater a desinformação médica

A Multimodal C4 faz parte do grupo Mosaic da AI2, que investiga e desenvolve as capacidades de bom senso das máquinas. Embora grande parte desse trabalho seja baseado em texto, o mmc4 oferece uma abordagem diferente para esse trabalho. De acordo com Hessel, “o Mosaic é focado no raciocínio de senso comum com a maioria das pessoas do nosso grupo trabalhando com modelos apenas de texto, portanto, focar em modelos multimodais é uma espécie de anomalia”.

“ Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text ” é o trabalho de Wanrong Zhu, Jack Hessel, Anas Awadalla, Samir Yitzhak Gadre, Jesse Dodge, Alex Fang, Youngjae Yu, Ludwig Schmidt, William Yang Wang, e Yejin Choi.

O OpenFlamingo foi desenvolvido pela Meta AI e pela LAION, uma organização sem fins lucrativos com o objetivo de disponibilizar ao público em geral modelos de aprendizado de máquina em grande escala, conjuntos de dados e códigos relacionados.

O trabalho no Multimodal C4 foi apoiado em parte pelo programa DARPA MCS por meio do NIWC Pacific, NSF AI Institute for Foundations of Machine Learning, Open Philanthropy, Google e Allen Institute for AI.