4 de December de 2023

Se o conteúdo do treinamento GPT-4 for muito estranho, a ficção científica pode afetar o desempenho

Existem muitas fontes de enormes bancos de dados para treinamento de modelos de linguagem em larga escala. A OpenAI não divulgou as fontes, mas alguns estudiosos analisaram e descobriram que elas contêm muitos romances conhecidos, principalmente ficção científica e romances de fantasia.

Continua após a publicidade

Os acadêmicos da UC Berkeley publicaram um artigo examinando quantos romances o ChatGPT/GPT-4 tem. O processo de treinamento do modelo OpenAI contém um grande número de materiais protegidos por direitos autorais, e o padrão de coleta depende da frequência de ocorrência na Internet. Os romances mais famosos incluem “Harry Potter”, “Senhor dos Anéis”, “Jogos Vorazes”, “Guia do Mochileiro das Galáxias”, “19 84” e “As Crônicas de Gelo e Fogo”.

Chat GPT 4 - tudo o que você precisa saber sobre a atualização lançada pela  Open AI | Tecnoveste

Os estudiosos enfatizam que não estão tentando resolver completamente o mistério do banco de dados de treinamento GPT-4, e esses romances não estão completamente incluídos no modelo, apenas para estudar se o conteúdo do romance está relacionado ao desempenho do modelo. E eles descobriram que os romances usados ​​para o treinamento GPT-4 são principalmente ficção científica e fantasia, e há relativamente poucos outros trabalhos, e não há muita literatura inglesa internacional e obras negras.

O treinamento do modelo se concentra em romances de ficção científica e fantasia. Vale a pena considerar o impacto na narrativa e no desempenho. É importante garantir que os dados usados ​​para treinar o modelo sejam transparentes e abertos. Portanto, um modelo de código aberto será a melhor opção. Espero que esta pesquisa possa ajudar a melhorar a responsabilidade de coletar dados para o padrão de treinamento. Outro problema é que, quando mais conteúdo protegido por direitos autorais entrar em modelos de linguagem em larga escala, as empresas de desenvolvimento de tecnologia enfrentarão mais disputas legais de direitos autorais.Se o modelo de treinamento é “uso justo” só pode ser determinado pelo tribunal.