Existem muitas fontes de enormes bancos de dados para treinamento de modelos de linguagem em larga escala. A OpenAI não divulgou as fontes, mas alguns estudiosos analisaram e descobriram que elas contêm muitos romances conhecidos, principalmente ficção científica e romances de fantasia.
Os acadêmicos da UC Berkeley publicaram um artigo examinando quantos romances o ChatGPT/GPT-4 tem. O processo de treinamento do modelo OpenAI contém um grande número de materiais protegidos por direitos autorais, e o padrão de coleta depende da frequência de ocorrência na Internet. Os romances mais famosos incluem “Harry Potter”, “Senhor dos Anéis”, “Jogos Vorazes”, “Guia do Mochileiro das Galáxias”, “19 84” e “As Crônicas de Gelo e Fogo”.
Os estudiosos enfatizam que não estão tentando resolver completamente o mistério do banco de dados de treinamento GPT-4, e esses romances não estão completamente incluídos no modelo, apenas para estudar se o conteúdo do romance está relacionado ao desempenho do modelo. E eles descobriram que os romances usados para o treinamento GPT-4 são principalmente ficção científica e fantasia, e há relativamente poucos outros trabalhos, e não há muita literatura inglesa internacional e obras negras.
O treinamento do modelo se concentra em romances de ficção científica e fantasia. Vale a pena considerar o impacto na narrativa e no desempenho. É importante garantir que os dados usados para treinar o modelo sejam transparentes e abertos. Portanto, um modelo de código aberto será a melhor opção. Espero que esta pesquisa possa ajudar a melhorar a responsabilidade de coletar dados para o padrão de treinamento. Outro problema é que, quando mais conteúdo protegido por direitos autorais entrar em modelos de linguagem em larga escala, as empresas de desenvolvimento de tecnologia enfrentarão mais disputas legais de direitos autorais.Se o modelo de treinamento é “uso justo” só pode ser determinado pelo tribunal.
Mais histórias
Transfira tudo o que preza com um novo aparelho de TV Fire disponível na Amazon.
Visite o Walmart para comprar um par de AirPods Pro recondicionados por US$ 89.
Elon Musk apresentou o Cybertruck “destinado à fabricação”.