Documentos vazados obtidos por 404 Mídia revelam que a NVIDIA estava supostamente raspando vídeos pela web como filmagens de filmes e jogos para seus produtos de IA. Como resultado, clientes que usam esses produtos e ferramentas correm o risco de violação não intencional de direitos autorais.
Assim como outros fabricantes de ferramentas de IA, a Nvidia precisa de dados de treinamento para seus geradores de texto, vídeo e áudio para “aprender” como criar ativos. A raspagem de dados geralmente se refere à prática de alimentar vídeos, textos e áudios existentes em modelos de treinamento sem garantir a permissão das pessoas que os fizeram.
A técnica significa YouTube e a Netflix (e as empresas com mídia nessas plataformas) têm materials protegido por direitos autorais obtido sem consentimento.
Os reguladores nos EUA e na UE ainda estão determinando se as práticas de coleta de dados violam as regras de direitos autorais. O relatório da 404 Media ressalta o quanto as empresas de tecnologia negligenciam a lei de direitos autorais quando se trata de IA generativa e como outros setores, como entretenimento e jogos, podem ser afetados por essas escolhas.
Funcionários da empresa expressaram preocupações sobre esse comportamento em mensagens analisadas pelo canal. Apesar dessas preocupações, a NVIDIA disse à 404 Media que suas diretrizes de scraping estão “em whole conformidade com a letra e o espírito da lei de direitos autorais. (…) O uso justo protege a capacidade de usar uma obra para um propósito transformador, como treinamento de modelos.”
Os desenvolvedores de jogos e suas empresas-mãe são detentores de direitos autorais, e o YouTube é um plataforma importante para a indústria. Ter seu trabalho levado sem ter voz ativa no assunto cria uma enorme violação de confiança com uma empresa que frequentemente usa jogos de grandes estúdios para vender seus Serviços e produtos.
Engenheiros de IA da Nvidia queriam vídeo de gameplay para melhorar seus dados de treinamento
Um funcionário falando com o canal afirma que eles e outros foram instruídos a pegar vídeos completos que pudessem ajudar a treinar o modelo de IA da empresa de tecnologia, e que as filmagens do jogo em explicit eram altamente cobiçadas pelos engenheiros. A aquisição dessas filmagens para conjuntos de dados envolveu a colaboração com o serviço de nuvem GeForceNow da NVIDIA.
Em uma conversa no Slack, o analista sênior de pesquisa Jim Fan observou os recursos de streaming do serviço para capturar e armazenar vídeos. Todos esses “vídeos de gameplay de alta qualidade”, ele disse, são dados “muito úteis” para extrair.
“Trabalharemos em estreita colaboração com (a GeForceNow) e equipes de engenharia relacionadas para configurar a captura de dados do jogo ao vivo, dimensionar o pipeline e processá-los para treinamento”, explicou ele.
No entanto, os funcionários que levantaram preocupações também foram supostamente informados pelos gerentes de projeto que a raspagem period uma “decisão executiva” com a qual não se preocupar. A “questão authorized aberta” (como a violação dos Termos de Serviço do YouTube) aparentemente seria resolvida no futuro.
Na história da 404, citações de documentos internos e canais do Slack de vários pesquisadores de IA mostram o esforço ativo da NVIDIA para evitar má imprensa. Seu vice-presidente de pesquisa, Ming-Yu Liu, enfatizou que não poderia haver “sentimento negativo” se a empresa não publicasse nenhuma pesquisa sobre seus dados de obtain.
“O que estamos fazendo aqui levará a zero publicaçõesescreveu Liu. Ele e outros funcionários também construíram seus próprios raspadores de dados do YouTube e uma conta de API para ajudar no processo.
Até que os reguladores definam o que viola e o que não viola direitos autorais no mundo da geração de IA, a NVIDIA e outras empresas provavelmente operarão em uma zona cinzenta authorized. Como Robert Mahari, do MIT, disse à 404, provar a raspagem de dados pode ser “muito difícil tecnicamente”.
“A melhor política (da empresa) em termos de incentivos é não contar às pessoas sobre o que você treinou”, ele disse. “Então, enquanto você não contar a ninguém, vai ser muito difícil provar.”
O relatório completo e abrangente da 404 Media sobre a coleta de dados da NVIDIA pode ser lido aqui.