英伟达被指控试图与安娜的档案馆达成协议,以高速访问大规模盗版图书,据称是为了追逐被盗数据来推动其有限责任公司
英伟达被指控为安娜档案的“高速访问”付费。安娜档案是一个臭名昭著的“影子图书馆”门户网站,充斥着copyright-infringing的材料。TorrentFreak发布的文件似乎显示,英伟达数据战略团队就安娜档案的“高速访问”付款进行了接触。此外,如果这些文件是真实的,它们表明绿色团队管理层“在一周内”批准了支付计划
英伟达和其他人工智能行业巨头一样,对获得最大的人类知识来源以提高LLM培训质量非常感兴趣。像Meta和Anrowpic这样的公司以前曾被发现在盗版内容上到处都是他们的手指。这些超级富有的公司小心翼翼地保护自己的技术,因此他们似乎很少或根本不考虑他人知识产权的证据将是讽刺的来源。TorrentFreak指出,它分享的电子邮件片段是在正在进行的集体诉讼的发现阶段沉淀下来的,在该诉讼中,英伟达被指控通过根据Books3数据集的内容训练其模型侵犯版权,包括从盗版网站Bibleotk获取的受版权保护的作品。
在这种情况下,英伟达在“合理使用”下为自己的行为辩护,但显示安娜档案通信的新证据看起来令人信服。事实上,Books3集体诉讼背后的作者已经提交了一份修正后的投诉,大大扩大了诉讼范围,上面显示了英伟达代表和安娜档案之间最严厉的通信TorrentFreak.One。这段片段似乎显示了一个未透露姓名的英伟达退出者询问安娜档案用于法学硕士培训的情况。然而,可能更糟糕的是,新的法庭文件中声称“在联系安娜档案的一周内,在安娜档案警告他们收藏的非法性质几天后,英伟达管理层为继续盗版开绿灯”
拟议中的交易将意味着为英伟达提供约500TB的LLM培训数据的高速访问。我们没有看到交易实际完成的证据,也没有看到任何付款进入安娜的档案馆。英伟达还被指控让企业客户自动访问数据集,如“堆”,其中包括图书3盗版收藏。
集体诉讼背后的作者正在为他们所遭受的损害寻求赔偿。数百名其他作品在巨大的盗版图书馆内的作者可能会在以后加入集体诉讼。
安娜的档案目前仍然在线,尽管它不断上升的知名度已经将它推向了不可避免的DCMA下架通知打鼹鼠阶段。
正如介绍中提到的,“图书3”也被元数据和人类法学硕士挖掘出来。然而,这是美国公司和copyright-infringing图书存储库之间正式安娜档案业务安排的第一次指控。我们已经联系英伟达就这个故事发表评论。在谷歌新闻上关注汤姆的硬件,或者将我们添加为首选来源,以在您的订阅源中获取我们的最新新闻、分析和评论。








英伟达被指控试图与安娜的档案馆达成协议,以高速访问大规模盗版图书,据称是为了追逐被盗数据来推动其有限责任公司