扎克伯格故意使用盗版数据来训练元人工智能，作者声称

币界网报道：

一群作者在最近的一份法庭文件中声称，马克·扎克伯格批准使用盗版书籍来训练Meta AI，尽管他自己的团队警告说这些材料是非法获得的。

这些指控来自版权侵权诉讼2023年7月，包括喜剧演员莎拉·西尔弗曼、克里斯托弗·戈尔登和理查德·卡德里在内的一群作者在加利福尼亚州联邦法院提起诉讼。该组织声称Meta滥用他们的书籍来培训其Llama LLM，他们要求赔偿损失和禁令，以阻止Meta使用他们的作品。本案的法官驳回了提交人的大部分主张但这些最近的指控可能会为法律纠纷注入新的活力。

原告的律师在一份声明中表示：“Meta的首席执行官马克·扎克伯格批准Meta使用LibGen数据集，尽管Meta的人工智能执行团队（以及Meta的其他人）担心LibGen是‘我们知道是盗版的数据集’。”周三提交尽管存在这些危险信号，但该诉讼声称，“在升级之后”，扎克伯格为Meta的人工智能团队开了绿灯，允许他们继续使用有争议的数据集。

Meta的代表没有立即回应解密的置评请求。

该诉讼指控Meta试图将此事保密到最后一刻。就在2024年12月13日事实发现截止日期前两个小时，该公司抛弃了原告所说的“迄今为止它所出示的一些最有罪的内部文件”

根据法庭文件中的声明，Meta自己的工程师似乎对该计划感到不舒服。这组作者声称，内部消息显示Meta工程师对下载盗版材料犹豫不决，其中一人指出，“从（Meta所有的）公司笔记本电脑上下载感觉不太好（微笑表情符号）。”尽管如此，他们不仅下载了这些书，还系统地删除了版权信息，为他们进行人工智能培训做准备，诉讼称。

诉讼中的最新文件描绘了一幅公司充分意识到风险的画面：一份内部备忘录警告说，“媒体报道称我们使用了我们知道是盗版的数据集，如LibGen，这可能会破坏我们与监管机构的谈判地位。”然而，根据诉讼，Meta还是继续前进，到2024年1月通过种子网络下载和分发（或“播种”）盗版内容。

当在证词中被问及这些活动时，扎克伯格似乎与这一决定保持距离，他作证说，这种盗版行为会引发“很多危险信号”，“似乎是一件坏事”

法庭文件还表明，Meta处理版权信息的方法更注重模型训练，而不是版权规则。根据文件，一名工程师“从LibGen中过滤了[…]版权行和其他数据，以准备一个CMI剥离的版本来训练Llama。”这种对版权信息的系统性删除可能会加强作者的说法，即Meta故意试图隐藏其对盗版材料的使用。

这些披露正值Meta实现人工智能雄心的关键时刻。该公司一直在努力与OpenAI和谷歌在人工智能领域竞争，Llama 3.2是最受欢迎的开源LLM，Meta AI是ChatGPT的可靠免费竞争对手，具有类似的功能。

这些人工智能公司中的大多数都面临着法律纠纷，因为它们在训练大型语言模型方面的做法值得怀疑。Meta已经被另一组作者起诉对于侵犯版权的行为，OpenAI目前正面临不同的诉讼，要求其法学硕士在受版权保护的材料上进行培训，Anthropic也面临着不同的指控来自作家和词曲作者。

但总的来说，自从生成式人工智能爆炸式流行以来，科技企业家和创作者们一直在强烈反对。目前有数十起不同的诉讼反对人工智能公司自愿使用受版权保护的材料来训练他们的模型。但就像大多数处于危险边缘的事情一样，我们只能拭目以待法院要说什么关于这一切。