AI 繁荣的背面，硅谷巨头正在“侵吞”你的数据；超 100 万小时油管视频被 OpenAI “拿去”训练 GPT-4

币界网报道：

文章来源：有新Newin

图片来源：由无界AI生成

近日，外媒报道了 OpenAI 在开发最新模型遇到困难，研究人员通过 Whisper 语音模型转录了超 100 万小时的 Youtube 视频来训练 GPT-4 模型。

据悉，一些 OpenAI 员工讨论此举可能违反 YouTube 的规则，因为 Google 旗下的 YouTube 禁止将其视频用于“独立”于 Youtube 平台的第三方 App。尽管存在这种担忧，OpenAI 团队最终转录了超过 100 万小时的 YouTube 视频，而这项工作包括了 OpenAI 总裁 Greg Brockman 的直接参与，他亲自帮助收集了这些视频。

此外，OpenAI 在 2021 年就已经耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物，并在那时就已经用数据训练了模型，这些数据包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。

调查显示，为了获取这些数据，包括 OpenAI、Google 以及 Meta 在内的科技公司纷纷走捷径，无视公司政策，并讨论违反法律。例如，Meta 公司的经理、律师和工程师去年讨论了收购 Simon & Schuster 出版社以获取长篇作品的可能性，他们还决定从互联网上收集受版权保护的数据，即使这意味着面临诉讼风险。

YouTube 于上周四表示，如果 OpenAI 在未经许可的情况下使用其视频来开发人工智能视频生成器 Sora，将违反 YouTube 的规则。YouTube CEO Neal Mohan 在接受彭博社采访时表示，Google 可能已经使用 YouTube 数据来训练其旗舰对话 AI 模型 Gemini，以符合其与内容创作者签订的许可合同，而 OpenAI CTO Mira Murati 3 月在接受采访时表示她不知道 Sora 是否接受过 YouTube 视频训练。

理论物理学家 Jared Kaplan 在 2020 年发表的一篇具有开创性的论文强调了大量数据对训练 LLM 性能的重要性。OpenAI 和其他公司正在探索如何使用两个不同的 AI 模型合作生成更有用、更可靠的合成数据，以克服数据短缺的挑战。

OpenAI 发言人 Lindsay Held 在一封电子邮件中表示，OpenAI 为其每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力，OpenAI 使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。

Meta 同样也遇到了训练数据可用性限制，其 AI 团队讨论了在努力追赶 OpenAI 的过程中未经许可使用版权作品的情况。Meta 在浏览了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后，考虑采取一些措施，例如支付图书许可费用，甚至直接收购一家大型出版商。在剑桥分析丑闻发生后，Meta 做出了以隐私为中心的变革，因此它使用消费者数据的方式显然也受到了限制。

从互联网上公开抓取大量数据来训练 AI 模型的做法仍然引发了一波版权诉讼和监管压力，同时促使一些媒体网站通过添加代码以阻止抓取。反过来，科技公司也在通过一系列数据交易来避免法律以及道德的影响。例如，通过与内容所有者的交易以及为满足需求而出现的数据经纪人行业的兴起来保障数据供应链。

在 ChatGPT 上线后的几个月内，包括 Meta、Google、Amazon 以及 Apple 在内的科技巨头都与股票图片提供商 Shutterstock 达成了协议，使用其图库中的数亿张图片、视频和音乐文件进行训练。

据悉，与这些大型科技公司的交易最初范围在 2500～5000 万美元之间。Shutterstock CFO Jarrod Yahes 表示，小型科技公司也紧随其后。

Shutterstock 的竞争对手 Freepik 也已经与两家大型科技公司达成了协议，以 2～4 美分每张图片的价格授权其 2 亿张图片档案的大部分，而 CEO Joaquin Cuenca Abela 表示，还有五笔类似的交易在进行中。

OpenAI 也已经与至少四家新闻组织签订了许可协议，包括 The Associated Press 和 Axel Springer 以及 Thomson Reuters。

除此之外，还有 Photobucket 这样曾在 2000 年初达到高峰 7000 万用户，而至今却不到 200 万用户的托管平台，由于生成式 AI 到来，而获得新的机会。

Photobucket CEO 目前正在与多家海外科技公司进行谈判，通过授权 Photobucket 130 亿张照片和视频用于训练生成式 AI 模型，这些模型可以响应文本提示产生新内容，每张照片 0.5～1 美元，每个视频超过 1 美元的费率，价格根据买家和所求的图像类型而有很大差异。

目前，这个领域仍然是一个灰色市场，涉及从聊天日志到早已被遗忘的个人照片，以及如今衰落的社交媒体应用，硅谷的科技巨头们正在悄悄购买这些“Loggin In”登陆框背后的隐秘数据。

Reference：

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb

https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

https://www.theinformation.com/briefings/youtube-says-openais-use-of-its-videos-would-violate-terms?rc=z9mejq