马斯克:AI训练数据已耗尽,合成数据将成未来方向
2025-01-09 19:06:08
币界网报道:币界网消息,1 月 9 日,据 TechCrunch 报道,埃隆·马斯克在与 Stagwell 董事长 Mark Penn 的直播对话中表示,目前 AI 模型的训练已基本耗尽真实世界的数据,“我们已经用尽了人类知识的累积总和,这在去年就发生了。”马斯克与前 OpenAI 首席科学家 Ilya Sutskever 的观点一致,后者在 NeurIPS 机器学习大会上提出 AI 行业已达到“数据峰值”,未来可能需要改变模型开发方式。马斯克认为,合成数据将是补充真实数据的途径,AI 将通过生成和自我评估数据实现自我学习。这一趋势已被包括微软、Meta、OpenAI 和 Anthropic 等科技巨头采用,如微软 Phi-4 模型和谷歌 Gemma 模型都结合了真实数据和合成数据进行训练。Gartner 预测,2024 年 AI 和分析项目中约 60% 的数据将为合成生成。合成数据的优势包括成本节约,例如 AI 初创公司 Writer 仅花费约 70 万美元开发其几乎完全基于合成数据的 Palmyra X 004 模型,相比之下,类似规模的 OpenAI 模型开发成本约为 460 万美元。然而,合成数据也存在风险,包括模型创造力下降、输出偏差加剧,以及潜在的模型崩溃,尤其当训练数据本身存在偏差时,生成结果也可能受到影响。
发表评论
暂无评论
免责声明:本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。币界网对于网站及其内容不作任何类型的保证,网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用,不构成任何投资、法律等其他领域的建议和依据。币界网用户以及其他第三方平台在本网站发布的任何内容均由其个人负责,与币界网无关。币界网不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容,并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。