从芯片到数据：AI 的下一场战役

天空漫步者 • 5小时前

摘要

作者：OORT创始人、哥伦比亚大学教授李崇博士（Max Li）

当全球依旧聚焦于围绕 AI 芯片的战争——关税、知识产权限制、供应链制裁以及地缘政治纷争时，直接左右AI 未来发展的数据荒问题，显然被忽略了。

今年年初，埃隆·马斯克便敏锐地指出，AI 公司已经耗尽了训练模型的数据，甚至“用尽”了人类知识的总和。

本文将探讨数据池的萎缩，及去中心化 AI （DeAI）如何在解决这一挑战中扮演关键角色。

数据之战降临

首先要明确一点：数据并非取之不尽用之不竭。

数据之战早有先兆：2023 年，一群视觉艺术家对 Stability AI、MidJourney 和 DeviantArt 提起了一场具有里程碑意义的诉讼，指控这些公司在未获得许可的情况下使用他们的作品来训练生成式 AI 模型（如 Stable Diffusion）。与此同时，马斯克指责 OpenAI 等公司未经授权“抓取”推特（现为 X 平台）的数据，促使 X 平台收紧 API 定价和访问限制。

无独有偶，Reddit 大幅提高 API 定价，扰乱了依赖 Reddit 用户生成内容进行 AI 模型训练的 OpenAI 和 Anthropic 等公司。Reddit 将这一决定视为其数据货币化的方式，但也引发了关于用户数据平台和寻求使用这些数据的 AI 公司之间紧张关系的辩论。

这些事件凸显了一个日益明显的现实：我们正在耗尽合法和伦理上可用的数据。

数据的多个战线

芯片战聚焦于生产最强大的硬件，而数据战在于获取合适的数据集以训练 AI。伦理、高质量数据的日益稀缺，已成为一众企业发展AI的瓶颈。

对于大公司而言，最可行的方式是从中心化巨头那里获取数据，虽然代价高昂。然而，小型企业却面临有限且通常难以承受的选择。没有适当的收集数据的方法或渠道，这些公司将在未来AI发展和创新赛道大幅落后。

那么我们到底如何以伦理且有效的方式收集推进 AI 开发所需的数据？

数据战争将在多个前沿展开，每个方面都带来独特的挑战与机遇。

数据收集

谁掌控数据收集的管道？如何做到伦理与合法？

随着针对科技巨头的诉讼因非法抓取或使用数据而堆积如山，新兴的举措也开始出现。例如，哈佛大学率先推动获得用户同意的数据贡献，为公众提供开放访问数据集。尽管此类项目有其价值，但远不足以满足商业 AI 应用的需求。

合成数据也逐渐成为一种潜在解决方案。Meta 和微软等公司已开始利用 AI 生成数据来微调模型，如 Llama 和 Phi-4。Google 和 OpenAI 也在工作中采用了合成数据。然而，合成数据也面临自身的挑战，例如模型“幻觉”问题，这可能会影响其准确性和可靠性。

去中心化的数据收集提供了另一种有前景的选择。通过利用区块链技术并使用加密货币激励个体安全共享数据，去中心化模式可以解决隐私、所有权和质量问题。这些解决方案还民主化了数据访问，使小型企业能够在 AI 生态系统中竞争。

数据质量

低质量的数据会导致模型偏差、不准确的预测，并最终引发对 AI 系统的不信任。我们如何确保用于 AI 训练的数据是准确且具有代表性的？

行业常见做法包括：

严格的数据验证：公司采用先进的验证技术过滤数据集中的错误、不一致性和噪声。这通常涉及人工监督、自动化过程或两者结合来验证数据完整性。
偏差缓解策略：为了确保数据具有代表性，企业实施偏差检测工具和多样化的采样技术。例如，在医疗领域，数据集必须包括不同人口群体，以避免可能影响诊断模型的偏差。
遵循标准：ISO/IEC 27001 等数据安全行业框架和其他新兴伦理 AI 指南正成为确保数据质量和符合全球标准的必要条件。
众包质量检查：亚马逊机械土耳其人（Amazon Mechanical Turk）等平台被用于标记和验证数据等任务。尽管成本低，但这些方法需要监督以确保一致性和准确性。
去中心化验证：区块链和去中心化系统正逐步成为认证数据来源、确保数据真实性和防篡改的工具。

此外，各国监管机构还面临着建立全面数据隐私和安全规则的迫切挑战，这些规则需要平衡个人权利与技术创新，同时应对诸如保护敏感数据免受网络威胁、外国利用以及敌对实体滥用等关键国家安全问题。

前路崎岖

数据战争的影响深远。例如，在医疗行业，高质量患者数据的获取可以彻底改变诊断和治疗计划，但严格的隐私法规构成了障碍。同样，在音乐行业，使用伦理数据集训练的 AI 模型可以改变从作曲到版权执行的一切，前提是它们尊重知识产权。

这些挑战突显了去中心化解决方案的重要性，这些方案优先考虑数据透明度、质量和可访问性。通过利用去中心化系统，我们可以创造一个更加公平的数据生态系统，使个人保留对其数据的控制权，企业能够访问伦理且高质量的数据集，并在不损害隐私或安全的情况下推动创新。

从芯片战到数据战的转变将重塑 AI 生态系统及其演变过程，为去中心化数据解决方案提供领先的机会。通过优先考虑伦理数据收集和可访问性，去中心化 AI 有潜力弥合差距，引领更公平、更具创新性的 AI 未来。

争夺最佳数据的战斗已经开始。我们是否准备好应对？