这个免费的“推理”人工智能模型击败了OpenAI的o1——无需每月20美元的费用

摘要

先进的人工智能不需要雄厚的资金：加州大学伯克利分校的研究人员刚刚发布了一个开源的人工智能推理模型，与ChatGPT每月20美元的版本一样好。

币界网报道：

Novasky是一个“由加州大学伯克利分校天空计算实验室的学生和顾问领导的合作项目”，该团队在几个月前完成了看似不可能的事情：他们以不到450美元的培训成本创建了一个高性能的人工智能推理模型。

与简单预测句子中下一个单词的传统LLM不同，所谓的“推理模型”旨在理解问题，分析解决问题的不同方法，并执行最佳解决方案。这使得这些模型更难训练和配置，因为它们必须在整个问题解决过程中“推理”，而不仅仅是根据训练数据集预测最佳反应。

这就是为什么运行最新o3推理模型的ChatGPT Pro订阅每月花费200美元的原因——OpenAI认为这些模型的训练和运行成本很高。

新的Novasky模型，被称为Sky-T1，与OpenAI相当第一推理模型，被称为o1，又名草莓，于2024年9月发布，每月花费用户20美元。相比之下，Sky-T1是一个320亿参数的模型，能够在家用电脑上本地运行——只要你有一个强大的24GB GPU，比如RTX 4090或旧的3090 Ti。而且它是免费的。

我们不是在谈论一些淡化的版本。Sky-T1-32B-Review在AIME2024数学问题上的准确率达到43.3%，超过了OpenAI o1的40%。在LiveCodeBench Medium上，它的得分为56.8%，而o1预览版的得分为54.9%。该模型在其他基准测试中也保持了强劲的性能，在Math500问题上达到了82.4%，其中o1预览得分为81.4%。

时机再有趣不过了。人工智能推理竞赛最近一直在升温OpenAI的o3引人注目通过在通用智能基准上超越人类，引发了关于我们是看到早期AGI还是通用人工智能的争论。与此同时，中国Deepseek v3去年，它在使用更少的资源和开源的同时，表现优于OpenAI的o1，掀起了波澜。

但伯克利的方法不同。该团队没有追逐原始动力，而是专注于让大众尽可能便宜地获得一个强大的推理模型，构建一个易于微调并在本地计算机上运行的模型，而无需昂贵的企业硬件。

Novasky在其官方声明中表示：“值得注意的是，Sky-T1-32B-Review的培训费用不到450美元，这表明可以经济高效地复制高级推理能力。所有代码都是开源的。”博客文章.

目前，OpenAI并没有免费提供对其推理模型的访问，尽管它确实提供了对一个不太复杂的模型的免费访问。

对于开发人员来说，以低于500美元的价格微调特定领域卓越的推理模型的前景尤其引人注目，因为这种专门的模型在目标领域中可能优于更强大的通用模型。这种具有成本效益的专业化为跨科学领域的重点应用开辟了新的可能性。

该团队使用Nvidia H100 GPU对他们的模型进行了19个小时的训练，遵循了他们所说的大多数开发人员应该能够复制的“配方”。训练数据看起来像是人工智能挑战的最大亮点。

Novasky说：“我们的最终数据包含来自APP和TACO的5K编码数据，以及来自NuminaMATH数据集的AIME、math和Olympiads子集的10k数学数据。此外，我们还维护了来自STILL-2的1k科学和谜题数据。”。

数据集的多样性足以帮助模型在不同类型的问题上灵活思考。Novasky使用另一个开源推理AI模型QwQ-32B预览来生成数据并微调Qwen2.5-32B-说明书开源LLM。结果是一个具有推理能力的强大新模型，后来成为了Sky-T1。

该团队工作的一个关键发现是：在人工智能模型方面，规模越大越好。他们对较小的70亿和140亿参数版本的实验只显示了适度的收益。结果发现，最佳点是320亿个参数——足够大以避免重复输出，但不会太大而变得不切实际。

如果你想拥有自己版本的模型来击败OpenAI o1，你可以在上下载Sky-T1拥抱的脸。如果你的GPU不够强大，但你仍然想尝试一下，有量化版本，从8位一直到2位，所以你可以用精度换取速度，并在你的土豆PC上测试下一个最好的东西。

请注意：开发人员警告说，这种量化水平“不建议用于大多数目的”

编辑人安德鲁·海沃德