Anthropic的Claude AI在Chatbot Arena排行榜上击败了ChatGPT

币界网报道：

虽然开放人工智能的ChatGPT在所有生成人工智能工具中占据了最大的主流份额，但在人工智能研究人员使用的一个流行的众包排行榜上，它的榜首位置被常年竞争对手Anthropic的Claude 3 Opus抢走了。

Claude在Chatbot Arena排名中的上升标志着自去年5月首次出现在排行榜上以来，为ChatGPT Plus提供动力的OpenAI的GPT-4首次被废黜。

Chatbot Arena由大型模型系统组织（LMSYS ORG）运营，该组织致力于开放模型，支持加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学的学生和教职员工之间的合作。该平台向用户提供了两个未标记的语言模型，并要求他们根据他们认为合适的任何标准对哪一个表现更好进行评分。

在汇总了数千个主观比较后，Chatbot Arena计算出排行榜的“最佳”模型，并随着时间的推移进行更新。

这种基于参与者不同个人品味的主观方法，使Chatbot Arena与其他人工智能基准不同。模型训练者不能像使用定量基准一样，通过调整模型来击败算法来“作弊”。通过衡量人们的偏好，Chatbot Arena对人工智能研究人员来说是一个宝贵的定性资源。

该平台收集用户的反馈，并通过Bradley Terry统计模型进行运行，以预测特定模型在直接竞争中优于其他模型的可能性。这种方法能够生成全面的统计数据，包括Elo评级估计的置信区间范围，这与用于衡量棋手技能的技术相同。

Chatbot Arena排名的前10名LLM。图片：拥抱脸

克劳德3号作品的登顶并不是排行榜上唯一的重大发展。同样由Anthropic开发的Claude 3 Sonnet（免费提供的中型型号）和Claude 4 Haiku（更小、更快的型号）目前分别排名第四和第六。

排行榜包括不同版本的GPT-4，如GPT-4.0314（从2023年3月起为GPT-4的“原始”版本）、GPT-4.0613、GPT-4-1106-preview和GPT-4-10125-preview（从2024年1月起通过API提供的最新GPT-4 Turbo型号）。根据排名，Sonnet和Haiku都比最初的GPT-4好，Sonnet也超过了OpenAI于2023年6月推出的调整版本。

这也意味着，可悲的是，目前只有一款开源LLM进入前十名：Qwen，Starling 7b和Mixtral 8x7B是前20名中唯一的其他开放机型。

Claude相对于GPT-4的优势之一是其令牌上下文容量和检索能力。Claude 3 Opus的公共版本处理了超过20万个代币，该组织声称有一个限制版本能够以几乎完美的检索率处理100万个代币。这意味着，与GPT-4 Turbo相比，Claude可以理解更长的提示并更有效地保留信息，后者处理128K代币，并因长提示而失去检索能力。

克劳德3 Opus vs GPT-4 Turbo的召回准确性。使用Anthropic和Greg Kamradt的数据解密的图像。

谷歌的Gemini Advanced在人工智能助理领域也越来越受欢迎。该公司提供了一项计划，在谷歌产品套件中包括2TB的存储和人工智能功能，价格与Chat GPT Plus订阅相同（每月20美元）。

免费的Gemini Pro目前排名第4，介于GPT-4 Turbo和Claude 3 Sonnet之间。顶级的Gemini Ultra型号无法进行测试，也尚未出现在排行榜上。

由Ryan Ozawa编辑。