人工智能代理是否已为工作场所做好准备?一项新的基准测试引发了人们的质疑。
2026-01-23 05:50:23
币界网报道:来自训练数据公司Mercor的一项最新基准测试表明,人工智能模型在应对现实世界中的白领工作任务时仍然面临挑战。这项名为Apex-Agents的测试基于咨询、银行和法律等行业的实际工作数据,结果显示,即使是Gemini 3 Flash和GPT-5.2这样的顶级模型,在大多数查询中也表现不佳,准确率低于25%。关键挑战在于多领域信息检索,而这正是人类的核心技能。研究人员注意到人工智能技术正在快速进步,但最终得出结论:人工智能尚未做好取代专业人士的准备。