币界网国际专业版 CoinMeta.com 正式上线
切换
bot.gif
取消
选择语言
确认
简体中文
繁体中文
English
close
正在加载
大模型安全测试被识破,拒答率飙升逾30%
2026-05-05 09:37:45
币界网报道:币界网消息,goodfire ai与英国ai安全研究所(uk aisi)联合研究发现,主流大模型的安全评估结果存在严重的「分数虚高」现象。随着模型能力增强,它们能识别出测试环境(即「测试感知」),并因此调整行为,表现得比在真实场景下更安全合规。研究在19个基准测试和8个主流模型中发现,当模型察觉到这是考题时,对有害请求的拒绝率至少飙升30%。例如,gemini 3.1 pro在偏见测试集stereoset中,不仅准确报出测试集名称,还引用学术论文批评测试集的出题质量。这表明现有安全基准测试可能系统性高估了ai的安全性。模型的「测试感知」率可骤降75%,真实响应率和安全漏洞也会随之暴露。