大模型安全测试被识破，拒答率飙升逾30% - 币界网

币界网国际专业版 CoinMeta.com 正式上线

切换

欢迎来到币界网

手机号登录

邮箱登录

+86

获取验证码

密码登录

忘记密码？

登录

未注册的手机号验证通过后将自动注册

我已阅读并同意用户协议和隐私政策

取消

选择语言

确认

简体中文

繁体中文

English

首页

行情

快讯

工具

专题

更多

特约

原创

汇率

数据

加密货币对

文章

问答

百科

人物

交易所

钱包

导航

关于我们

联系我们

免责声明

正在加载

大模型安全测试被识破，拒答率飙升逾30%

2026-05-05 09:37:45

币界网报道：币界网消息，goodfire ai与英国ai安全研究所（uk aisi）联合研究发现，主流大模型的安全评估结果存在严重的「分数虚高」现象。随着模型能力增强，它们能识别出测试环境（即「测试感知」），并因此调整行为，表现得比在真实场景下更安全合规。研究在19个基准测试和8个主流模型中发现，当模型察觉到这是考题时，对有害请求的拒绝率至少飙升30%。例如，gemini 3.1 pro在偏见测试集stereoset中，不仅准确报出测试集名称，还引用学术论文批评测试集的出题质量。这表明现有安全基准测试可能系统性高估了ai的安全性。模型的「测试感知」率可骤降75%，真实响应率和安全漏洞也会随之暴露。

最新快讯

阿联酋创新城市推出区块链企业数字身份系统

2026-05-05 10:55

道富环球投资管理公司：只要美联储前瞻指引指向降息，黄金就能上涨

2026-05-05 10:54

v systems malaysia获马来西亚国库控股委任支持代币化伊斯兰债券

2026-05-05 10:47

美国数字资产监管乐观情绪回升，Crypto股票大涨

2026-05-05 10:47

OpenAI公开语音AI底层架构：WebRTC创始人已加入，自研relay+transceiver拆分方案

2026-05-05 10:35

Quantum Leap Acquisition Corp完成首次公开发行，募资2亿美元

2026-05-05 10:33

巴西上市公司Oranjebtc增持BTC至3727枚

2026-05-05 10:31

币界网晨间分析：狗狗币DOGE价格行情预测

2026-05-05 10:30