OpenAI将通过新的安全培训范式推进o1和o3 AI模型

Florence Muchai • 4小时前

摘要

OpenAI通过“审慎对齐”引入了带有新安全训练的o3模型，增强了AI推理与开发人员价值观的一致性。

周五，OpenAI宣布发布一个新的人工智能模型家族，名为o3。该公司声称，新产品比以前的型号更先进，包括o1。根据这家初创公司的说法，这些进步源于近几个月来探索的扩展测试时间计算的改进，以及用于训练这些模型的新安全范式的引入。

作为其持续致力于提高人工智能安全性的一部分，OpenAI分享了一个新的研究详细说明了“审慎对齐”的实施。新的安全方法旨在确保人工智能推理模型与其开发人员设定的值保持一致；

OpenAI声称，这种方法被用来改善o1和o3模型的一致性，引导它们在推理阶段考虑OpenAI的安全策略。推理阶段是用户向模型提交提示后到模型生成响应前的时期；

OpenAI在其研究中指出，审慎的一致性降低了模型产生“不安全”答案或公司认为违反其安全政策的反应的速度，同时提高了模型更有效地回答良性问题的能力。

协商一致如何运作；

该过程的核心是让模型在思维链阶段重新提示自己。例如，在用户向ChatGPT提交问题后，AI推理模型需要几秒钟到几分钟的时间才能将问题分解为更小的步骤；

然后，这些模型根据他们的思维过程生成答案。在协商一致的情况下，这些模型将OpenAI的安全政策作为内部“审议”的一部分

OpenAI训练其模型，包括o1和o3，以回忆公司安全政策的部分内容，作为这一思维过程的一部分。这样做是为了确保在面对敏感或不安全的查询时，模型能够自我调节，拒绝提供可能造成伤害的答案；

然而，实现这一安全功能被证明是具有挑战性的，因为OpenAI研究人员必须确保增加的安全检查不会对模型的速度和效率产生负面影响。

OpenAI的研究中提供了一个例子，引用TechCrunch的一项研究展示了这些模型如何使用审慎对齐来安全地响应潜在的有害请求。在该示例中，用户询问如何创建逼真的残疾人停车标牌；

在该模型的内部思维链中，该模型回顾了OpenAI的安全政策，认识到该请求涉及非法活动（伪造停车牌），并拒绝提供协助，为其拒绝道歉。

这种内部审议是OpenAI如何使其模型与安全协议保持一致的关键部分。例如，与简单地阻止与“炸弹”等敏感话题相关的任何提示（这会过度限制模型的响应）不同，审慎的对齐允许人工智能评估提示的具体背景，并就是否回答做出更微妙的决定。

除了安全方面的进步，OpenAI还分享了基准测试的结果，这些结果表明了审慎一致性在提高模型性能方面的有效性。一个被称为帕累托的基准衡量模型对常见越狱的抵抗力，以及绕过人工智能保护措施的尝试；

在这些测试中，OpenAI的o1预览模型在避免不安全输出方面优于其他流行模型，如GPT-4o、Gemini 1.5 Flash和Claude 3.5 Sonnet。

意大利数据保护机构因OpenAI侵犯隐私而对其处以罚款；

在一个单独但相关的事态发展中，OpenAI在对该公司处理个人数据的调查后，被意大利数据保护机构Garante罚款1500万欧元（1558万美元）；

罚款源于该机构的调查结果，即OpenAI在没有法律依据的情况下处理用户的个人数据，违反了欧盟隐私法要求的透明度和用户信息义务。

据路透社报道，这项始于2023年的调查还显示，OpenAI没有建立足够的年龄验证系统，这可能会使13岁以下的儿童接触到不合适的人工智能生成的内容；

欧盟最严格的人工智能监管机构之一Garante命令OpenAI在意大利开展为期六个月的公众活动，以提高人们对ChatGPT的认识数据收集实践，特别是它使用个人数据来训练算法。

作为回应，OpenAI将罚款描述为“不成比例”，并表示打算对这一决定提出上诉。该公司进一步批评罚款相对于其在相关期间在意大利的收入过高；

Garante还指出，罚款是考虑到OpenAI的“合作立场”而计算的，这意味着如果该公司在调查期间没有被视为合作，罚款可能会更高。

这并不是OpenAI第一次在意大利面临审查。去年，Garante曾短暂禁止由于涉嫌违反欧盟隐私规则，ChatGPT在意大利的使用情况。在OpenAI解决了一些问题后，该服务得以恢复，包括允许用户拒绝同意使用他们的个人数据来训练算法。

在90天内找到一份高薪的Web3工作：终极路线图

相关资讯

邀请好友参与，瓜分$100,000K USDT奖池！

互联网 · 2024-11-27 18:36

【公告】认准官方联系方式，共同抵御网络诈骗

互联网 · 2023-11-17 11:09

埃隆·马斯克对SBF获得总统赦免的言论作出回应

互联网 · 2024-12-24 00:43

随着12月的结束，比特币面临2万美元的崩溃风险：本周比特币的情况

互联网 · 2024-12-24 00:30

对Nintendo Switch 2有什么期待？以下是一位内部人士的说法

互联网 · 2024-12-24 00:30

Tron:AI将在2024年12月底前设定TRX价格

互联网 · 2024-12-24 00:23

MicroStrategy股价下跌，因5.16亿美元比特币买入和纳斯达克100指数入场

互联网 · 2024-12-24 00:23

PEPE价格是否准备反弹？TD连续信号大幅推进！

互联网 · 2024-12-24 00:08

免责申明：

本网站所提供的所有信息仅供参考，不构成任何投资建议。用户在使用本网站的信息时应自行判断和承担风险。币界网不对用户因使用本网站信息而导致的任何损失负责。用户在进行任何投资活动前应自行进行调查和研究，并谨慎决策。币界网不对用户基于本网站信息做出的任何投资决策负责。用户在本网站发布的任何内容均由其个人负责，与币界网无关。