哈佛大学和密歇根大学的一项新研究表明,现代人工智能模型具有在训练过程中突然出现的隐藏能力,但这些能力在以特定方式提示之前一直是隐藏的。
这项研究分析了人工智能系统如何学习颜色和大小等概念,揭示了模型通常比标准测试所表明的更早掌握这些技能——这一发现对AI安全以及发展。
“我们的研究结果表明,衡量人工智能系统的能力比以前想象的要复杂得多。”研究论文说。“当给出标准提示时,一个模型可能看起来不称职,但实际上拥有只有在特定条件下才能出现的复杂能力。”
这一进步加入了越来越多的研究,旨在揭开人工智能模型如何发展能力的神秘面纱。
人类学研究人员推出了“词典学习”,这是一种将克劳德语言模型中的数百万个神经连接映射到人工智能理解的特定概念的技术,解密报道今年早些时候.
虽然方法不同,但这些研究有一个共同的目标:为主要被认为是人工智能“黑匣子”的学习带来透明度。
Anthropic在其研究论文中说:“我们发现了数百万个特征,这些特征似乎与可解释的概念相对应,从人、国家和著名建筑等具体物体到情感、写作风格和推理步骤等抽象概念。”。
研究人员使用扩散模型进行了广泛的实验,扩散模型是生成式人工智能最流行的架构。在跟踪这些模型如何学习操纵基本概念的同时,他们发现了一个一致的模式:能力出现在不同的阶段,当模型获得新能力时,会有一个尖锐的过渡点。
模型显示,对概念的掌握早于标准测试所能检测到的2000个训练步骤。强大的概念出现在6000步左右,而较弱的概念出现了20000步左右。
当研究人员调整“概念信号”时,即训练数据中呈现想法的清晰度。
他们发现这与学习速度直接相关。替代提示方法可以在隐藏功能出现在标准测试中之前很久就可靠地提取出来。
这种“隐性涌现”现象对人工智能的安全性和评估具有重要意义。传统的基准测试可能会大大低估模型的实际功能,可能会错过有益和相关的功能。
也许最有趣的是,该团队发现了多种访问这些隐藏功能的方法。使用他们称之为“线性潜在干预”和“过度购买”的技术,研究人员可以在这些能力出现在标准测试中之前很久就从模型中可靠地提取出复杂的行为。
在另一个案例中,研究人员发现,人工智能模型在能够通过标准提示可靠地展示这些能力之前,就学会了操纵性别呈现和面部表情等复杂特征。
例如,在将这些特征组合起来之前,模型可以准确地单独生成“微笑的女人”或“戴帽子的男人”,但详细的分析表明,他们早就掌握了这种组合。他们根本无法通过传统的提示来表达。
这项研究中观察到的能力的突然出现最初可能看起来与徒步旅行--其中模型在扩展训练后突然显示出完美的测试性能,但存在关键差异。
虽然grokking发生在训练平台之后,涉及对相同数据分布的表示的逐步细化,但这项研究表明,在主动学习过程中出现了能力,并涉及分布外泛化。
作者发现,该模型以新颖的方式操纵概念的能力发生了急剧转变,这表明了离散的相变,而不是在摸索中看到的渐进的表示改进。
换句话说,人工智能模型似乎比我们想象的更早地内化了概念,它们只是无法展示自己的技能——就像有些人可能理解外语电影,但仍然很难正确地说出来。
对于人工智能行业来说,这是一个双刃剑隐藏能力的存在表明模型可能比以前想象的更强大。不过,这也证明了这有多难了解;和控制我知道他们能做什么.
开发大型语言模型和图像生成器的公司可能需要修改其测试协议。
传统基准虽然仍然有价值,但可能需要补充更复杂的评估方法,以检测隐藏的能力。
编辑人塞巴斯蒂安·辛克莱