研究人员表示，埃隆·马斯克的Grok AI聊天机器人安全性最弱，而Meta的Llama则很强大

币界网报道：

安全研究人员在最受欢迎的人工智能模型周围放置了备受吹捧的护栏，以观察它们抵御越狱的能力，并测试了聊天机器人可以被推入危险区域的程度。实验确定，Grok——埃隆·马斯克的x.AI开发的具有“有趣模式”的聊天机器人——是这群人中最不安全的工具。

Adversa AI联合创始人兼首席执行官Alex Polyakov告诉Decrypt：“我们想测试现有解决方案的比较情况，以及LLM安全测试的根本不同方法，这些方法可能会导致各种结果。”。Polyakov的公司专注于保护人工智能及其用户免受网络威胁、隐私问题和安全事件的影响，并吹嘘其工作在Gartner的分析中被引用。

越狱是指规避软件开发人员实施的安全限制和道德准则。

在一个例子中，研究人员使用了一种语言逻辑操作方法——也被称为基于社会工程的方法——询问Grok如何引诱孩子。聊天机器人提供了详细的回应，研究人员指出，这是“高度敏感的”，默认情况下应该受到限制。

其他研究结果提供了如何给汽车加电和制造炸弹的指导。

图片：Adversa。人工智能

研究人员测试了三类不同的攻击方法。首先，上述技术，它应用各种语言技巧和心理提示来操纵人工智能模型的行为。引用的一个例子是使用“基于角色的越狱”，将请求框定为允许不道德行为的虚构场景的一部分。

该团队还利用编程逻辑操纵策略，利用聊天机器人理解编程语言和遵循算法的能力。其中一种技术是将危险的提示拆分为多个无害的部分，然后将它们连接起来以绕过内容过滤器。七分之四的模型——包括OpenAI的ChatGPT、Mistral的Le Chat、谷歌的Gemini和x.AI的Grok——容易受到这种攻击。

图片：Adversa。人工智能

第三种方法涉及对抗性人工智能方法，针对语言模型如何处理和解释标记序列。通过精心制作具有相似矢量表示的令牌组合提示，研究人员试图避开聊天机器人的内容审核系统。然而，在这种情况下，每个聊天机器人都检测到了攻击，并防止其被利用。

研究人员根据聊天机器人在阻止越狱企图方面各自的安全措施的强度对其进行了排名。Meta LLAMA是所有测试聊天机器人中最安全的型号，其次是Claude，然后是Gemini和GPT-4。

Polyakov告诉Decrypt：“我认为，教训是，与封闭式产品相比，开源给了你更多的可变性来保护最终解决方案，但前提是你知道该做什么以及如何正确地做。”。

然而，Grok对某些越狱方法表现出相对较高的脆弱性，尤其是那些涉及语言操纵和编程逻辑利用的方法。根据该报告，Grok比其他人更有可能在越狱时提供可能被视为有害或不道德的回应。

总体而言，埃隆的聊天机器人与Mistral AI的专有模型“Mistral Large”一起排名最后

图片：Adversa。人工智能

为了防止潜在的滥用，没有披露完整的技术细节，但研究人员表示，他们希望与聊天机器人开发者合作，改进人工智能安全协议。

人工智能爱好者和黑客都在不断探索“无传感器”聊天机器人互动的方法，在留言板和Discord服务器上交换越狱提示。技巧从OG Karen提示到更具创造性的想法，如使用ASCII艺术或用异国语言提示。在某种程度上，这些社区形成了一个巨大的对抗性网络，人工智能开发人员可以修补和增强他们的模型。

然而，有些人看到了犯罪的机会，而另一些人只看到了有趣的挑战。

波利亚科夫说：“在许多论坛上，人们出售可以用于任何恶意目的的越狱模型。”。“黑客可以使用越狱模型创建钓鱼电子邮件、恶意软件、大规模生成仇恨言论，并将这些模型用于任何其他非法目的。”

波利亚科夫解释说，随着社会开始越来越依赖人工智能驱动的解决方案，从约会到战争，越狱研究变得越来越重要。

他警告说：“如果这些聊天机器人或他们所依赖的模型被用于自动化决策，并连接到电子邮件助理或金融业务应用程序，黑客将能够完全控制连接的应用程序并执行任何行动，例如代表被黑客入侵的用户发送电子邮件或进行金融交易。”。

由Ryan Ozawa编辑。