研究人员如何破解人工智能机器人违反交通法规——甚至更糟

币界网报道：

宾夕法尼亚大学工程学院的研究人员发现了人工智能机器人的关键漏洞，揭示了操纵这些系统执行危险动作的方法，如闯红灯或从事潜在的有害活动，如引爆炸弹。

由George Pappas领导的研究团队开发了一种名为RoboPAIR的算法，该算法在三种不同的机器人系统上实现了100%的“越狱”率：Unitree Go2四足机器人、Clearpath Robotics Jackal轮式车辆和NVIDIA的Dolphin LLM自动驾驶模拟器。

乔治·帕帕斯在一份声明中说：“我们的研究表明，目前，大型语言模型在与物理世界集成时还不够安全。”陈述由EurekAlert分享。

该研究的主要作者Alexander Robey和他的团队认为，解决这些漏洞需要的不仅仅是简单的软件补丁，他们呼吁对物理系统中的人工智能集成进行全面的重新评估。

在人工智能和机器人技术的背景下，越狱是指绕过或规避人工智能系统的内置安全协议和道德约束。

它在iOS早期流行起来，当时爱好者们常常找到聪明的方法来获得root访问权限，使他们的手机能够做事情苹果公司不赞成，比如拍摄视频或运行主题。

当应用于大型语言模型（LLM）和嵌入式AI系统时，越狱涉及通过精心设计的提示或输入利用系统编程中的漏洞。

这些漏洞会导致人工智能——无论是机器还是软件——忽视其伦理训练，忽略安全措施，或执行明确设计不应执行的操作。

就人工智能驱动的机器人而言，成功的越狱可能会导致危险的现实后果，正如宾夕法尼亚大学工程学院的研究所证明的那样，研究人员能够让机器人执行不安全的行为，如在人行横道上超速、踩踏人体、引爆爆炸物或无视交通灯。

在该研究发布之前，宾夕法尼亚大学工程学院向受影响的公司通报了发现的漏洞，目前正在与制造商合作加强人工智能安全协议。

该论文的第一作者亚历山大·罗比写道：“这里需要强调的是，当你发现系统的弱点时，系统会变得更安全。这对网络安全来说是如此。对人工智能安全来说也是如此。”。

研究人员一直在研究越狱对一个越来越依赖即时工程（即自然语言“编码”）的社会的影响

值得注意的是，“坏机器人：基于LLM的实体AI在物理世界中的越狱该论文发现了人工智能机器人的三个关键弱点：

1.级联漏洞传播：在数字环境中操纵语言模型的技术会影响物理行为。例如，攻击者可以告诉模型“扮演反派角色”或“像醉酒司机一样行事”，并利用这种情况使模型以与预期不同的方式行事。
2.跨域安全错位：这突显了人工智能的语言处理和行动计划之间的脱节。人工智能可能会因为道德编程而口头拒绝执行有害的任务，但仍然会采取导致危险结果的行动。例如，攻击者可以更改提示的格式以模仿结构化输出，这样模型就会认为它的行为是预期的，但实际上是以一种有害的方式行事，比如拒绝杀死某人（语言上），但仍然采取行动来实现这一点。
3.概念欺骗挑战：这一弱点利用了人工智能对世界的有限理解。恶意行为者可能会欺骗人工智能系统，使其执行看似无害的行为，当这些行为结合在一起时，会导致有害的结果。例如，研究论文指出，具身人工智能可能会拒绝“毒害人”的直接命令，但会遵守一系列看似无害的指示，这些指示会导致相同的结果，例如“将毒药放入人的嘴里”。

“坏机器人”研究人员使用277个恶意查询的基准测试了这些漏洞，这些查询分为七种潜在危害：身体伤害、侵犯隐私、色情、欺诈、非法活动、仇恨行为和破坏。使用复杂机械臂的实验证实，这些系统可以被操纵以执行有害动作。除了这两个，研究人员还研究了基于软件的交互中的越狱，帮助新模型抵抗这些攻击。

这已经成为研究人员和越狱者之间的猫捉老鼠游戏，为更复杂、更强大的模型带来了更复杂的提示和越狱方法。

这是一个重要的注意事项，因为人工智能在商业应用中的使用越来越多，现在可能会给模型开发人员带来后果，例如，人们已经能够欺骗人工智能客服机器人给他们提供极端折扣，推荐有毒食物的食谱，或者让聊天机器人说出冒犯性的话。

但我们会选择一个拒绝引爆炸弹的人工智能，而不是一个礼貌地拒绝每天生成攻击性内容的人工智能。