OpenAI联合创始人Andrej Karpathy：以自动驾驶为例，谈谈AGI

币界网报道：

原文来源：学术头条

图片来源：由无界 AI生成

【编者按】ChatGPT、GPT-4 的出现，让人们真真正正感受到「大模型改变世界」的强大能力。然而，关于大模型的讨论大多是抽象的、不具体的，或许过于乐观，或许过于忧虑。

正如 OpenAI 联合创始人、前特斯拉人工智能和视觉总监 Andrej Karpathy 在题为“Self-driving as a case study for AGI”的最新博客中写到的：“不幸的是，很多讨论都相当抽象，导致人们在这个话题上绕圈子，无法达成共识。”

Karpathy 以自动驾驶为例，谈到了个人对 AGI 未来形态的看法，认为“自动驾驶能力方面的发展是研究 AGI 的一个很好的早期案例研究”。

核心观点如下：

Copilot 和 GPT-4 就是“二级”编程自动化；
AGI 会受到“需求超过供应”的限制，原因在于，开发者的自我限制、监管限制，以及简单直接的资源短缺（如需要建设更多的 GPU 数据中心）；
在更广泛的工作领域中，许多工作将发生变化，一些工作会消失，但也会出现许多新的工作机会，这更多的是工作的重构而不是直接删除；
AGI 更像是自动驾驶这样的技术，它的进展是逐步的，社会既是观察者也是参与者，其扩展受到多种因素的限制，包括监管和受过教育的劳动力资源、信息、材料和能源；
世界不会因此崩溃，而是会适应、改变和重构。以自动驾驶为例，交通的自动化将使其更加安全，城市将变得更加清洁、通畅，停车场和路边停放的汽车将逐渐消失，为人们腾出更多空间。

学术头条在不改变原文大意的情况下，做了简单的编译。内容如下：

近期，随着大型语言模型（LLMs）的发展，围绕着通用人工智能（AGI）、其发展时间表以及可能的形态等话题，社会上出现了许多讨论。这些讨论有的充满希望和乐观，但也不乏对未来的忧虑和悲观。不幸的是，很多讨论都相当抽象，导致人们在这个话题上绕圈子，无法达成共识。因此，我一直在寻找具体的类比和历史先例，从而以更实际的方式探讨这个话题。特别是当被问及我个人对 AGI 未来形态的看法时，我倾向于以自动驾驶为例进行说明。在这篇文章中，我将解释这一点。

首先，让我们看看 AGI 的一个常见定义：

AGI：一种可以在大多数有经济价值的工作中超越人类能力的自主系统。

请注意，这个定义中有两个具体要求。首先，它是一个完全自主的系统，即它能够在极少或没有人类监督的情况下独立运作；其次，它能够在大多数有经济价值的工作中自主操作。为了具体说明，我个人喜欢参考美国劳工统计局的职业指数。同时具备这两种特性的系统，就是 AGI。

在这篇文章中，我想提出的观点是，我们最近在自动驾驶能力方面的发展是一个很好的早期案例研究，可以说明自动化程度不断提高所带来的社会动力，进而说明 AGI 总体上会是什么样子。

我之所以这样认为，是因为自动驾驶领域有一些特点，大致可以概括为“这是一件大事”：自动驾驶对社会来说非常直观和可见（想象一下街道上没有司机的汽车！），从规模上看，它是经济的一大组成部分，目前雇佣了大量的人力工作（想想 Uber/Lyft 的司机），而且驾驶是一个难以自动化的问题，但我们做到了（领先于经济的许多其他领域），社会已经注意到并正在对此做出反应。当然，还有其他行业也经历了巨大的自动化变革，但我个人对它们不太熟悉，或者它们在上述某些特点上有所不足。

部分自动化

在人工智能领域，自动驾驶被认为是一个“足够复杂”的问题，它不是凭空出现的；它是一个将驾驶任务自动化的渐进过程，中间有许多“工具人工智能”的结果。

在汽车自动驾驶方面，许多汽车现在都配备了“二级”驾驶辅助系统——一种与人类协作，共同完成从 A 点到 B 点行驶任务的人工智能。这种系统并非完全自动化，但可以处理很多低级别的驾驶细节。有时，它甚至能自动完成整个操作（比如，为你停车）。人类主要作为这一活动的监督者，但原则上随时可以接管驾驶任务，或下达高层次指令（比如，请求换道）。在某些情况下（比如，跟随车道和快速决策），人工智能的表现超过了人类，但在罕见的场景中仍然可能不如人类。这与我们开始在其他行业部署的许多工具型人工智能类似，尤其是随着大型语言模型的能力不断提升。例如，作为一名程序员，当我使用 GitHub Copilot 自动完成一段代码，或用 GPT-4 编写更大的 function 时，我将低级细节交给了自动化系统，但同时，我也可以在需要时进行“干预”。也就是说，Copilot 和 GPT-4 就是“二级”编程自动化。在整个行业中有许多此类二级自动化，它们并非都基于 LLMs——从 TurboTax 到亚马逊仓库里的机器人，再到翻译、写作、艺术、法律、市场等领域的许多其他“工具型人工智能”。

全自动化

在自动化技术的发展中，有些系统达到了足够的可靠性，变得像今天的 Waymo 一样。它们逐渐进入了完全自主的领域。如今在旧金山，你可以打开一个应用程序，呼叫 Waymo 而不是 Uber。一辆无人驾驶的汽车就会来接你，把你这位付费乘客带到目的地。这真的很惊人。你不需要懂得开车，也不必保持注意力集中，你可以放松地躺下小睡一会，而系统会安全地把你从 A 点送到 B 点。和我交谈过的许多人一样，我个人更喜欢乘坐 Waymo 而不是 Uber，并且几乎完全转用 Waymo 来进行市内交通。你会得到一个更加稳定、可重复的体验，驾驶很平稳，可以播放音乐，还可以和朋友聊天，而不用花费脑力去思考司机在听你说话时在想什么。

全自动化的混合经济

然而，即使现在已经有了自动驾驶技术，但仍有许多人选择叫 Uber 而不是 Waymo。原因是什么？首先，许多人根本不知道他们可以叫 Waymo。即便知道，他们也可能还不完全信任自动化系统，更愿意由人类驾驶。此外，有些人可能就是喜欢与人类司机交谈、开玩笑，享受与他人的互动。除了个人偏好外，从目前应用程序中等待时间不断增加的情况来看，Waymo 明显供不应求。没有足够的汽车来满足需求。这部分原因可能是 Waymo 正在谨慎管理和监控风险及公众舆论。另一个可能的原因是，Waymo 有一个来自监管机构的配额，即他们被允许在街道上部署多少辆车。此外，Waymo 也不能一夜之间就完全取代 Uber。他们需要建设基础设施、生产车辆、扩大运营规模。我认为，其他经济领域的各种自动化也会呈现类似的情况——有些人或公司会立即使用它们，但许多人 1) 对它们一无所知，2) 即使知道，也不信任它们，3) 即使信任，仍然更愿意雇佣和与人类合作。除此之外，需求超过供应，而 AGI 在这些方面也会受到相同的限制，原因也完全一样——开发者的自我限制、监管限制，以及简单直接的资源短缺（如需要建设更多的 GPU 数据中心）。

全自动化的全球化

正如我前面提到的资源限制，在全世界范围内推广这项技术仍然非常昂贵、劳力密集，且进展缓慢。如今，Waymo 只能在旧金山和凤凰城运行，但其方法本质上是通用且可扩展的，因此可能很快就会扩展到洛杉矶、奥斯汀等地。产品的推广也可能受到其他环境因素的限制，比如在大雪中行驶。在一些罕见的情况下，可能甚至需要人类操作员的救援。能力的扩展并非“免费”的。例如，Waymo 要进入一个新城市，就必须耗费资源。他们必须确定地位，绘制街道地图，调整感知和规划/控制系统，从而适应一些独特情况，或当地的规则和法规。在我们的工作类比中，许多工作可能只在某些环境或条件下实现完全自动化，而扩大覆盖范围需要工作和努力。在这两种情况下，方法本身是通用且可扩展的，前沿也会扩展，但只能随着时间的推移逐步实现。

社会反应

另一个让我觉得有趣的方面是，就在几年前，到处都是关于“它会成功吗”“它不会成功吗”的评论和 FUD（恐惧、不确定和犹豫），人们还在争论它是否可能。而现在，自动驾驶真的出现了，它不再是研究原型，而是一种产品——我可以用金钱换取全自动交通服务。在目前的运行范围内，该行业已实现了完全自主。然而，总的来说，几乎没人关心这一点。我交谈的大多数人（即使是科技行业的人！）甚至都不知道这一变化。当你乘坐 Waymo 在旧金山街头行驶时，你会看到许多人将其视为一种奇特的东西。他们先是惊讶，然后一直盯着看，然后继续他们的生活。当全自动化在其他行业引入时，也许世界并不会因此掀起风暴。大多数人可能一开始甚至都没有意识到这一点。当他们意识到时，可能会瞥一眼然后耸耸肩，这种反应从否认到接受不等。一些人对此则感到非常不安，在 Waymo 前放置锥形物进行抗议。当然，这方面的影响还远未完全显现，但当它发生时，我预计这将是一个广泛的预示。

经济影响

让我们来谈谈自动化对工作的影响。显然，Waymo 代替了司机的职位，但它也创造了许多之前不存在且不太显眼的工作——如协助收集神经网络训练数据的人工标注员、在车辆遇到问题时远程连接支援的客服人员、建造和维护车队、地图等的工作人员。为了组装这些高度智能化的高科技汽车，首先要创建一个由各种传感器和相关基础设施组成的全新产业。同样的，在更广泛的工作领域中，许多工作将发生变化，一些工作会消失，但也会出现许多新的工作机会。这更多的是工作的重构而不是直接删除，即使这种删除是最显著的部分。很难说总体的工作数量不会在某个时点和随时间而减少，但这种情况的发生速度要比天真地看待这种情况的人想象的慢得多。

竞争格局

我想考虑的最后一个方面是竞争格局。几年前，自动驾驶汽车公司数量众多。然而，由于这个领域的难度极大（我认为在当前的人工智能和计算技术水平下，实现自动化“仅仅是可能的”），如今，这个生态系统已经显著整合。Waymo 已经实现了自动驾驶未来的第一个功能完备展示。尽管如此，还有一些公司在追赶，包括 Cruise、Zoox，当然还有我个人最喜欢的 Tesla。鉴于我在这个领域的实际经历和参与情况，我在这里简要说明一下。我认为，自动驾驶行业的最终目标是在全球范围内实现完全自动驾驶。Waymo 采取的策略是首先实现自主性，然后在全球范围内扩展，而 Tesla 则是首先在全球范围内推广，然后逐步实现自主性。如今，我是这两家公司产品的忠实用户，就我个人而言，我更支持整体技术。然而，这两家公司中，一家还有大量的软件工作要做，另一家则有大量的硬件工作要做。我对哪一家发展得更快有自己的判断。话虽如此，正如许多其他经济领域可能经历的那样，经历了一段快速增长和扩张的时期（想想大约 2015 年的自动驾驶时代），但如果这个类比成立的话，最终只会有少数几家公司在激烈竞争中脱颖而出。在这一切中，将会有许多活跃使用的工具型人工智能（比如今天的二级 ADAS 功能），甚至一些开放平台（比如 Comma）。

通用人工智能

以上，就是我认为的 AGI 的大致轮廓。现在，只需在脑海中将其复制粘贴到整个经济中，以不同的速度发生，并产生各种难以预测的相互作用和二阶效应。虽然这个模型可能无法做到完美无缺，但我相信它是一个有用的思考工具。从某种角度来看，它不像一个自我递归改进的超级智能体，能够逃脱我们的控制，进入网络空间制造致命的病原体或纳米机器人，把整个银河系变成灰色的粘稠物。相反，它更像是自动驾驶这样的技术，它的进展是逐步的，社会既是观察者也是参与者，其扩展受到多种因素的限制，包括监管和受过教育的劳动力资源、信息、材料和能源。世界不会因此崩溃，而是会适应、改变和重构。以自动驾驶为例，交通的自动化将使其更加安全，城市将变得更加清洁、通畅，停车场和路边停放的汽车将逐渐消失，为人们腾出更多空间。我个人非常期待 AGI 在各个领域所带来的类似变革。

原文链接：

https://karpathy.github.io/2024/01/21/selfdriving-agi/