2025年4月,OpenAI研究员姚顺雨发布了一篇有名的博文《The Second Half》,宣告AI主线程的游戏已进入下半场。这场对谈描绘了他在硅谷最前沿的AI实验室做Agent研究的思考,以及对未来AI发展的深度洞察。
从清华姚班到OpenAI的学术之路
我们今天的嘉宾是OpenAI姚顺雨,他的研究方向是Agent。前段时间顺雨写了一篇有名的博文《The Second Half》,告诉大家AI游戏已进入下半场。
这次节目我们第一次尝试有两位主持人,除了我还有大家熟悉的广密。
顺雨,我看了你的资料和你写的文字,从你的语言里读到一种反叛精神,我对你这个人很感兴趣。你能不能先给大家做一个自我介绍,聊聊你的经历?
你说反叛精神?这很有意思。
我感觉我是个非常乖的学生。从小到大就是按部就班的学习。
本科从合肥考到清华,读姚班。在姚班大家会告诉你去美国读PhD,我就去美国读PhD,我在普林斯顿读PhD。读PhD之后很自然,OpenAI是做research最好的地方,就加入OpenAI——感觉我前28年的人生,非常的乖。
你是15-19年在清华姚班,19-24年在Princeton,24年毕业进OpenAI。你在本科学的不是AI,是怎么进入AI领域,继而又进入Agent领域?
姚班的传统偏理论计算机科学,但我可能有一点反叛精神吧。
当时,我觉得很多重要理论问题已经解决得差不多,比如将某个图算法的复杂度从n的2.83次方优化到n的2.82次方,这种改进在现实中意义不大。
我在2016年上李建老师的一门课,看到一个multi-modal embedding的demo,展示了embedding一个非常神奇的例子:比如用"king"的embedding减去"man",再加上"queen",结果接近"woman"的embedding——这让我第一次意识到,Deep Learning在语义表示上居然能做到这么惊艳的计算。
"语言是人为了实现泛化而发明出来的工具,这一点比其他东西更本质。"
智能体的架构与演进
今天我们的话题是Agent和强化学习,我们很好奇你会怎么定义Agent?
从自然语言处理的角度,Agent是相对于一个只会生成文章或对话的系统而言。它能和外界交互,比如使用计算器、互联网,或调用各种工具。
从更广义的AI背景看,Agent是一个非常古老的概念。
任何能进行自我决策、与环境交互,并试图optimize reward(优化奖励)的系统,都可以被称为Agent。
你研究的"Language Agent"(语言智能体)和传统Agent,存在本质区别吗?
本质区别是可以推理,因为推理才可以泛化。
举个简单的例子,我做ReAct一个很强的动机是:我做完colm,我的第一个工作之后,在思考一个问题——为什么我可以一下子去玩一个新的游戏,但现在这些系统或AI需要几十万步甚至几百万步训练,才能完成类似的事?
我发现,是因为我可以思考。我看到一个全新的环境,会想:这个灯是黑的,那可能有危险,基于常识可能有怪兽;我现在最重要的是点亮灯。基于之前的上下文(Context),灯在我后面,那我应该先向后走。
"语言模型提供了一个足够强的先验(prior),这个先验让你可以推理,而推理又可以在不同的环境间泛化。所以核心是推理能力,推理才能带来泛化。"
我4月发布博文《The Second Half》(下半场),你是怎么想到the second half这个idea的?受了什么启发吗?
这个想法来自我在OpenAI的工作经验,以及之前做research的感悟。大家过去往往更关注模型训练、方法设计,但我觉得现在的bottleneck(瓶颈)已经转移了:变成怎么去定义好的任务,怎么去定义好的环境。
现在方法的问题已基本解决,真正重要的是——我们要用这个通用方法,解决什么问题?
整体来说,什么样的任务适合Agent做?什么样的任务适合人和Agent一起做?什么样的任务适合人做?
我现在感觉任务大概可以分成几类。
一类任务更注重reliability(可靠性)。你做客服,重要的是:100次里你需要99次甚至更多不能出错。
另一类任务更注重creativity(创造力)。你去证明黎曼猜想,或者写一个复杂程序,或者创作一部文学剧本。这类任务允许你失败很多次,只要有一次做得特别好,就算成功了。
创业公司与大模型的博弈
你知道,应用型创业公司很担心,大模型公司的模型能力溢出,会把他们做的Agent吞掉。
长期看,Cursor这样的公司,壁垒是什么?哪些Agent是模型公司必然会做的?哪些有创业公司机会?——边界可能在哪?
创业公司最大机会是:能设计不同的interface(交互方式),或者说人和数字世界交互的方式。
ChatGPT或所有做模型的公司,都在做类似ChatGPT的产品。ChatGPT的本质是:你是在像和人交互一样去进行和数字世界的交互。
最终,可能模型的能力会产生beyond ChatGPT(超越ChatGPT)的交互方式,变成Super App(超级应用)。
"我们的想象力仍被以往的交互方式所限制,还有许多尚未诞生的交互方式。这些新的交互方式,会改变我们的世界。"
一位AI研究者说,他对Agent的想象很有限,希望你能对未来的Agent畅想一下。你曾经说过,你的终极理想是打造"世界上最强的Agent",它会是什么样的?
大多数人对AGI的想象就是一个模型,就像这个世界上最聪明的人,他拥有所有知识、能力,比我们都聪明,是最强智能体。
但我现在的感觉是:不同的交互方式下,有不同"好"的定义,有不同"强"的边界。
最终的智能边界,是由不同的交互方式决定的,而不是由一个single model(单一模型)决定。
OpenAI可能会成为一个类似Google的公司,成为新世界里非常重要的一环——但这并不代表,这个世界就会被这样一个单极系统垄断。
如果真是那样,这个世界就会变得很灰暗。大多数人也就没什么价值了。
这个世界可能不会是单方压倒另一方,双方都会有自己的力量。
"最终智能的边界,可能不是由一家机构定义,而是由不同Super App共同定义的。"
人与系统的共存
在你研究Agent的过程中,对于人,你有更深的认知吗?怎么看人和Agent的同与不同?
我意识到,人之所以能泛化,是因为人能推理。
我2018年在MIT Josh Tenenbaum实验室——他是一个认知科学的大佬——我学了很多认知科学的东西。
认知科学,或者计算认知科学,一个核心故事是:我们现在的AI虽然有很多进展,但还有很多问题。我们应该去看看,人有哪些优势,人是怎么做这些事情的,为什么人能把这些事做得更好?
后来我的认知有了变化。我发现,现在真正能奏效的AI系统,跟人还是很不一样。比如Scaling Law、强化学习,还有很多训练策略,它们和人类学习的方法本质是不同的。
我现在觉得,一个更好的方法是:你先去思考人能做什么,而机器现在不能做。这是客观事实。
你内心的驱动力是什么?你的愿景是什么?你10年后想成为谁?
用一个非常俗的话说,希望你对这个世界创造一些不同——探索新的、根本性的研究,是一种创造不同的方式;创造一种完全不同的新的产品形态,也是一种创造不同的方式。
如果你敢想,或者你胆子特别大,或者你想象力很丰富,就会有好事发生。
"这个时代很幸运的一点:这个技术非常通用,这个技术非常伟大,有足够多探索的空间。"