OpenAI姚顺雨三小时专访：六年智能体研究、人机系统、吞噬边界、单极与多元并存的世界

本集简介

今天我们很高兴邀请到OpenAI研究员姚顺雨。 2025年4月，姚顺雨发表著名博文《The Second Half》，宣告AI主线程竞赛已进入下半场。随后我们与他进行了一场播客对话。姚顺雨毕业于清华和普林斯顿大学，很早就开始智能体研究。博士期间他意识到语言可能是人类发明的最接近本质的工具，于是转向语言智能体研究，至今已六年。他有许多代表性工作。我们从个体出发，共同探索由人、组织、AI、人机交互所抵达的世界智能边界与人类机器的全景图。不久前我刚创立新内容工作室「语言即世界工作室」，顺雨意外地从另一角度回应了我们创立的初心。为何相信语言是世界的本质奥秘？他的表述是："语言是人类为实现泛化而发明的工具，这点比其他更本质。" （本次访谈发生于2025年5月，观点仅代表个人，与供职公司无关。） > 02:58 第一部分：人感觉前28年人生很乖我有个非共识：想做Agent 第一年最大收获是用GPT不用BERT；第二是任务与环境至关重要我的研究有两个核心：一是做有价值、与现实更相关的任务环境；二是做简单通用的方法 > 17:50 第二部分：系统 Agent是古老概念，任何能自主决策、与环境交互并优化奖励的系统都可称为Agent Agent演变三波浪潮：人们更关注方法线，易忽视任务线，但二者相辅相成 Agent发展两大关键方向：一是拥有自主reward探索能力；二是Multi-Agent形成组织结构 Code类似人的手，是AI最重要的affordance（环境行动可能性）任务设定泛化工具奖励机制 > 48:38 第三部分：吞噬边界创业公司最大机会：设计不同interface（交互方式）模型能力可能催生超越ChatGPT的交互方式，成为Super App Super App对公司是双刃剑，当拥有ChatGPT级产品时，研究自然围绕其展开 Assistant式交互显然重要；不显然的是能否基于非人式交互？世界是相互借鉴而非单向复制 OpenAI可能成为Google级公司，但世界不会被单极垄断最终智能边界由不同交互方式决定，而非single model（单一模型）前年冬读冯诺依曼遗作《The Computer and the Brain》环境永远是记忆层级最外层，这很哲学模型公司的Chatbot系统将自然演化为Agent系统 > 01:05:01 第四部分：人类全局人机关系：Agent是否要像人？"是效用问题" OpenAI是bottom-up（自下而上）的公司若无different bet（差异下注），难超现有霸主我导师是GPT-1第二作者，他对OpenAI持保留态度若成为伯克希尔CEO，将如何分配500亿美金到AGI领域？真正的危险不是微信仿品打败微信，而是全新事物取代微信这个时代更适合做上限更高的事【更多信息】文字版已同步上线文字版请关注公众号：语言即世界language is world

今天的嘉宾，我们很开心邀请了OpenAI研究员姚顺雨。 2025年4月，姚顺雨发布了一篇有名的博文《The Second Half》，宣告AI主线程的游戏已进入下半场。这之后，我们与他进行了一场播客对谈。姚顺雨毕业于清华和普林斯顿大学，开始智能体的研究非常早。在博士期间他意识到语言可能是人类发明的最接近本质的工具，于是转向语言智能体研究，至今已6年。他有许多有代表性的工作。我们的谈话从个体出发，共同探索由人、组织、AI、人与机器的交互，所抵达的这个世界智能的边界以及人类与机器的全景。前不久，我刚刚创立了一家新的内容工作室「语言即世界工作室」，顺雨很意外地从另一个角度帮我回答了，我们工作室创立的初心。为什么我们相信语言是这个世界的本质奥秘？他的表达是：“语言是人为了实现泛化而发明出来的工具，这一点比其他东西更本质。” （本次访谈发生在2025年5月，访谈为个人观点，与所供职公司无关。） > 02:58 第一部分：人感觉我前28年的人生，非常的乖我一直有这个非共识：我想要去做Agent 第一年最大收获是，要用GPT，不要用BERT；第二个learning是任务或环境非常重要我的研究有两个核心：一是怎么去做一些有价值、和现实世界更相关的任务和环境；二是怎么去做一些简单、但又通用的方法 > 17:50 第二部分：系统 Agent是一个非常古老的概念，任何能进行自我决策、与环境交互，并试图优化奖励的系统，都可以被称为Agent Agent演变的三波兴衰：大家可能更多注意到方法线，容易忽视任务线，但这两条线是相辅相成的 Agent发展最关键的两个方向：一个是让它拥有自己的reward（奖励），能自己探索；另一个是Multi-Agent（多智能体），让它们之间能形成组织结构 Code有点像人的手，它是AI最重要的affordance（环境给予行动者的可能性）任务的设定泛化的工具奖励的机制 > 48:38 第三部分：吞噬的边界创业公司最大机会是：能设计不同的interface（交互方式）可能模型的能力会产生beyond ChatGPT（超越 ChatGPT）的交互方式，变成Super App 拥有一个Super App对于公司是双刃剑，当你有像ChatGPT这样的Super App，很自然你的研究就会围绕这个Super App Assistant、Her，或者像人一样的交互方式，显然是最重要的交互方式之一；不显然的是，我能不能基于不像人的交互方式？这世界是个相互抄的关系，而不是一个单向抄的关系 OpenAI可能会成为一个类似Google的公司，成为新世界里非常重要的一环，但这并不代表，这个世界就会被这样一个单极系统垄断最终的智能边界，是由不同的交互方式决定的，而不是由一个single model（单一模型）决定前年冬天，我读到冯诺依曼临终前写的一本书：The Computer and the Brain 环境永远是记忆层级中最外层的部分，这很哲学模型公司的Chatbot系统会演化成一个很自然的Agent系统 > 01:05:01 第四部分：人类的全局人与系统：Agent要不要像人？“是一个效用问题” OpenAI是一个bottom-up（自下而上）的公司如果你没有一个different bet（不同的下注方向），很难超越前面的霸主我导师是GPT‑1第二作者，他在OpenAI待了一年，他对这件事是有点怀疑的如果你成为了伯克希尔的CEO，未来要拿出500亿美金allocate（分配）到AGI行业，你会怎么allocate这笔钱？真正的危险，不是一个类似微信的东西打败了微信，而是一个不一样的东西打败了微信恰好这个时代，做上限更高的事更好【更多信息】文字版同步上线文字版请前往公众号：语言即世界language is world

双语字幕

仅展示文本字幕，不包含中文音频；想边听边看，请使用 Bayt 播客 App。

Speaker 1

为什么你做这件事情比大部分人都早？

Speaker 1

你觉得是为什么？

Speaker 0

我觉得有幸运的部分，就是说我PHD做的第一个事情其实就是基于语言模型去做agent的。

Speaker 0

你只有有个different BET，你才能够超越之前的霸主，对吧？

Speaker 0

就是说我觉得如果OPENAI一直做强化学习。

Speaker 0

那可能也很难超过Deep Mind。

Speaker 0

就我导师，他是GPT一的第二作者，他当时对这个事情就有点怀疑。

Speaker 0

很有意思，一点是说传统上大家认为发生的事情是，比如我大厂先做出来一个东西，然后创业公司就可以开始抄，对吧？

Speaker 0

比如说我做出来CHATGPT，那我可以去抄CHATGPT或者去做一个类似的事情。

Speaker 0

但现在来看，似乎反过来事情也是可以成立的。

Speaker 2

如果你成为了伯克希尔的CEO，未来要拿出500亿美金allocate到AGI这个行业，你会怎么去allocate这笔钱？

Speaker 2

既能体现回报，也能体现对人类的贡献。

Speaker 0

就是 BET ON 有 DIFFERENT SUPER APP 的产品形态，有不同的交互方式。

Speaker 0

如果你不相信这一点的话，那这个世界就变得很灰暗。

Speaker 0

就是那只有 OPEN AI 或者 ON TOPIC 有机会，但是如果你相信这一点的话，就会有很多新的机会。

Speaker 1

哈喽，大家好，欢迎收听张小军商业访谈录。

Speaker 1

我是小俊，这是一档由语言及世界工作室出品的深度访谈节目。

Speaker 1

我们希望和你一起从这里探索新世界。

Speaker 1

今天的嘉宾我们很开心邀请了OPENAI的研究员姚顺宇。

Speaker 1

2025年4月，姚顺宇发布了一篇很有名的博文《THE SECOND HALF》，宣告AI主线程的游戏已经进入了下半场。

Speaker 1

这之后，我们与他进行了一场播客对谈。

Speaker 1

姚生宇毕业于清华和普林斯顿大学，开始智能体的研究。

Speaker 1

非常的早在博士期间，他意识到了语言可能是人类发明的最接近本质的工具，于是转向了语言智能体的研究。

Speaker 1

至今已经六年，他有许多有代表性的工作。

Speaker 1

我们的谈话从个体出发，共同探索由人、组织、AI、人与机器的交互所抵达的这个世界智能的边界，以及人类与机器的全景。

Speaker 1

前不久，我刚刚创立了一家新的内容工作室——语言及世界工作室。

Speaker 1

顺宇很意外地从另外一个角度帮我回答了我们工作室创立的初心：为什么我们相信语言是这个世界的本质奥秘？

Speaker 1

它的表达是，语言是人为了实现泛化而发明出来的工具，这一点比其他东西更本质。

Speaker 1

hello，先给听众朋友们打个招呼啊。

Speaker 0

大家好，我叫姚舜宇，然后现在在openai做research。

Speaker 1

今天我们嘉宾是OPENAI的研究员姚顺宇，他的研究方向是AGENT。

Speaker 1

最近刚刚写了一篇非常有名的博文《THE SECOND HALF》，告诉大家AI的游戏已经进入了下半场。

Speaker 1

那这次节目我们第一次也尝试有两位主持人，除了我还有大家也很熟悉的广密。

Speaker 1

广密，你也来给大家打个招呼吧。

Speaker 2

诶，大家好，我是广密。

Speaker 1

剩余，我看了你的很多资料和你自己写的文字。

Speaker 1

我从你的文章语言里整体能读到一种反叛精神，所以我对你这个人很感兴趣。

Speaker 1

你能不能先给大家做一个自我介绍？

Speaker 1

就是聊聊你的过往的经历啊。

Speaker 0

你说反叛精神。

Speaker 1

对呀。

Speaker 0

哦，这很有意思，因为我感觉我我是个非常乖的学生，对我感觉从小到大就是按部就班的这个学习。

Speaker 0

就是呃，我本科从从合肥考到清华，然后读姚班。

Speaker 0

然后在姚班大家都都会告诉你就是去去美国读PHD，然后我就去美国读PHD，然后我在普林斯顿读PHD。

Speaker 0

然后呃，通过PHD之后感觉很自然的就是。

Speaker 0

OPEN AI是做RESEARCH最好的地方，然后就加入了OPEN AI。

Speaker 0

对，感觉就是我这个前28年的人生非常的、非常的这个乖。

Speaker 1

对你是一5到19在清华，19到24在普林斯顿，24年毕业进的OPEN AI，对吧？

Speaker 1

你之前学的应该不是AI，就是在本科的时候你是怎么进入AI领域，然后继而又进入了AGENT这个领域的？

Speaker 0

对，就是呃姚班的传统是偏理论计算机科学。

Speaker 0

但是呃，可能我还是有反叛精神的吧？

Speaker 0

我当时觉得重要的问题可能已经被解决了，就是如果你去把一个比如图算法的复杂度从N的2.

Speaker 0

83次方降到N的。

Speaker 0

82次方，这个事情已经对实际没有什么意义了。

Speaker 0

然后呃，我是一六年的时候，在李健老师的一门课上面看到了一个。

Speaker 0

呃，MULTI MODEL WORK TO WORK的一个一个 DEMO。

Speaker 0

就是说，呃，当时有一个就比如说你可以有一个 WORK TO WORK，有一个非常惊艳的 EXAMPLE，就是说一个国王的 IN BEDDING 减去一个 MAN 的 IN BEDDING，呃，再加上一个 QUEEN 的 IN BEDDING，可以等于一个比如 WOMAN 的 IN BEDDING。

Speaker 0

就这个事情我当时觉得非常神奇，然后这个事情可以做成比如一个图片，一个比如说一个国王图片的 IN BEDDING 减去 MAN 的 IN BEDDING，再加上 QUEEN 的 IN BEDDING。

Speaker 0

呃，就是他能做做得非常的。

Speaker 0

我当时觉得非常惊艳，对。

Speaker 0

然后但是当时其实清华或者起码姚班没有什么做DEP的老师或者或者资源。

Speaker 0

然后一八年的时候，呃，姚班有一个传统，就是每个人都要去海外做一学期的这个RESEARCH。

Speaker 0

然后我去MIT，然后跟的是呃吴家俊学长，然后从那里才真正开始。

Speaker 0

系统性的做deploying，对。

Speaker 0

然后呃，当时我做其实更多是computer vision，但是我。

Speaker 0

当时觉得好像vision你很难实现一个general的general AI，然后。

Speaker 0

INTUITION就是说感觉LANGUAGE是更更重要或者更CENTRAL的一个东西。

Speaker 0

然后后来进了PHD之后，就就开始做LANGUAGE。

Speaker 1

对，嗯，那怎么进入AGENT呀？

Speaker 0

对，这个事情其实我觉得也是有些机缘巧合吧。

Speaker 0

对，就是呃，我的导师他之前有一些RESEARCH，就是说我怎么能在一个简单的语言。

Speaker 0

游戏里面去去做一个这个AGENT，这个可能是一六年、一七年时候的工作。

Speaker 0

就是说你用一个非常简陋的RN，然后在一个非常小的文字游戏里面，你可以做一些这种动态的INTERACTION，比如说你学着学就知道，比如过桥之后就可以，比如说去河对岸，就类似于这样非常简单的事情。

Speaker 0

我进入GRASSCO之后，其实我我我是被这个COMPUTERVISION录取的。

Speaker 0

但是我我当时已经不想做COMPUTERVISION了，然后我就去找做LANGUAGE的人聊天，然后我就遇到我现在导师CARSECK。

Speaker 0

然后然后我们就在BRAINSTORM有什么IDEA，然后我就说现在这个语言模型对吧？

Speaker 0

GPT TWO已经变得比你们当时要强很多了，那他现在玩游戏是不是也会变得更强啊？

Speaker 0

然后他说MAYBE THAT'S A GOOD IDEA，然后我们就开始做这个事情了。

Speaker 0

然后从从那开始就已经一直在做AGENT，做了做了已经有六年了。

Speaker 0

对。

Speaker 1

嗯，你觉得AGENT或者说LANGUAGE最吸引的是什么呀？

Speaker 0

我觉得是他的GENERALITY吧，对，就是任何事情你都可以用语言去表示，或者说绝大多数事情你可以用语言去表示呃。

Speaker 0

我，我觉得，我觉得很吸引我的一点就是说。

Speaker 0

我当时我就隐隐约有INTUITION，就是说你最终比如你要实现一个AGI。

Speaker 0

当当然当时大家没有人提AGI，但如果你要去实现一个非常GENERAL SYSTEM，那你需要去BUILD一个AGENT。

Speaker 0

当时我觉得就是说，呃，如果回看AI的历史的话，从很久很久以前，呃，从就是NOVEMBER SIMON他们，呃，1960年来开始。

Speaker 0

其实大家一开始的想法就是想去做一个AGENT，当时大家的这个野心非常AMBITION，对吧？

Speaker 0

就是说我们想用一个SUMMER去解决VISION，想用另一个SUMMER去解决LANGUAGE，然后我们把这些东西拼在一起，我们去做一个AGENT，然后它就比人聪明了。

Speaker 0

包括你去看图灵一开始的想法，就是说大家都会想去很自然地想要去BUILD一个人或者BUILD一个AGENT。

Speaker 0

但是这个事情太难了，所以我觉得逐渐的AI就变得非常碎片化，然后大家研究的问题也越来越小，对吧？

Speaker 0

就是说有些人去研究我怎么去解决，比如说VISION的这一小部分问题，或者去解决LANGUAGE的这一小部分问题，或者更细一步就TRANSLATION的这一小部分问题，最后就变得越来越细分、越来越VERTICAL。

Speaker 0

呃，但是我觉得15年以后，实际上SKINNING LAW的诞生，包括很多这个RESEARCH BREAKTHROUGH诞生历史的大事，就是说我们应该从这种VERTICAL THINKING重新回到一个更GENERAL的THINKING，然后去试图构建一个更、更通用的。

Speaker 0

这个系统对。

Speaker 1

当你进入到A证系统做研究的时候，你意识到最重要的几个事情啊，就是当要你要把语言模型让它行动起来。

Speaker 0

有有有一些收获吧，我觉得我第一年最大的收获就是说要用GPT，不要用BERT。

Speaker 0

然后这里解释一下，就可能现在已经很多人不知道什么是BERT了，就是当时最火的语言这个领域最火的模型叫做BERT。

Speaker 0

然后他的想法就是说呃，我去学一个表示，就是说我有一句话，然后我可以通过某种方式学到这句话的一个表示，然后我可以通过这个表示做很多下游的任务，比如说。

Speaker 0

去做一些，比如说呃单选题，或者去做一些这种呃基于选择的任务。

Speaker 0

对，然后当时我觉得可能百分之九十五的人在做BERT，然后可能只有百分之五的人在做GPT。

Speaker 0

然后这也是因为当时呃自然语言处理的主要任务都是一些比如我有一个这个我有一句话，然后这句话是积极的还是？

Speaker 0

不积极的，比如说我很讨厌这个电影。

Speaker 0

那这是一个负面的、负面的句子，就是做一些非常简单的这种事情。

Speaker 0

那在这种事情上，BERT确实效果更好。

Speaker 0

但是你会发现，如果你要做一个AGENT，那你需要的不只是选择能力，而是去呃自由产生新的动作的能力。

Speaker 0

当然如果你在玩围棋或者你在玩呃视频游戏的话，你的选择是很有限的。

Speaker 0

比如你在玩。

Speaker 0

这个马里奥兄弟，那他可能就上下左右对吧？

Speaker 0

但是你如果去玩一个基于语言的游戏，那你的动作是是自由的。

Speaker 0

比如说我在这个游戏里面，我可以用这个剑杀这个怪兽，或者我可以去第三个房间，或者我可以用我的金色的钥匙打开第一个房间的门。

Speaker 0

这个事情是贝特永远做不到的，所以。

Speaker 0

我发现这个事情之后，我就再也没有用过BERT。

Speaker 0

我觉得第二个、第二个能力就是说任务或者环境非常重要。

Speaker 0

就当你有一个非常差的任务的时候，你永远不可能学到非常好的东西。

Speaker 0

从某种程度来说，就当时有很多人在做现在来看很简单的任务，对吧？

Speaker 0

比如说这个句子是正面的还是负面的，或者说我怎么去判断，比如说……A这句话能不能导致B这句话是是不是成立？

Speaker 0

就现在当时这些任务看上去很难，但是其实现在看上去非常简单。

Speaker 0

我觉得就是首先你要找一个足够有挑战的任务，然后这个任务能够做出有本质的这个新的方法，然后实际上。

Speaker 0

当时你想去做AGENT，或者想做语言的AGENT，没有什么选择。

Speaker 0

就是可能你只能去做，比如这些文字游戏。

Speaker 0

比如说ZORK是一个非常经典的文字游戏，就是说你在一个文字基于文字的世界里面，就有点像一个互动的脚本一样。

Speaker 0

就是说你可以去往下走、往上走，你可以去各个房间，你可以去……做各种各样的事情，但是你会发现这个环境还是有很多缺陷。

Speaker 0

就是说你能学到的东西是局限在这个环境里的，就这个环境还是不够大。

Speaker 0

而且呃，你如果要用RL去学这个环境的话，那就会像用RL学传统的视频游戏一样，就是说你可以把这个游戏打通关，但它对于其他任何的任务没有任何的。

Speaker 0

迁移作用对吧？

Speaker 0

你可以把棋下特别好，但它对世界上任何其他事情没有任何价值。

Speaker 0

那我觉得就是可能我们需要一个更好的环境。

Speaker 1

对你博士期间其实做了很多工作，而且很多知名度也很高，包括这种LANGUAGE AGENT、有REACT、有REFLECTION，还有四位数，然后包括DIGITAL AUTOMATION、数字自动化等等等等。

Speaker 1

就是这些研究的跨度大嘛。

Speaker 1

他们之间的共性问题是什么？

Speaker 1

你是怎么按着你的兴趣点，一步一步地去做他们的延伸的。

Speaker 0

我觉得从我的角度是一个非常自然的过程，就是就当我意识到就是环境有问题的时候，实际上呃，我觉得我第一个比较重要的工作是就是WEB SHOP。

Speaker 0

我觉得首先我们要解决一个环境问题，因为如果没有一个好的任务或者环境，那。

Speaker 0

我把这个游戏刷得再高，其实我觉得没有意义。

Speaker 0

其实一五年的时候就有一个非常好的工作叫WORD OF BITS，当时的IDEA就是说我们应该把电脑或者互联网作为一个环境，这个环境比比游戏更EXCITING。

Speaker 0

对，但是当时由于各种技术的局限性，就这个东西没有做得特别好。

Speaker 0

然后2021年的时候，就是我和导师在讨论，就是说现在可能是一个很自然的重新做这个事情的时候。

Speaker 0

当然当时我觉得技术还也还没有成熟，就是当时大多数人还是在研究，比如说这个A能不能导致B，或者翻译，或者呃我能不能从这个。

Speaker 0

文章中回答问题的呃，当时想去做互联网的AGENT呢？

Speaker 0

还是我觉得技术还没有完全成熟。

Speaker 0

但是可能正因为技术没有成熟，所以是一个好的时候开始做了，然后做到2022年。

Speaker 0

我们做的就是WEB SHOP这个这个ENVIRONMENT，然后2022年的时候就是GPT3，包括后来CHAIN OF THOUGHT的出现，我觉得。

Speaker 0

是带来了新的方法上的机会，然后我们做了REACT。

Speaker 0

我我现在还是觉得就是我可能我自己最喜欢的工作还是还是REACT。

Speaker 0

之后的话就是基于这两个线，就是很自然的去做了更多的方法，还有还有TASK。

Speaker 0

对我但我觉得可能我的研究就是。

Speaker 0

一方面是怎么去做一些有价值的，然后更基于现实世界的任务和环境。

Speaker 0

另一方面就是说怎么去做一些简单并且通用的方法。

Speaker 1

REACT提出它有标志一个范式的变化吗？

Speaker 0

我觉得这个事情需要可能比如十年后或者五年后再去看，很多时候一个东西刚提出的时候是很难、很难看出来的。

Speaker 0

当时的学术圈还是不太能接受，就是说我去做一个prompting，然后去把它作为一个research。

Speaker 0

就是传统意义上，你需要去提出一些fancy的，就是。

Speaker 0

你需要提出一些数学公式，你需要去训练一个模型，你需要去证明你做了很多理论或者做了很多工程上的事情。

Speaker 0

但是如果你只是去比如说使用一个模型，感觉这个太软了。

Speaker 0

不过我觉得从某种程度上来说。

Speaker 0

当时最有价值的事情，就是去研究怎么去使用模型。

Speaker 0

因为如果你是想训练模型，那实际上你是落后OPENAI或者落后这些公司好几年呢？

Speaker 0

对吧？

Speaker 0

然后你做的事情很有可能几年前别人已经已经发现了。

Speaker 0

那如果你想要做一些不一样的事情，那可能怎么去使用模型是更有价值的。

Speaker 1

为什么你做这件事情比大部分人都早？

Speaker 1

你觉得是为什么？

Speaker 0

我觉得有幸运的部分，就是说我PHD做的第一个事情，其实就是基于语言模型去做AGENT。

Speaker 0

然后这个事情我觉得在当时做的人很少，因为这个事情我觉得可能太难了，或者说不是一个被、不是一个共识类的事情。

Speaker 0

就是当时共识类的事情，就是说我去做这个问答，或者我去做翻译，或者我去做一些已经被。

Speaker 0

已经被这个这个社区接受的一些任务，就是说呃。

Speaker 0

我觉得我我一直有这个非共识吧，就是说我想要去做做AGENT。

Speaker 0

然后另一个点就是说我我我一直想做简单并且通用的东西，就我不想做一个很复杂但是只能在一个领域奏效的东西。

Speaker 0

就比如说当时有很多人就是说。

Speaker 0

我去做，比如问答我会设计很复杂的架构，然后把这些呃RETRIEVE，就是说我怎么把这些上下文放到你的模型里面去做很多东西。

Speaker 0

但是你最后发现这事情可能只能做一个任务。

Speaker 0

我我觉得我一直还是想。

Speaker 0

做简单又通用的东西，然后这个事情我觉得传统意义上是很难被接受的。

Speaker 0

因为大家已经习惯了，就是说AI就是说你把问题不停地细分，然后你去做很多细分的这些方法，就是大家可能并没有想要去做一个很简单、很通用的事情，或者认为这个事情是可能的。

Speaker 0

在比如说20年之前。

Speaker 1

或者嗯，今天我们的话题是AGENT和强化学习嘛。

Speaker 1

这也是你现在的研究方向。

Speaker 1

我们很好奇你会怎么定义AGENT啊？

Speaker 0

这是一个很好的问题。

Speaker 0

呃，我觉得这个事情是。

Speaker 0

基于你的context，就是基于你的讨论的背景的。

Speaker 0

对，就是从历史的角度来说，我觉得从自然语言处理的角度来说，agent是相对于比如说。

Speaker 0

一个。

Speaker 0

产生文章或者产生对话的系统而言，我能够去和外界进行交互，比如说使用计算器或者使用互联网，或者使用这些这些兔。

Speaker 0

我觉得从就是自然语言处理的角度来说，agent其实就是。

Speaker 0

我不仅能够产生新的文章或者新的思考，我还能够和外界进行交互。

Speaker 0

但是从AI的更更大的这个背景来说，就A真的是一个非常古老的概念，就是说任何你可以去做自我决策和环境交互，然后。

Speaker 0

这个optimize reward就是让它的这个奖励变大的这样的系统，就都是agent。

Speaker 0

从这个角度来说，今天的agent这个词的。

Speaker 0

这个含义可能更多的是说我怎么基于像语言模型这样大模型，能够去做自我决策的这样的AGENT系统，而不是传统的，比如说呃，单纯基于规则或者基于在一个领域做强化学习所获得的这样的AGENT。

Speaker 0

因为agent这个词在不同的年代有很多不同的形式，对吧？

Speaker 0

你也可以说alpha go是一个agent，你也可以说vemo是一个agent，你可以说这个robot是一个agent。

Speaker 0

我觉得这个词很很基于你的情境。

Speaker 1

对你提出的这个语言agent，它和其他之前的传统的agent，它的本质区别是什么呢？

Speaker 1

为什么语言agent更本质呢？

Speaker 0

我觉得本质区别是可以推理。

Speaker 0

因为推理才可以泛化。

Speaker 0

就举个简单的例子，就是我觉得我我做react一个很强的motivation，就是说。

Speaker 0

我做完COM，就是我的第一个工作之后。

Speaker 0

就是我在思考一个事情，就是说为什么我可以一下子就去玩一个新的游戏，但是现在这些系系统或者AI需要比如说几十万步或者几万步或者几百万步的训练，你才能去做这个事情。

Speaker 0

然后，然后我就发现。

Speaker 0

好像是因为我可以思考，对吧？

Speaker 0

就是说我看到一个全新的环境，我会思考，就是说：诶，这个灯是黑的，那那可能有危险。

Speaker 0

然后那那基于这个常识，可能会有怪兽。

Speaker 0

那那可能我现在最重要的事情是要点亮灯，然后基于之前的上下文，灯在我后面，那我应该先向后走。

Speaker 0

那那如果我没有这样的一个思考能力，我直接从这样一个复杂的这个语言直接去、直接去预测我要去往后走这个事情很难。

Speaker 0

就是呃，没有推理是做不到的。

Speaker 0

所以我觉得最大的区别就是说，语言模型提供了一个足够强的鲜艳，这个鲜艳使得你可以推理。

Speaker 0

而推理又可以在不同环境间泛化。

Speaker 1

所以它核心是推理能力，进而能泛化。

Speaker 1

嗯，因为你研究A证的和智能体非常早嘛，就是从你的视角，A证它到底是一个什么样的演变历史，它是怎么一步步发展到今天的？

Speaker 0

对我可以说一下我自己的理解，但是可能并不完整或者是有一些错误。

Speaker 0

就是呃，我觉得最早的AI就是我们被叫称为GOOD OLD FASHIONED AI，或者说叫。

Speaker 0

就符号主义，呃，其实想法就很简单，就是说我我注重的是推理，然后。

Speaker 0

我推理的方式就是说，我是怎么想的，我就把这些规则设计出来，然后让让让让这个AI也也这么做。

Speaker 0

就是说，呃，如果我的这个温度高于30度，那这个空调就应该降温，就是基于这样的规则的这样的这样的AI。

Speaker 0

然后这个事情其实是可以造出来很多。

Speaker 0

最早的智能体了，对，就是包括最早的ROBOT，最早的呃，比如证明数学定理的，包括很多其他的系统都是这样创造出来的。

Speaker 0

但是很快，比如说1980年的大家发现这个东西是有瓶颈的，就是你不管写多少规则。

Speaker 0

你还是很难概括，很难涵盖这个世界上所有可能发生的情况。

Speaker 0

就当时就是符号、符号主义演变到极致，就是说我们要去做这专家系统，或者做很多我们去找很多专家，我们把这个世界上所有可能的规则全部写下来。

Speaker 0

那我们是不是就有AGI，或者说有一个非常通用的、有用的系统？

Speaker 0

但最后发现好像你不管写多少规则，还是有很多特殊情况你处理不了，而且你写的这些规则也只能在这一个任务上面管用，对吧？

Speaker 0

比如说你写了一个。

Speaker 0

怎么去诊断这个心脏病的这样一个系统？

Speaker 0

那你写了很多很多的规则，但是你还是没有办法去涵盖所有可能出现的情况。

Speaker 0

因为人人是一个，就是他他会说任何事情，对吧？

Speaker 0

你没有办法去HANDLE，然后你写了这样一个心脏病的系统，你没有办法去处理，比如说肺病。

Speaker 0

那那这个事情就导致了第一次这个AI的寒冬，对吧？

Speaker 0

然后我们有NEURO NETWORK，有了神经网络。

Speaker 0

然后我觉得第二、第二波就是AGENT的兴起，是就是呃DEEP REINFORCEMENT LEARNING，就是深度强化学习。

Speaker 0

标志性的事件就比如说DEEP MAN去做这些视频游戏，去做ALPHA GO。

Speaker 0

然后，呃，包括我们有一些OPENAI玩机器手或者Dota或者这样的一些游戏。

Speaker 0

然后这个的核心就是说我有一个我有个可以无穷次玩的这样一个虚拟的环境，然后我有一个奖励，然后我有一个非常呃通用的这个。

Speaker 0

网络架构，然后我就去像黑盒一样，就是去学怎么去把这个reward去improve。

Speaker 0

然后他就，他就变强呃。

Speaker 0

然后这个事情我觉得取得了很多成功，就是呃，我觉得可能最有名的事情是阿尔法GO对。

Speaker 0

但是我觉得还是有同样的问题，就是说你去做任何一个环境，你需要去做很多。

Speaker 0

呃，环境specific的工程，就是说我去做dota，那我需要做很多基于这个环境的。

Speaker 0

比如说，害怕PARAMETER TUNING或者工程，或者很多其他东西。

Speaker 0

但是可能最大的问题还是它没有办法泛化。

Speaker 0

你去学了一个围棋的AGENT的，你没有办法去玩其他游戏。

Speaker 0

你你去做，你去。

Speaker 0

你去学的任何一个环境，你没有办法去泛化到另一个环境。

Speaker 0

那这个事情肯定很不好对吧？

Speaker 0

而且如果你的所有能SOFT的环境都是这些虚拟的环境，或者说可以无穷次玩的像游戏一样的环境，那你没有办法找到很好的真实世界的应用。

Speaker 0

我觉得可能第三波的AGENT呢，就是从大语言模型开始。

Speaker 0

我们发现它可以去做推理，然后基于推理，你实际上是去可以做一些新的环境，比如说CODING，比如说互联网，比如说各种各样的数字环境。

Speaker 0

然后这些数字环境有很大的特点，就是它大多数情况下是基于语言的，然后是需要推理的。

Speaker 0

所以我觉得就是，就是这一次AGENT主要的其实区别就是有两方面。

Speaker 0

一方面是方法上，我们使用语言模型、使用推理去构建了很多处理各种各样问题的这样AGENT；但另一方面就是说。

Speaker 0

呃，A镇的环境也也发生了一个进化，就是从最早的就是这个符号主义的，就是比如证明数学定理，到到下围棋、玩游戏，到今天我们去做互联网，去做去做CODING，去做COMPUTER，去做这些真实世界的数字环境。

Speaker 0

所以我觉得是有两条线，大家可能往往会看到方法的这条线，但是会忽视了就是任务的这条线。

Speaker 0

但我觉得这两条线其实是相辅相成。

Speaker 1

我其实一直有一个很基础的疑问，就是OPENAI有一个五个分级，就我们都很熟，从聊天机机器人LEVEL ONE到推理者LEVEL TWO到呃代理者AGENT LEVEL THREE，然后再到创新者和组织者，这个是LEVEL四和LEVEL五。

Speaker 1

那这五个分级它内在逻辑是什么呀？

Speaker 1

为什么是先有聊天机器人、推理者，然后再有了AGENT？

Speaker 0

对，我觉得呃。

Speaker 0

这个事情的逻辑是，首先你要有一个语言的先验知识。

Speaker 0

然后，呃，基于语言的现代知识，可能你能做出来最早的应用其实就是对话机器人。

Speaker 0

然后，基于语言的这个现代知识，下一步你需要能够推理。

Speaker 0

就是我们说STEP TWO，就是REASONER。

Speaker 0

当你有了很好的语言线知识和推理能力之后，实际上你才能去做各种各样的AGENT，或者说能能能泛化的AGENT。

Speaker 0

然后我觉得很明显的就是今天AGENT最重要的几个。

Speaker 0

进步的方向，一个就是说能让他有自己的REWARD，能让他自己探索；另一个是说呃MULTIAGENT，能够让他形成组织。

Speaker 0

我觉得就是这这两个事情，我觉得可能是正交的，或者说是可以平行发展的。

Speaker 0

我觉得就是说谁是LEVEL FOUR，谁是LEVEL五，我觉得这个我我不确定，但是我觉得这两个事情是很显然。

Speaker 0

下一步需要做的对。

Speaker 1

所以从level two到level three，就是你做的这一步训模型到用模型，这其实是一个很重要的一个跨越。

Speaker 0

或者说，从单纯做推理到把推理应用到做agent去和环境交互。

Speaker 1

唉，这里目前有哪些主流的架构啊？

Speaker 1

这个形成共识了吗？

Speaker 0

我觉得我的感觉是，其实百分之大多数时候大家就是用类似于react的架构，就是说能够去推理，然后你可以去产生一个action，就这是一个最简单的事情，但是。

Speaker 0

AGAIN，我觉得最简单的事情可能还是WORK的最好的。

Speaker 0

然后我觉得可能基于特定的任务，你会有很多就是WORKFLOW或者更SPECIFIC的方法。

Speaker 0

但是我觉得最通用的方法还是类似于REACT这样的方法。

Speaker 1

广密。

Speaker 2

你说你自己最看重提升AGENT能力的是哪几个关键能力？

Speaker 2

之前有人提CONTEXT，甚至LONG CONTEXT的REASONING，或者说工具调用或者。

Speaker 2

指令遵循呃，你刚才一直在提reasoning嘛？

Speaker 2

呃，如果提升agent能力，你自己最看重哪几个能力？

Speaker 0

啊，我觉得这是一个很好的问题。

Speaker 0

然后我觉得现在没有一个特别好的就是能力的TAXONOMY，或者说这种划分系统，对吧？

Speaker 0

或者说每个人有自己的一个划分系统，就比如可能一个人会划分，比如说这个基于基于工具的能力，比如说我的CODING能力、我的上网的能力、我的使用计算机的能力，我就是一种划分方法，对吧？

Speaker 0

我觉得另一种划分方法就比如说。

Speaker 0

我的，我的这个处理多模态的能力，我的处理长长context的能力，然后我的reasoning能力。

Speaker 0

呃，我觉得这两种划分都是有道理的，对，然后可能。

Speaker 0

对于现在来说，我觉得可能我最看重的是处理context的能力，或者说memory的能力。

Speaker 0

然后基于它去做lifelong learning或者online learning的能力。

Speaker 2

对你刚才一直在提到环境，你感觉code代码是一个实现agi最重要的一个环境嘛？

Speaker 2

可以做多轮的r这个。

Speaker 2

反馈也是闭环的，也是那个可以验证的。

Speaker 2

那你你你感觉这个如如果在这个环境搭A阵呢，是不是会更快？

Speaker 0

对，我觉得毫无疑问，这是就是最重要的环境之一。

Speaker 0

我觉得coding就有点像人的手一样，对吧？

Speaker 0

就是说它是它是某种程度上来说，呃，AI最最重要的affordance。

Speaker 0

就是对于物理世界来说，人的AFFORDANCE我不知道这个词用中文怎么翻译。

Speaker 0

但是就是对于人来说最重要的AFFORDANCE，就是说我要制造出手能够使用的工具，对吧？

Speaker 0

比如锤子，比如说这个呃这个笔，比如说这个筷子，对吧？

Speaker 0

但是对于对于对于AI或者DIGITAL的AGENT来说，可能最重要的。

Speaker 0

最重要的affordance就是code，对。

Speaker 0

因为其他的affordance其实都是给人定义的，比如说你的这个网页或者你的小说或者别的东西，其实都是给人定义的。

Speaker 0

只有code是一个很自然的是给机器定义的东西，对。

Speaker 0

然后，呃。

Speaker 0

我我我其实是可能222年，就当时我就很拉闷一件事情，就是说很显然就是做coding的a真的是最重要的事情。

Speaker 0

那为什么没有人做？

Speaker 0

然后我我们当时做了一个做的work叫inter code，就是就当时所有的人都在做。

Speaker 0

比如说我我有一个任务，我有个coding task，然后我产生一段code，然后我去evaluate。

Speaker 0

但我们就是说，那你为什么不把这个执行的结果返回给这个模型？

Speaker 0

你去做多轮的这种AGENT的TASK，然后把它变成一个环境，而不是一个单纯的任务。

Speaker 0

然后基于这个，我们后来又做了SWITCH，然后SWITCHAGENT。

Speaker 0

但有的时候，我觉得很有意思的一点就是说。

Speaker 0

很显然，一个东西非常非常重要。

Speaker 0

但是有的时候就是没有人做。

Speaker 0

所以说，比如如果你是一个研究员，你觉得你做的事情很重要，但是没有任何人觉得重要或者在做，那可能并不是一件坏事，可能就是很重要，但是没有人做。

Speaker 0

对？

Speaker 2

这里有个很强的非共识。

Speaker 2

有的人觉得扣的可能是这一轮技术革命最大的一个价值体现，但也有人觉得可以泛化到更多任务里面，在整个电脑、手机、数字世界中都可以实现AGENT操作，人能做到百分之九十五、九十九的任务。

Speaker 2

你你觉得从扣的到整个数字世界这一步的跨越，或者它的泛化？

Speaker 2

你是有信心的吗？

展开剩余字幕（还有 480 条）

Speaker 0

我觉得就是。

Speaker 0

从更广义的角度来说，你可以认为比如API也是CODE的一部分，对吧？

Speaker 0

就是任何就是基于CODE的这种接口都是，就是CODE的环境的一部分，对吧。

Speaker 0

然后我觉得有个非常经典的就是DEBATE，一个一个辩论，就是说那最终的这个AGI它是一个基于API的或者基于CODE的这样一个。

Speaker 0

还是基于GUI，或者基于就是对人定义的这些环境的一个东西。

Speaker 0

还是说它是一个一个MIX？

Speaker 0

我觉得这个事情就有点像呃……当然就是首先一点就是说很多事情它可能并没有一个API，对吧？

Speaker 0

现在它只有一个呃FRONTEND，它只有一个前端，然后你可以去为它造API，那就有点像是说你想要改造你的你的车能够适应所有路，还是说你想要。

Speaker 0

改造你的路去适应现在这些车，对吧？

Speaker 0

然后呃，当然我觉得可能最终的结果是。

Speaker 0

MEET IN THE MIDDLE，就是两两两边都会做。

Speaker 0

而且可能这个事情没有那么难，就是说现在来看，让一个AGENT既能够使用CODE，又可以去使用人人的这些就是SCREENSHOT或者FRONTEND，可能两者都做也没有那么难。

Speaker 0

那从这个角度来说，去让AGENT或者让这辆车能够开在所有的。

Speaker 0

路上的难度是低于人力去改造所有的路，让它能能变成API接口的难度。

Speaker 0

那那从这个角度来说，我觉得CODING肯定是很重要，但是呃，如果去做GUI或者做其他东西也没有那么难，那可能最终的AGENT就什么都做对。

Speaker 2

我还想再问一个泛化的问题，因为我读你最新的文章。

Speaker 2

呃，我印象最深的是你提到这个终于泛化了，就是是真的泛化吗？

Speaker 2

因为你刚才也提到有很多鲜艳的知识已经串到MODEL里头了，对吧？

Speaker 2

那嗯，有什么迹象能让你感觉到是真的泛化了，而不是它那个TRAINING DATA里面就。

Speaker 2

既有包含这些数据了。

Speaker 0

对，我觉得是有可能。

Speaker 0

就是说，呃，如果你的pre内已经包含了所有事情，那R L只是激发出来这些所有的skill。

Speaker 0

是我想起可能是伊利亚还是谁说的一句话，就是说maybe the ultimate generalization，就是说你去overfit the reality，就如果你能把剩下所有事情都干了。

Speaker 0

那那你在讨论它是OVERFIT还是GENERALIZE，就就不重要了。

Speaker 0

但我觉得AGAIN就是它还是GENERALIZE，而且我觉得原因就是它能够REASON，就是说当你可以在一个环境学到一些如何去思考的这个技能，并且这个思考的技能能够迁移到新的环境。

Speaker 0

我觉得这个是我说它泛化的本质原因。

Speaker 0

对，从之前的环之前可能你学到更多是，比如我下围棋，我我对这个环境或者对这个游戏有了很强的理解，但是我怎么去用一个像语言一样通用的方式去思考，在这方面并没有泛化。

Speaker 0

我觉得这个是。

Speaker 0

可能本质原因，而不是说我学会了上网，我学会了写代码，然后这能够做世界上很多事情了。

Speaker 2

我还想再插一个小问题啊，有可能我们很快就看到了最强的软件工程师，甚至到2027年，我们看到了能操作人类电脑、手机上几乎所有的任务和指令的通用的AGENT。

Speaker 2

那。

Speaker 2

你对这一天的这个幻想是一个什么样的？

Speaker 2

过于乐观吗？

Speaker 2

还是比较合理的？

Speaker 0

呃，我觉得这个事情现在还没有 WELL DEFINE，就还没有被很好的定义。

Speaker 0

就是说从某种程度来说，现在的这些模型它。

Speaker 0

他写代码的能力已经比世界上几乎所有人要强，或者说他的数学推理或者逻辑推理能力从某种程度来说已经比世界上大多数人要强了。

Speaker 0

呃，但是当你要说他能不能很好地使用这些环境的时候，还是要基于就是说你要让他去做什么任务。

Speaker 0

然后这个任务是不是一个能够被合理定义的任务？

Speaker 0

我觉得很多时候，人或者说人类最难的问题不是说去推理，而是去获得这个context，或者说获得这个获得这个背景。

Speaker 0

或者说我我不知道怎么翻译，就是说很多时候我觉得现在模型的包通那个不是说我缺少这个推理能力，或者说我缺少这个写代码，或者。

Speaker 0

使用使用前端的能力，而是说他去找一个完完整的context。

Speaker 0

然后这个事情我觉得呃，我不知道是不是这个INTELLIGENCE的问题，还是一个产品问题，还是一个别的什么问题。

Speaker 0

但是如果你要让AI实现价值，那你需要去解决这个问题。

Speaker 1

你在四月的博文的second half，就这篇博文在四月份引起了很大的反响。

Speaker 1

你是怎么想到的second half这个关键的idea的？

Speaker 1

当时受了什么启发吗？

Speaker 0

嗯，好问题。

Speaker 0

是这样的，就是说我我首先是被邀请去斯坦福，就是那门课去给一个给一个TALK。

Speaker 0

然后我就去思考，那我能讲什么呢？

Speaker 0

然后很显然我也不能讲很多很技术性的东西，那我就只能讲一些比较哲学的东西。

Speaker 0

那那那你讲什么呢？

Speaker 0

然后然后就想到这个事情，对。

Speaker 0

然后我觉得是就是我在OPEN工作半年，包括之前RESEARCH的一个感悟吧，就是说大家往往。

Speaker 0

看重的是，比如训模型或者或者方法或者别的东西。

Speaker 0

但是现在我觉得报错那个已经已经转移到了，就是怎么去定义好的任务，怎么去定义好的环境。

Speaker 1

你觉得现在是那个转折点吗？

Speaker 0

从上半场到下半场，从某种角度上来说，我觉得主线在从上半场变成下半场。

Speaker 0

我说的主线，就是说基于语言的智能体。

Speaker 0

当然，你可以说比如AUDIO或者MULTI MODEL或者ROBOT，还有很多没有解决的方法的问题，对吧？

Speaker 0

但是我觉得从语语言开始，然后定义推理、定义定义AGENT这条线上面，我觉得我们已经有了一个。

Speaker 0

终于有了一个很general的方法，并且这个方法是可以泛化的。

Speaker 0

那这个事情就带来一个很本质的区别，就是说我们之前是就有点像我有很多怪兽，那我需要去为了不同怪兽去造各各种各样的武器，去来打这些怪兽。

Speaker 0

现在我有一个通用的武器了，就我有一把机关枪。

Speaker 0

那现在我要思考的问题是，我要朝哪里去？

Speaker 0

去开枪对吧？

Speaker 0

就是我现在其实不用再去考虑这么多方法的问题了，因为有已经有一个非常通用的方法。

Speaker 0

那我可能需要更多考虑的问题是，我要用这个方法去解决什么问题。

Speaker 2

所以就是怎么设定任务，怎么定义问题。

Speaker 2

这个你在探索过程中有什么思考吗？

Speaker 2

可以分享。

Speaker 0

对，我觉得呃。

Speaker 0

不同的人有不同的FLAVOR，有不同的偏好。

Speaker 0

对，然后我是从很早开始就是有这样一个偏好，就是说。

Speaker 0

我想定义一个REWARD，这个REWARD是呃基于结果而不是过程的。

Speaker 0

而且它是一个呃基于规则，或者说能够很清晰地算出来，而不是基于人的偏好或者模型的这个偏好，或者一些非常黑盒的东西的。

Speaker 0

然后就是我们做WEB SHOP这个工作的时候，其实当时最困难的一点就是说我怎么去定义REWARD。

Speaker 0

实际上我认为做任何的RL TASK最难的部分其实是怎么定义REWARD，对吧？

Speaker 0

因为你永远可以把亚马逊或者把FACEBOOK，就你可以做各种各样的环境，就这个事情工程上非常难，但是这个东西总是可以做的。

Speaker 0

最难的部分是。

Speaker 0

我怎么去设计任务，然后让这个任务既有难度，又有真实的价值，又有一个很好的REWARD。

Speaker 0

而且这个REWARD又不是很NOISY，它是一个呃基于规则或者是白盒的REWARD，而不是一个黑盒的REWARD。

Speaker 0

对，然后呃后我觉得事实后来证明就是说这个是现在的RL就是成功的关键，对吧？

Speaker 0

就是说像MATH和CODING这样的任务，它最重要的。

Speaker 0

一点就是说，首先它是基于结果，而不是基于过程的。

Speaker 0

第二是说我有一个非常清晰的基于规则的REWARD，而不是基于奇怪的人或者模型偏好的REWARD。

Speaker 0

对吧？

Speaker 0

就是说答案是3，那它就是3，你只要最终这个答案它的它是3，那它就是对的，它不是3，它就是错的。

Speaker 0

呃，如果你去做任何其他的设计，好像都会出现HACKING。

Speaker 0

就如果你基于过程去定义REWARD，那你可能会出现HACKING。

Speaker 0

如果你去优化人的偏好，或者说机器的偏好，那你也会出现HACKING。

Speaker 0

那你可能会产生一个非常优美的代码，但是它可能不解决问题，对吧？

Speaker 0

然后我做了其他的这些TASK，我觉得也是这样的FEEDBACK，就比如SWEET BENCH。

Speaker 0

包括一些其他的，呃，像CALLY或者其他各种各样的任务。

Speaker 0

我觉得就是一点是基于结果而不是过程，第二点是白盒的基于规则的，而不是基于人或者模型偏好的。

Speaker 1

因为OPENAI它对产品有五个分级嘛，那如果是基于AGENT，就是基于任务的定义来给有可能的产品做一些分级嘛。

Speaker 1

随着模型能力的溢出，当我们要用模型能力的时候，那AGENT可以怎么做一个分级呢？

Speaker 1

在你脑海中有这样的一个框架没有？

Speaker 0

我现在感觉倾向于会有不同的类型的应用，会有不同的挑战。

Speaker 0

然后这些挑战可能是正交的，或者说没有，很难说谁谁比谁更难，或者谁比谁更简单，就是呃。

Speaker 0

从某种角度来说，人类也有这样的问题，对吧？

Speaker 0

就比如说洛克菲勒和爱因斯坦谁更厉害，这个事情是很难、很难去定义，对吧？

Speaker 0

就成为一个大公司的CEO和成为一个数学家，谁哪件事情更难。

Speaker 0

我觉得这个事情是，是他可能是不同的、不同的难，或者不同的挑战。

Speaker 0

但是对于A证来说，还有另外一点就是说。

Speaker 0

可能对于人来说，一个很简单或者很难的事情，对于AGENT他可能并没有这样的简单和难的区分。

Speaker 0

就比如说，可能对于人做，对于人来说做一个客服比作为一个软件工程师要简单很多，对吧？

Speaker 0

他工资也少很多，然后需要的文凭或者需要的各种各样的资历也少很多。

Speaker 0

那现在反而。

Speaker 0

做软件工程是比做客服我觉得更简单的事情，因为做软件工程你有一个。

Speaker 0

更好的环境，有一个更清晰的REWARD。

Speaker 0

然后你有更多呃、更多的数据，或者各种各样原因，你想要去做一个非常ROBUST或者RELIABLE的这个客服。

Speaker 0

实际上是有这个RELIABILITY的CHALLENGE。

Speaker 0

对，所以我觉得我们可以把就人类的各种各样工作分成很多各种各样的CATEGORY。

Speaker 0

但是人本身就有很多不同ASPECT的CHALLENGE，然后对于机器来说或者对于AI来说，呃，人的这些CHALLENGE的相对难易可能也不完全呃反映到AI上。

Speaker 0

对。

Speaker 1

那什么样的任务整体来说更适合AGENT做什么样的任务？

Speaker 1

比如说适合人和AGENT一起做，然后什么样的任务适合人做？

Speaker 0

就是我觉得从非常high level说，我觉得有不同的、有不同的划分任务的方法。

Speaker 0

对我觉得从一个划分方法来说，有一些任务更注重reliability。

Speaker 0

或者有些任务更注重。

Speaker 0

CREATIVITY，就是说做客服你重要的是，比如说一百次里面你需要九十九次或者以上不要出错，对吧？

Speaker 0

如果你比如你只有八十五次让用户开心了，你有十五次没有让用户开心，那你可能就被炒鱿鱼了。

Speaker 0

那就是说，我觉得一类任务就是说你做简单的事情，但是把它做得非常的 RELIABLE；另一类任务可能是比如说我要去证明黎曼猜想，或者我要去写一个很难的代码，或者我要去。

Speaker 0

创作文学剧本，对吧？

Speaker 0

就是说我可以试一百次，我只要有一次做得特别好，那我就我就成功。

Speaker 0

然后这两类任务我觉得需要的挑战是是不一样的。

Speaker 0

我觉得还有另还有另一个划分，就是说呃你是去做呃我觉得任务的深度和广度吧，就是说你可以去做一个。

Speaker 0

比如说我CURTAIN其实是一个非常短的LOOP，比如我把这个文件改一下，可能我三秒钟做好了。

Speaker 0

有些事情我可能需要三十分钟或者三三个小时或者三天。

Speaker 0

从这个维度来说，就是说我需要的是就是长期记忆或者NOT MEMORY的这个这个能力。

Speaker 0

然后从从任务的广度来说，比如说我要去解决这一个BUG，VERSUS我要从头搭建，比如WINDOWS这样一个这样的一个REPO。

Speaker 0

那那我会有就是说呃，这个广度的区别对吧？

Speaker 0

就一个人能做的事情和一个公司能做的事情和一个TEAM能做的事情。

Speaker 0

那那从这个角度来说，我觉得。

Speaker 0

我们需要multi agent research。

Speaker 1

那从reliability到creativity，哪个任务是agent目前更好定义的？

Speaker 1

它的顺序和步骤应该是什么样的呀？

Speaker 0

我觉得其实我们是可以平行的做很多不同的事情的，而且其实有一个非常简单的，就是设计设计没设计的方法。

Speaker 0

就比如说呃做 CODING，我们有个非常传统上有一个没设计叫做 PASS AT K。

Speaker 0

意思是说，你做了，比如说呃，你同样一个代码写了case，你起码成功一次的概率是多少？

Speaker 0

那你可以想象，就是说当你这个K越来越大的时候，你的成功概率会越来越大。

Speaker 0

然后你会发现很多时候，这个coding risk它会report pass at a hundred，就是说我同样一个任务我跑一百次，我起码成功一次的概率是多少？

Speaker 0

对，但是呃，我们我们去年发了一个research叫做top bench，他的想法就是说实际上对于另一类任务，比如说客服。

Speaker 0

你需要是和它正好镜面相反的matrix，叫做我们把它定义为叫做pass hat key，就是hat，就是一个就是密次的那样一个符号，就是说你做case。

Speaker 0

永远永远成功的概率是多少？

Speaker 0

或者说起码失败一次的概率是多少？

Speaker 0

就是说，呃。

Speaker 0

我觉得从某种程度来说，我有些任务我们需要去optimize pass at k，有些任务我们需要去optimize pass had k，但是往往我们现在。

Speaker 0

更重视的是就是SUCCESS RATE，WHICH IS PASS AT ONE，或者是我们重视PASS AT A HUNDRED。

Speaker 0

对于CODING，我们对于简单任务的ROBUSTNESS并不是特别重视，而而而这个事情的原因，我觉得是因为大家做AI还是没有。

Speaker 0

还是在做一些BENCHMARK，对吧？

Speaker 0

就是大家还是在做我做一些任务，而没有说我要去做一些实际的应用。

Speaker 0

但如果你要接受这个MATH转变之后，那我觉得很自然，就是有些应用它就是需要ROBUSTNESS，那我就是需要去OPTIMIZE ROBUSTNESS。

Speaker 0

现在我觉得还没有。

Speaker 0

意识到这件事情，但我觉得如果大家意识到这个事情，这个事情是会有很大进步的。

Speaker 1

其实创业公司很担心模型能力的溢出会把创业公司做的AGENT吞掉。

Speaker 1

长期看像CHRIS这样的公司，你觉得它的壁垒是什么呢？

Speaker 1

就你觉得哪些AGENT是模型公司必然一定会做的，哪些事情是有创业公司机会的，就它这个边界，你觉得可能在哪里？

Speaker 0

我觉得创业公司应该担心的事情是模型没有溢出能力，对吧？

Speaker 0

那这样的话，你就真的什么都做不了了。

Speaker 0

我觉得有溢出能力是个非常好的事情，这几乎意味着你有机会，对吧？

Speaker 0

然后我觉得创业公司最大的机会就是说，呃，我能够设计不同的INTERFACE，或者说人和数字世界交互的方式。

Speaker 0

就是说，呃。

Speaker 0

ChatGPT 或者这些所有的做模型的公司，其实都在做类似 ChatGPT 的产品。

Speaker 0

然后CHATGPT的本质就是说，你是在像和人交互一样去进行和这个数字世界的交互，对吧？

Speaker 0

就是说你的CHATBOT有一个对面有个像人一样的东西，然后你和他聊天，或者你给他布置任务，或者你让他去帮你做DEEP RESEARCH，或者让让你帮他做做写代码。

Speaker 0

但它的交互方式是一个像人一样的交互方式，或者是像助手一样交互方式。

Speaker 0

如果你能够用模型通用能力，但是创造不同的交互方式，那你就能创造巨大的机会。

Speaker 0

我觉得本质上来说，CURSOR就是说我创造了一种新的交互方式，对吧？

Speaker 0

就是说它不是一个像人一样交互的方式，而是一个像COPILOT的，或者说是一个新的交互方式。

Speaker 0

我我我写这个代码的时候，它能给你提示一些东西，或者我能帮你这个ID的一些东西。

Speaker 0

但是没有人和人是这样交互的，对吧？

Speaker 0

这也是它的价值所在。

Speaker 0

我觉得最终可能模型的能力是会比是会产生BAYON的CHATGPT这种交互方式的。

Speaker 0

SUPER APP，那这种情况下，创业公司最大的机会就是说我能探索新的交互方式，并且我能够有模型溢出的能力。

Speaker 0

这两者缺一不可。

Speaker 0

如果你做的是这个旧的INTERFACE，然后你用利用这些新的模型，那那那你很很容易被CHATGPT取代对吧？

Speaker 0

如果你的交互方式很像CHATGPT，那你有什么理由不被CHATGPT取代？

Speaker 0

如果你做新的交互方式，但模型没有继续变好，没有新的溢出能力，那你也很难做。

Speaker 0

所以对于创业公司来说，最好的机会就是说你做新的交互方式，但是模型不停的有新的溢出能力，让你能够赋能这些新的交互方式。

Speaker 1

CHATGPT也可以有跟进这个新的交互方式啊。

Speaker 0

对？

Speaker 0

但是我觉得拥有一个SUPER APP其实对于公司是双刃剑，对吧？

Speaker 0

因为。

Speaker 0

当你已经有了一个交互方式的时候，你会必然的形成路径依赖。

Speaker 0

就像2020年，Google它有无限多的资源和钱，有Transformer，有最好的Research。

Speaker 0

但它肯定最自然的想法是：我怎么用这东西？

Speaker 0

提升我的搜索引擎。

Speaker 0

当你有像ChatGPT这样一个super app的时候，那很自然你的research就会center around这个super app，会center around这个交互方式。

Speaker 0

你会去探索新的产品，但是即使是大厂，或者即使是谷歌，即使OPEN APP，你大部分资源还是会围绕你的SUPER APP这样的交互方式。

Speaker 0

我觉得这是创业公司的机会，对。

Speaker 1

嗯，有趣。

Speaker 2

你刚才提到交互方式啊，今天还是人跟扣的交互，人跟tax交互。

Speaker 2

那人跟agent未来是怎么交互的呢？

Speaker 2

你感觉超级助理那种her那种属于一个正确的交互方式吗？

Speaker 2

如果这种交互方式work，你觉得有没有机会beat今天的形态呢？

Speaker 0

her其实是不是类似于一个还是一个assistant的形态，但是只不过它有语音而不是文字，对吧？

Speaker 0

呃，我觉得这是一个很显然很有价值的心态，对吧？

Speaker 0

因为人和人交互已经几千年、几万年、几百万年，就这是一个对人来说最自然的心态。

Speaker 0

那这肯定是最显然的super app。

Speaker 0

但是，然后这个生态位我觉得CHATGPT是占住的，或者说很显然这些模型公司一开始做的事情就是这个。

Speaker 0

呃，那我觉得不显然的事情是我能不能基于不像人的交互方式，对吧？

Speaker 0

我觉得CURSIVE是个很好的例子。

Speaker 0

然后从某种程度来说，GOOGLE是个很好的例子，对吧？

Speaker 0

就是他当时这是个很新的方法，就没有人见过，很奇怪，对。

Speaker 0

然后雅雅虎从某种程度来说是一个更像黄页的，对吧？

Speaker 0

是一个更让人熟悉的交互方式，但是谷歌是一个更让人不熟悉的交互方式。

Speaker 0

我觉得ASSISTANT或者HER，或者就和人一样。

Speaker 0

交互方式是一个很显然的、最重要的交互方式之一。

Speaker 0

但是我觉得肯定还是会会有足够多的机会，有新的交互方式产生。

Speaker 1

你脑海里有有没有一些新的交互方式啊？

Speaker 1

就是非CHATGPT现在在探索的形态，也非传统的互联网的交互方式，在你脑海里有吗？

Speaker 0

我觉得canvas是一个好的尝试吧，就是说你可以基于现在的一个任务去，在在线生成一个最符合这个情境和你的个性和这个任务的一个前端。

Speaker 0

然后你可以让这个东西对不同的事情做得很不一样。

Speaker 0

我我觉得这是一个很显然值得探索的方向，对？

Speaker 0

但这个事情显然也很难。

Speaker 2

对你感觉应用公司的数据飞轮对他们非常重要吗？

Speaker 2

或者说在什么环境下才能形成？

Speaker 2

我感觉CHATBOT就是偏好数据，好像没什么数据飞轮。

Speaker 2

那CODE可能有思考过程的数据。

Speaker 2

那思考过程的数据是代表一类能力的数据，那这个可能是有用的。

Speaker 2

像CANVAS也好，ARTIFACTS可能是有思考过程的数据的。

Speaker 2

那这类能能有机会形成很强的数据飞轮效应。

Speaker 0

我觉得呃，大多数公司还没有形成数据飞轮，对吧？

Speaker 0

大多数公司还是依赖于模型在变好，然后使用模型变好的这个这个溢出的能力。

Speaker 0

然后如果你要有数据飞轮，首先你要能够自己去训模型，并且你能够通过交互有一个很好的REWARD。

Speaker 0

我觉得就是你要有一个好的REWARD，使得你能够把好的。

Speaker 0

数据和不好的数据分开来，对吧？

Speaker 0

我觉得现在可能比较成功的案例就是MIDJOURNEY。

Speaker 0

对吧，就是说我有个非常清晰的reward，就是说人更喜欢哪张图。

Speaker 0

然后这个reward和我的应用是是align的，就是说我这个reward做的更好，那我这个公司就是更成功，然后这个模型就是更好。

Speaker 0

一切东西都是对齐的，然后有了这样的一个情况下，我又能自己训模型。

Speaker 0

我可以去做数据飞轮，然后你做的这个事情又必须比较。

Speaker 0

比较不主线，因为如果是很主线的话，我也可以通过PRE TRAINING或者RR或者一些别的方式去把这个能力给提上去，对吧？

Speaker 0

然后我可以通过泛化，我可以通过别的方式呃。

Speaker 0

所以现在我觉得对大国、大数公司好像并没有形成飞轮。

Speaker 2

如果你是科四的CEO，你会去做pretraining的事情吗？

Speaker 0

是个好问题。

Speaker 0

我觉得我肯定会训练模型，或者去尝试训练模型。

Speaker 0

但是做不做pre training，我觉得得得看情况。

Speaker 0

对我觉得coding是一个非常主线的任务，就是所有的现在大厂他都会把自己的模型的coding做好，对吧？

Speaker 0

所以所有的pre training还有post training还有二啊，各种各样的事情他都会考虑到这一点。

Speaker 0

那在这个情况下来说，呃。

Speaker 0

你要不要做它，可能取决于首先就是这些闭源的这些模型做得有多好，其次是开源模型做得有多好。

Speaker 0

然后这中间有有多少gap，然后你能够填满填补多少这样的gap，对吧？

Speaker 0

那那可能，但当然比如如果你有很多钱，你那你有很多资源，那你想把这个事情做了，那我觉得也是合理的，对。

Speaker 1

围绕agent，你脑海里的一个树的结构是什么样子的呀？

Speaker 1

如果是基于foundation model，然后基于reasoner，然后往上涨，这个agent的整个的生态树，你在脑海里是一个什么样的结构啊？

Speaker 0

我觉得就是有。

Speaker 0

有两个，有两个方向吧。

Speaker 0

一个方向是就是FUNDAMENTAL的RESEARCH会怎么演变，或者说这个方法方法会怎么演变。

Speaker 0

我觉得另一个是应用，或者说它的交互方式会有什么样的演变，然后。

Speaker 0

从某种程度上来说，呃，他们之间肯定是有关联。

Speaker 0

但是我觉得会需要不同的人探索不同的方面，对吧？

Speaker 0

然后比如CURSOR，它就是我我并没有在产品或者FUNDAMENTAL RESEARCH上做创新，但是我做交互方式的创新。

Speaker 0

对，然后我觉得在fundamental research上，我我自己觉得比较重要的就是一个是一个是memory，一个是interesting reward，还有一个事情是multiagent，就是说我怎么。

Speaker 0

我怎么能够让一个AGENT？

Speaker 0

就这个事情，我觉得也和OPENAI就是接下来说的这个INNOVATOR和ORGANIZATION很像嘛，对吧？

Speaker 0

其实就是你作为一个INNOVATOR，那首先你需要一个LONG MEMORY，对吧？

Speaker 0

比如说我怀尔斯，我研究。

Speaker 0

费曼菲尔曼定理研究，比如说二十年。

Speaker 0

那我我需要一个lot memory，我有我需要一个这个这个长期记忆。

Speaker 0

但是基于这长期记忆还不够，你需要有一个内在的reward，对吧？

Speaker 0

因为直到你证明的那一刻，你是没有任何外在reward。

Speaker 0

对吧，你也没有获奖，你也没有做任何事情，没有人给你任何FEEDBACK。

Speaker 0

你需要自己给自己一个FEEDBACK。

Speaker 0

那这个事情是所有innovator最重要的事情，无论你是艺术家还是科学家还是文学家还是。

Speaker 0

任何创作者对吧？

Speaker 0

另一方面，我觉得作为组织，你需要解决的就是说agent和agent之间怎么协作，怎么让multi agent skill。

Speaker 0

然后我觉得从某种程度来说，现在的agent可能就像一个普通大学生。

Speaker 0

做做一个数字、数字化的这个实习生，对吧？

Speaker 0

就是说可能这是第三节，或者我们说AGI，可能就是一个普通比如一本大学生能够在电脑上能做的事情的一个能力。

Speaker 0

但是人类社会的边界就是说。

Speaker 0

就这当然是百分之八十或者百分之九十的人，那人的社会边界，或者说我们最崇拜什么样的人呢？

Speaker 0

那一方面就是这些创新的人，对吧？

Speaker 0

爱因斯坦或者高跟或者梵高或者贝多芬，能能能创造新的东西的人。

Speaker 0

另一部分就是我能创造新的组织或者伟大的组织的人，对吧？

Speaker 0

就像伊隆·马斯克或者Steve Jobs，那那我觉得很自然就是。

Speaker 0

这两个事情很重要，对。

Speaker 2

离你说的实现这个愿景，我感觉中间还有几个关键的东西要突破的。

Speaker 2

你比如说长期记忆，你感觉长期记忆是一个短期可以预期突破的问题吗？

Speaker 0

也许吧，当然当然当然也取决于多短期对吧。

Speaker 0

但是我觉得我觉得必然会突破的就是一个事情，当它足够有价值。

Speaker 0

总会有突破的，对。

Speaker 0

就是如果你对技术乐观的话。

Speaker 2

对嗯，这个你要展开讲一讲嘛。

Speaker 2

这个是从context long context加手是在模型的架构本身发生一些变化。

Speaker 0

我不知道我的share多少，但是我的belief是说，就是我在博客里面提到的就是有tivity问题，对吧？

Speaker 0

就是说为什么我们现在这个模型的能力。

Speaker 0

推理这么强，考试这么强，玩游戏这么强，但他还没有创造足够的经济价值。

Speaker 0

我觉得其实可能根本的原因就是他没有这些context。

Speaker 0

然后，在人类社会里面。

Speaker 0

比较 tricky 的一点就是说，当然我们写下来很多东西，我们用文字、用 google doc、用 notion，我们记录下很多东西。

Speaker 0

但是有很多 context 永远只是在人大脑里面。

Speaker 0

这个基于分布式的这样一个维护的，对吧？

Speaker 0

就比如说你老板跟你的一些这个行为习惯啊，或者一些很难用语言总结下来的东西，这些context。

Speaker 0

它存在人脑海里，人永远没办法把这些东西全部写下来。

Speaker 0

这就导致人是不可或缺的，因为只有人有这种能力，就是说。

Speaker 0

进入这样一个环境，然后去获得这样的一个context。

Speaker 0

对吧，就是说如果这个问题解决了，那我觉得。

Speaker 0

可能有这些问题就可以很大程度解决，对吧？

Speaker 0

因为这世界上大多数人并不是这个Steve Jobs，或者也并不是爱因斯坦。

Speaker 0

他可能只是一个普通人，他数学推理能力或者WHATEVER也没有O三强，但是他能够去MANAGE CONTEXT。

Speaker 0

他比如说他去了这个公司七天之后，他除了这些文字上看到的东西之外，他脑子里面有一些积累下来的context。

Speaker 0

然后这个context使你比O三有优势对吧？

Speaker 0

因为O三没有这些context，你有这些context。

Speaker 0

虽然你没有O3聪明，但你有这些context。

Speaker 0

所以你做的比O3好。

Speaker 2

对你刚才提到一个很关键的就是模型或者agent要有一个内生的奖励系统。

Speaker 2

那今天是不是好像还没有？

Speaker 2

那如果要赋予它一个内生的奖励系统，是不是我持续自主学习的过程当中，我就可以改动我的一些模型的权重，那就变得更加的聪明。

Speaker 2

你你感觉离这一步还有多远？

Speaker 0

我不知道，我觉得会有这一天，但是很难预测什么时候。

Speaker 0

对，当然就是说，当然他自我自我提升的方法，也许是改变自己的权重，也许是有一个基于语言的长期记忆，也许是一个基于embedding或者其他东西的长期记忆。

Speaker 0

但是他会自我提升，但是具体是什么方式，什么时候，我觉得这还有不确定性。

Speaker 2

内生奖励你要讲讲吗？

Speaker 0

就像我刚刚说的嘛，就是说很多创新者对吧，就是他为什么能够在没有外在激励的情况下去做很多事情。

Speaker 0

他是有一个自己内在的这个价值观或者激励，对吧？

Speaker 0

然后这个事情其实我觉得AI或者NEUROSCIENCE已经研究了很久、很久、很多年。

Speaker 0

从某种程度上来说，婴儿是有这样的一个基于好奇心或者这这个自我的reward，对吧？

Speaker 0

就是你会发现很多婴儿他会玩这些玩具，他会用嘴咬咬这样一个东西，或者或者干别的。

Speaker 0

那你说他获得什么reward了吗？

Speaker 0

他也没有升职加薪，他也没有获得钱，他没有这些外在激励。

Speaker 0

他就是好奇，对吧？

Speaker 0

他他就是说如果我做这个事情，那我会有什么样的感觉。

Speaker 0

这个感觉如果是新的，那我就我就可以学习，对吧？

Speaker 1

就是他获得安全感。

Speaker 0

对，就是说好奇心或者掌控感或者安全感，就是有一些这样的内在的motivation，使得他做这些事情，对吧？

Speaker 0

否则的话，你很难从一个理性的角度解释他为什么会做这些事情。

Speaker 0

对，但是很有意思的是，我觉得当人长大之后，他有了一个。

Speaker 0

就当你是婴儿的时候，你其实是一个基于视觉、基于物理、基于物理世界的对世界的一个理解，对吧？

Speaker 0

就是说你你学习的是怎么把你的这些触觉、听觉、视觉和你的。

Speaker 0

运用骨骼的这些各种能力，给给结合起来对吧？

Speaker 0

但当你长大之后，你有了一个基于语言或者基于推理或者基于文字的对世界的一个理解，对吧？

Speaker 0

就这个世界是怎么运作的，我去我怎么才能开一个公司，我怎么才能升职，我怎么才能做各种各样的事情。

Speaker 0

你在玩的不是一个物理游戏了，而是一个文字游戏。

Speaker 0

那在这个文字游戏里面。

Speaker 0

你当然也有这样的内在激励，但好像又很不一样。

Speaker 0

我觉得这是现在的一个挑战，就是说传统的AI，它比如说你去玩迷宫，或者你去玩一些这个机器人的仿真，它可以定义出来一些比如基于世界模型，或者基于各种各样人婴儿时候的这些MOTIVATION的这样的内在激励。

Speaker 0

但当你在玩一个文字游戏的时候，你怎么去做一个内在激励？

Speaker 0

这似乎又变得很不一样了。

Speaker 0

对。

Speaker 1

在你研究AGENT的过程中，你有对人不管是思考还是任何有更深的认知吗？

Speaker 1

那你怎么看人和AGENT他们的同与不同？

Speaker 0

最大的感触就是我意识到人之所以能见到IT，是因为能推理。

Speaker 0

我觉得这个可能是呃，最重要的、最重要的这个takeover。

Speaker 0

然后我觉得呃，这个事情很有意思，因为我。

Speaker 0

我一八年的时候在MIT，我在Josh Telabam的实验室。

Speaker 0

就是他是一个认知科学的大佬，然后我学了很多认知科学。

Speaker 0

然后，认知科学或者计算认知科学它的一个核心的故事就是：说我应该就我们现在这些AI虽然有很多进展，但是它有很多问题，对吧？

Speaker 0

然后我们要去看看人是怎么、人有哪些优势，然后人是怎么去做这些事情的，为什么人能。

Speaker 0

对吧，把这个事情做得更好。

Speaker 0

比如人能够从几个样本中泛化，但是机器不能。

Speaker 0

那为什么我们要从人身上寻找这些方法，然后去把它应用到AI上？

Speaker 0

但后来我的认知是，你会发现现在WORK的这些AI系统，它还是会和人很不一样，对吧？

Speaker 0

就是SKINNING LAW或者或者R啊，或者很多东西，它和人学习方法就是很不一样。

Speaker 0

那我觉得可能一个更好的从事身上借鉴的方法是。

Speaker 0

你去思考。

Speaker 0

人能做什么，而机器现在不能做，这是一个客观的事情。

Speaker 0

但是你找到这个问题之后，你可以基于第一性原理去思考怎么去解决这个问题。

Speaker 0

你不一定要去依赖于人，怎么解决这个问题而解决这个问题。

Speaker 0

就比如说，人我觉得他现在能做的事情。

Speaker 0

比如说我能进一家公司，我能够工作七天或者当个实习生当三个月，然后我能积累这个公司的CONTEXT。

Speaker 0

然后我我虽然可能不是很聪明，我是一个二本的或者一本的毕业的学生，但我可以做很多现在AI做不了的事情。

Speaker 0

这是一个客观存在的事实。

Speaker 0

那怎么解决这个问题？

Speaker 0

可能认知科学或者神经科学会告诉你，哦，人脑有这样的这个海马体或者episodic memory，或者有这样的架构那样的东西。

Speaker 0

但我觉得你可能不需要去完全照抄这样的事情，你可以去从第一性原理设计not memory，要要要要怎么设计。

Speaker 0

所以我觉得从人身上可以借鉴的是，有哪些事情人是能做或者机器做不了。

Speaker 0

这是一个很ROBUST、很很客观的事情。

Speaker 0

但至于就是说人是怎么人是怎么能做这些事情，以及我们要多少多少程度上借鉴这样的一个方法，这是一个我觉得更主观或者更NOISE的问题。

Speaker 0

因为一方面，神经科学或者认知科学它也没有说百分之百解决的这些问题。

Speaker 0

它只是说我提供了这样的猜想。

Speaker 0

另一方面是，即使它是一个被CONFIRM的事情，比如说人人的视觉其实是个相对被呃研究得更深刻或者更透彻的事情，对吧？

Speaker 0

人有六层的这样的这个Cortex，然后它每一层有各种各样的结构。

Speaker 0

那那我觉得你你可以学到的takeaway是说我需要去做这样一个new network。

Speaker 0

那我但我并不需要去照抄，就是说它有各种各样的细节。

Speaker 1

如果在设计agent的时候需要让它越来越像人吗？

Speaker 0

again，我觉得是一个utility problem，就是说。

Speaker 0

我觉得就是说，很多问题不像人更有价值。

Speaker 0

比如下围棋或者I DON'T KNOW，就是开车可能大多数可他可能大多数人开车方向并不好，对吧？

Speaker 0

那可能基于基于这个规则有更好的开车方式。

Speaker 0

那但有些东西像人更好。

Speaker 0

那你就应该思考怎么去BRIDGE THE GAP，怎么去填补这个空缺。

Speaker 0

对，那下围棋或者打游戏，那我基于RL，我可以学到和人不一样，并且给人比人更好的方式。

Speaker 0

那那我就不应该像人，但是。

Speaker 0

在一个公司打工，然后和老板搞好关系，然后去完成各种各样的任务。

Speaker 0

那这个事情人就是比AI现在做得更好。

Speaker 0

那那那我们就应该适度更像人，对。

Speaker 1

嗯，你怎么思考人和agent未来的关系啊？

Speaker 2

要给A发身份证吗？

Speaker 0

呃，我我我觉得这是个交互方式的问题，对吧？

Speaker 0

就是说，呃，很有可能。

Speaker 0

未来有很多AGENT，但它长得并不像人，或者你和它交互的方式并不像人。

Speaker 0

它可能是个平台，或者是一个，或者说页面，或者是一个游戏，或者是一个别的东西。

Speaker 0

那你可能就不会把它拟人化，对吧？

Speaker 0

但当然我觉得肯定会有很多拟人化的这样的AGENT。

Speaker 2

如果AGENT它有了长期记忆，它是不是就是你的朋友了？

Speaker 2

它是你的朋友了，那人跟AGENT就平等了。

Speaker 2

是不是我们就要给他发身份证？

Speaker 0

发身份证的目的是什么？

Speaker 2

就是他作为一个独立个体，跟我们共存了嘛？

Speaker 0

我觉得会有可能吧。

Speaker 0

就是呃，很显然一个很有价值的，我觉得这这些事情最终还是会从有T的出发，对吧？

Speaker 0

就是说一个事情如果有价值，那他可能就会产生，比如说那人可能很多人很孤独，他需要一个朋友。

Speaker 0

那这个技术它能够创造这样一个体验，那拟人化就是一个很合理的存在的未来，对吧？

Speaker 0

但当然他去做一个平台，他去做一个推荐，他去做一个游戏，他可能这个技术会有很多不同的交互方式，让你感觉他不像一个人，或者你根本感觉不到有什么区别。

Speaker 0

那在这个桥上，你不会把它拟人化。

Speaker 0

所以我觉得还是会基于这个事情的经济价值。

Speaker 2

对你提到经济价值，就是你觉得AI AGENT跟CRYPTO会有未来结合的地方吗？

Speaker 2

你比如说CRYPTO这一套智能合约啊，跟AGENT的结合，未来一个AGENT帮我完成了某个任务，它有一个公允的呃价值的计量，然后任务完成后，那就按照智能合约的约定就分配这个经济利益了。

Speaker 2

那其实这样是有机会探索出来一个叫VALUE BASED的商业模式的，只是说今天可能咱们还不不太能衡量这个任务的。

Speaker 2

客观公允价值到底多少？

Speaker 0

对我，我对CRYPTO了解不多。

Speaker 0

但是我觉得可能一个核心的问题是，就这个技术的演变，它会变得更中心化还是去中心化？

Speaker 0

然后我觉得两边都有它的ARGUMENT，对吧？

Speaker 0

就中心化。

Speaker 0

就是说那很显然现在这种新的SUPER COMPANY，比如说OPEN AI或者ANTROPIC，它有可能比如会变成ONE TRILLION、TEN TRILLION、HUNDRED TRILLION。

Speaker 0

那它可能会占据绝大多数资源，它会占据绝大多数COMPUTE，它能创造这个SUPER APP或者SUPER PLATFORM，它会有巨大的这个中心化的优势。

Speaker 0

那去中心化的二论，就是说我每个人的个体是赋能的，对吧？

Speaker 0

就是现在之所以人和人有这么大差距，有各种各样的信息差、认知差、各种各样的智能差。

Speaker 0

那如果智能变得非常便宜，就像电一样，那从某种程度上来说，它也能给大多数人一个赋能，对吧？

Speaker 0

呃，其实我觉得这个事情还是挺有意思的。

Speaker 0

然后我最近的思考是这样的，就是说我的感觉是。

Speaker 0

人类社会是一个网络，对吧？

Speaker 0

然后。

Speaker 0

它其实是有两个重要的性质，一个性质是说它的中心化程度，或者说它资源分配的这个集中性。

Speaker 0

然后我们发现，就是说可能原始社会它是一个非常平均的，它逐渐随着技术发展，它越来越中心化，或者说你可以说二八定律，或者说马太效应，或者。

Speaker 0

呃，whatever对吧？

Speaker 0

但是有另一个，有另一个维度，就是说你。

Speaker 0

创业成功，或者从一个网络边缘到中心的这个可能性或者速度能有多快？

Speaker 0

我觉得从某种程度上来说，呃，为过去几百年发生的事情是这样的。

Speaker 0

就是说首先这个网络变得更中心化了，对吧？

Speaker 0

就是说贫富差距变得更大了，或者呃，二八定律、买买买效应。

Speaker 0

但另一方面，其实穷人的或者平民的机会。

Speaker 0

可能是更多了，对吧？

Speaker 0

如果在古代，比如门阀制度、九品中正制，或者欧洲的这个贵族制度，那你可能农民就永永远是农民，或者或者印度的种姓制度，对吧？

Speaker 0

你有阶级固化。

Speaker 0

那。

Speaker 0

似乎技术发展的趋势是两者都会加剧，对吧？

Speaker 0

就是说一方面中心化会加剧，因为效率，因为效率是一个就根本性的原因。

Speaker 0

但另一方面可能。

Speaker 0

创造新的东西的机会，起码目前为止还是越来越多了。

Speaker 0

但是。

Speaker 0

不好说，就是说社会是未来的趋势，对吧？

Speaker 0

有可能就还是会延续这样的趋势，但是也不一定。

Speaker 1

你在你的博文里面提到OPENAI的几次尝试，我觉得很有意思啊。

Speaker 1

就最初的计划是构建GIM，一个用于各种游戏的标准强化学习的环境，然后是WORK OF BASE和UNIVERSE的项目，但这也没有奏效。

Speaker 1

直到GPT TWO和GPT THREE出现了，才发现缺失的是经验知识。

Speaker 1

这个过程就OPENAI的几次尝试，能不能给我们详细讲讲呀？

Speaker 1

这是也是一个探索的过程。

Speaker 0

啊，这个是我是我自己的总结和和揣测，对，不代表呃，我觉得就是OPENAI是一个非常是个比较BOTTOM UP的公司，就它是一个它最初的可能。

Speaker 0

七八年就是像是一个RESEARCH LAB，对吧？

Speaker 0

有各种各样的想法，然后有各种各样的尝试。

Speaker 0

就是可能每个人想法都是不一样的，呃，但是客观上来说，一开始他是FOCUS ON强化学习的，因为当时最火的事情就是这个，对吧？

Speaker 0

DEEP ONE的他。

Speaker 0

就可能15年刚成立的时候，就当时当时AI最火的公司是DEEP MIND。

Speaker 0

DEEP MIND最成功的东西就是强化学习，然后在GPT之前可能ALPHA GO就是最成功的AI项目对吧？

Speaker 0

那很自然的就是你要去做强化学习。

Speaker 0

然后你只有有个different BET，你才能够超越之前的霸主，对吧？

Speaker 0

就是说我觉得如果OPEN一直做强化学习，那可能也很难超过deep mind。

Speaker 0

即使你做的很好，或者有些有些他有些任务你做的比deep mind更好，但是讲强化学习大家只会想起来deep mind。

Speaker 0

所以从某种程度来说，你想要超越之前的这个霸主，你就要有个different bet。

Speaker 0

然后turns out GPT是这样的一个different bet，然后呃。

Speaker 0

但当然，这个事情其实还是一个很非共识的事情。

Speaker 0

就是我可以讲个故事，呃，就我导师他是GPT一的第二作者。

Speaker 0

对，然后他在OPEN待了一年，然后去普宁当教授了。

Speaker 0

然后他当时对这个事情就有点怀疑，就他说这个当时结果也不是特别好，对吧？

Speaker 0

就是那些榜单上那也不是分数最高的。

Speaker 0

然后呃，你花了很多卡或者做这个东西。

Speaker 0

呃，然后当时其实也有SKINNING LAW。

Speaker 0

一七年刚出来就，然后伊利亚就跟我导师说：‘就CARSICK，你看这个预言已经被我们解决了，现在我们只需要SKILL UP，就这个东西就结束了。

Speaker 0

’但但但，即使你是在OPENAI，即使你在这个环境，即使你是GPT的作者。

Speaker 0

你可能还是没有形成共识，对吧？

Speaker 0

所以这个事情我觉得就是说你你做了一个非常当时反共识的事情。

Speaker 0

当然现在这个事情已经是共识了，那那我觉得就是你需要去寻找下一个反共识的事情。

Speaker 0

也许。

Speaker 1

刚才就是你导师说那个话之后，有人有FEEDBACK吗？

Speaker 0

呃，我说实话，可能当时OPENAI可能。

关于 Bayt 播客

Bayt 提供中文+原文双语音频和字幕，帮助你打破语言障碍，轻松听懂全球优质播客。

继续浏览更多播客

浏览全部播客

进入全部播客页面

真誠presents　大久保佳代子・森本晋太郎のどうぞご自由に

在你我的花园里｜In our garden: Feldenkrais and holistic freedom

知行小酒馆｜关注投资理财，更关注怎样更好地生活

OpenAI姚顺雨三小时专访：六年智能体研究、人机系统、吞噬边界、单极与多元并存的世界

对OpenAI姚顺雨3小时访谈：6年Agent研究、人与系统、吞噬的边界、既单极又多元的世界

本集简介

双语字幕

关于 Bayt 播客

继续浏览更多播客