本集简介
双语字幕
仅展示文本字幕,不包含中文音频;想边听边看,请使用 Bayt 播客 App。
OpenAI很多这个model release都有我的名字,这个就是因为我在OpenAI的内部搭了整个post training的IO音法。
OpenAI很多这个model release都有我的名字,这个就是因为我在OpenAI的内部搭了整个post training的IO音法。
所以整个POST TRAINING的RL INFER你是最核心的贡献者了。
所以整个POST TRAINING的RL INFER你是最核心的贡献者了。
是的。
是的。
因为我觉得应该打破信息差,信息差是一个就是如果你在清华生存的话是一个很有用的东西。
因为我觉得应该打破信息差,信息差是一个就是如果你在清华生存的话是一个很有用的东西。
但是我应我觉得每个人都应该平等的拥有这个信息,哪怕当时有了现在的认知,那还是做不出来。
但是我应我觉得每个人都应该平等的拥有这个信息,哪怕当时有了现在的认知,那还是做不出来。
没有我不想发PAPER,我觉得发PAPER完全没有意义。
没有我不想发PAPER,我觉得发PAPER完全没有意义。
放方当时说要搞一个呃AI LAB。
放方当时说要搞一个呃AI LAB。
就是后面的DEEP SICK,对我当时是拿了OFFER。
就是后面的DEEP SICK,对我当时是拿了OFFER。
如果你想进工业界,那么读PHD就是浪费生命,交一个RESEARCHER。
如果你想进工业界,那么读PHD就是浪费生命,交一个RESEARCHER。
如何做好ENGINEERING要远比教个ENGINEER如何做好RESEARCH来的难。
如何做好ENGINEERING要远比教个ENGINEER如何做好RESEARCH来的难。
每家的INFRA都有不同程度的BUG,然后谁修BUG,谁修的BUG越多,那谁的模型训的就越好。
每家的INFRA都有不同程度的BUG,然后谁修BUG,谁修的BUG越多,那谁的模型训的就越好。
哈喽,大家好,本期嘉宾翁佳艺。
哈喽,大家好,本期嘉宾翁佳艺。
他于2022年加入OPENAI,并且是OPENAI一系列模型背后的核心贡献者。
他于2022年加入OPENAI,并且是OPENAI一系列模型背后的核心贡献者。
从CHATGPT、GPT-4O再到GPT-5,你能看到的每一个模型跃迁背后都有他的身影。
从CHATGPT、GPT-4O再到GPT-5,你能看到的每一个模型跃迁背后都有他的身影。
而他的核心贡献可以被总结为三个关键词:强化学习、POST TRAINING、INFRA。
而他的核心贡献可以被总结为三个关键词:强化学习、POST TRAINING、INFRA。
但对我来说,翁佳艺不只是把模型做得更强的人,在加入OPENAI之前,他就已经用开源和代码影响过无数人。
但对我来说,翁佳艺不只是把模型做得更强的人,在加入OPENAI之前,他就已经用开源和代码影响过无数人。
从在清华开源作业与资料试图打破信息差,到开源强化学习框架天授,做出免费签证查询系统,他把代码工具视作一种慈善。
从在清华开源作业与资料试图打破信息差,到开源强化学习框架天授,做出免费签证查询系统,他把代码工具视作一种慈善。
在这期播客,我们会从翁佳艺的童年聊起,到清华与CMU的求学之路,再到2022年加入OPENAI之后的亲身经历。
在这期播客,我们会从翁佳艺的童年聊起,到清华与CMU的求学之路,再到2022年加入OPENAI之后的亲身经历。
站在世界AI风暴中心的他,看见了什么?
站在世界AI风暴中心的他,看见了什么?
这里是Why Not TV Podcast,现在请和我一起进入翁佳亿的世界。
这里是Why Not TV Podcast,现在请和我一起进入翁佳亿的世界。
哈喽,佳怡,欢迎你来到YNOT TV Podcast。
哈喽,佳怡,欢迎你来到YNOT TV Podcast。
哈喽哈喽啊,这这个我觉得这期很奇妙的一点就是我在给你准备这期的OUTLINE的时候,我用的是GPT FIVE的DEEP RESEARCH,然后就相当于是你自己在背后作为核心开发者的产品和模型,然后他们自己在做DEEP RESEARCH,想这些问题啊,采访你是背后他们的生产者,他们的。
哈喽哈喽啊,这这个我觉得这期很奇妙的一点就是我在给你准备这期的OUTLINE的时候,我用的是GPT FIVE的DEEP RESEARCH,然后就相当于是你自己在背后作为核心开发者的产品和模型,然后他们自己在做DEEP RESEARCH,想这些问题啊,采访你是背后他们的生产者,他们的。
DEVELOPER,我觉得这个是一个比较奇妙的闭环。
DEVELOPER,我觉得这个是一个比较奇妙的闭环。
今天我们会谈到很多部分,从你的童年、成长、清华的本科经历,到CMU读研,再到2022年加入OPENAI至今的所有的核心开发的经历。
今天我们会谈到很多部分,从你的童年、成长、清华的本科经历,到CMU读研,再到2022年加入OPENAI至今的所有的核心开发的经历。
我想先从最早你的童年开始,能不能给我讲讲你?
我想先从最早你的童年开始,能不能给我讲讲你?
你觉得你小时候是一个什么样的小孩?
你觉得你小时候是一个什么样的小孩?
我小时候特别喜欢这个学奥数。
我小时候特别喜欢这个学奥数。
奥数对我。
奥数对我。
我从一年级开始就开始学奥数。
我从一年级开始就开始学奥数。
嗯嗯,就是因为。
嗯嗯,就是因为。
开始的时候,呃,我爸妈让我去听了这个进修校的一个奥数课跟语文课。
开始的时候,呃,我爸妈让我去听了这个进修校的一个奥数课跟语文课。
然后我对语文完全不感兴趣,但是我对奥数就非常感兴趣,然后我就进去了。
然后我对语文完全不感兴趣,但是我对奥数就非常感兴趣,然后我就进去了。
然后从一年级开始就一直上到六年级,然后初中也是。
然后从一年级开始就一直上到六年级,然后初中也是。
然后我发现就是我做数学题做的比谁都快。
然后我发现就是我做数学题做的比谁都快。
小学的时候。
小学的时候。
对小学的时候,就是比如说别别人口算题,像二年级的时候口算题可能还没做完。
对小学的时候,就是比如说别别人口算题,像二年级的时候口算题可能还没做完。
就是可能写到一半,然后我就已经做完了。
就是可能写到一半,然后我就已经做完了。
嗯,就是那种不用过脑子的。
嗯,就是那种不用过脑子的。
嗯,可能用现在时髦话说就是SYSTEM ONE啊,对,直接、直接表层意识直接过,然后直接看一眼出来答案那种。
嗯,可能用现在时髦话说就是SYSTEM ONE啊,对,直接、直接表层意识直接过,然后直接看一眼出来答案那种。
然后然后就是这个让我这个做数学题非常有成就感,因为我我觉得我是一个就是学习还算。
然后然后就是这个让我这个做数学题非常有成就感,因为我我觉得我是一个就是学习还算。
相比于其他人,算比较偏慢的。
相比于其他人,算比较偏慢的。
呃,怎么说呢?
呃,怎么说呢?
就是。
就是。
学一个新的东西,我经常要花别人呃两到三倍的时间。
学一个新的东西,我经常要花别人呃两到三倍的时间。
但现在其实还是这样,就是比如说我读一段代码,我我就是要比别人花很多的时间去理解这整个、整个、整个内容,整个context。
但现在其实还是这样,就是比如说我读一段代码,我我就是要比别人花很多的时间去理解这整个、整个、整个内容,整个context。
呃,然后但是我一旦理解之后,我用的就非常快。
呃,然后但是我一旦理解之后,我用的就非常快。
呃,有一个我呃不太恰当的例子,就是比如说我我这个小时候经常不是要背书嘛,嗯,背一个课文,嗯,然后我就是。
呃,有一个我呃不太恰当的例子,就是比如说我我这个小时候经常不是要背书嘛,嗯,背一个课文,嗯,然后我就是。
呃,在睡觉之前,我想想尽所有方法,然后能能够磕磕巴巴的就是呃完整的背出来。
呃,在睡觉之前,我想想尽所有方法,然后能能够磕磕巴巴的就是呃完整的背出来。
然后哪怕有很多停顿,然后你只要想起来都好,然后睡一觉,然后第二天醒醒来发现这个倒背如流。
然后哪怕有很多停顿,然后你只要想起来都好,然后睡一觉,然后第二天醒醒来发现这个倒背如流。
嗯,我当时想法是,就是因为我我需要花更多的时间,所以说我需要呃。
嗯,我当时想法是,就是因为我我需要花更多的时间,所以说我需要呃。
比别人提前学东西的呃,所以所以当时我就是在呃初中的时候开始干高中数学,然后就是直接直接问这个初中的数学老师,这个说各种高中数学的一些问题,然后他也非常热情呃回答我,然后我也非常感激。
比别人提前学东西的呃,所以所以当时我就是在呃初中的时候开始干高中数学,然后就是直接直接问这个初中的数学老师,这个说各种高中数学的一些问题,然后他也非常热情呃回答我,然后我也非常感激。
初二的时候就已经把高中啃完了,然后初三就开始学微积分。
初二的时候就已经把高中啃完了,然后初三就开始学微积分。
数学,你你天生就觉得你做的快,然后比别人都快。
数学,你你天生就觉得你做的快,然后比别人都快。
但同时呢,你又觉得你学东西慢。
但同时呢,你又觉得你学东西慢。
我感觉应该就是呃,我需要更长的时间构建我的知识树。
我感觉应该就是呃,我需要更长的时间构建我的知识树。
就是呃,正常来说这个知识树是比如说有个根,然后往上拓展,然后再往上拓展,再往上拓展,然后好几层,然后你每次。
就是呃,正常来说这个知识树是比如说有个根,然后往上拓展,然后再往上拓展,再往上拓展,然后好几层,然后你每次。
比如说,拿这个最顶层的这个这个结论去应用到这道题当中。
比如说,拿这个最顶层的这个这个结论去应用到这道题当中。
然后你要从头到尾过一遍,然后你要慢慢、慢慢想出来。
然后你要从头到尾过一遍,然后你要慢慢、慢慢想出来。
但我可能就直接建立一个链接SHORCUT,然后直接上去,然后就不用反应了。
但我可能就直接建立一个链接SHORCUT,然后直接上去,然后就不用反应了。
所以你是从小就意识到我好像比别人更聪明。
所以你是从小就意识到我好像比别人更聪明。
呃。
呃。
没有没有没有这种感觉。
没有没有没有这种感觉。
没有,所以你只是说你好像你只是觉得你对这事儿感兴趣,那你愿意提前学数学这个事儿的这个这个里里面的核心兴趣是哪儿来的?
没有,所以你只是说你好像你只是觉得你对这事儿感兴趣,那你愿意提前学数学这个事儿的这个这个里里面的核心兴趣是哪儿来的?
呃,我想投资未来,我想投资我自己的未来。
呃,我想投资未来,我想投资我自己的未来。
所以你在初二的时候,你就意识到我这个时候学提前学高中数学是一种投资未来。
所以你在初二的时候,你就意识到我这个时候学提前学高中数学是一种投资未来。
对呃,对于我的未来的一些学习生涯是有帮助的。
对呃,对于我的未来的一些学习生涯是有帮助的。
呃,与其说我现在浪费时间在这个刷题上面,那不如学一点对未来有用的东西,然后后面的收益可能更多。
呃,与其说我现在浪费时间在这个刷题上面,那不如学一点对未来有用的东西,然后后面的收益可能更多。
这个是你父母跟你讲过类似的,不是OK。
这个是你父母跟你讲过类似的,不是OK。
我父母无所谓,我父母就根本不不是怎么不是怎么关心我是怎么学的。
我父母无所谓,我父母就根本不不是怎么不是怎么关心我是怎么学的。
但我还是特好奇,为什么你初中的时候就有投资未来的这种想法?
但我还是特好奇,为什么你初中的时候就有投资未来的这种想法?
因为你你我相信你那时候肯定学有余力对吧?
因为你你我相信你那时候肯定学有余力对吧?
对啊,你为什么不去玩啊?
对啊,你为什么不去玩啊?
为什么不去打篮球、打游戏?
为什么不去打篮球、打游戏?
你为什么想着我要学高中数学。
你为什么想着我要学高中数学。
我要怎么怎么样啊?
我要怎么怎么样啊?
首先是因为对这个感兴趣。
首先是因为对这个感兴趣。
就是我,我觉得这个呃,这个这个初等数学太无趣了,然后这个稍微。
就是我,我觉得这个呃,这个这个初等数学太无趣了,然后这个稍微。
怎么说稍微稍微有意思一点的数学更呃能引起我的。
怎么说稍微稍微有意思一点的数学更呃能引起我的。
兴趣那是谁让你有了这种兴趣吗是天生的吗对数学。
兴趣那是谁让你有了这种兴趣吗是天生的吗对数学。
呃可以算是吧或者说。
呃可以算是吧或者说。
还是说是小学的时候你因为这事有成就感所以你就。
还是说是小学的时候你因为这事有成就感所以你就。
呃你可以这么认为就是有一个初始的成就感然后初始的re rewardORD然后慢慢慢慢慢慢的然后你就会慢慢慢慢把这个你数学这方面的这个技能数慢慢慢开始点因为你每点一次你都会有一个正反馈。
呃你可以这么认为就是有一个初始的成就感然后初始的re rewardORD然后慢慢慢慢慢慢的然后你就会慢慢慢慢把这个你数学这方面的这个技能数慢慢慢开始点因为你每点一次你都会有一个正反馈。
然后再点一次,再有正反馈,然后你就会一直在这个上面走。
然后再点一次,再有正反馈,然后你就会一直在这个上面走。
嗯,但像比如说打篮球,我我试过,但是没有正什么正反馈,就是我经常被我舍友这个。
嗯,但像比如说打篮球,我我试过,但是没有正什么正反馈,就是我经常被我舍友这个。
按着打。
按着打。
然后然后然后体育,嗯,我练过跆拳道,我觉得跆拳道还可以,但是这个跆拳道一打实战,我就被对手揍着打。
然后然后然后体育,嗯,我练过跆拳道,我觉得跆拳道还可以,但是这个跆拳道一打实战,我就被对手揍着打。
对,所以反而是这种正反馈,像你本身也擅长,然后你对这个也不排斥,慢慢慢慢就变成了一种自发的内生的兴趣了。
对,所以反而是这种正反馈,像你本身也擅长,然后你对这个也不排斥,慢慢慢慢就变成了一种自发的内生的兴趣了。
对。
对。
嗯,所以其实倒不是家庭环境,而是就是你自发而产生的。
嗯,所以其实倒不是家庭环境,而是就是你自发而产生的。
是的是的是的。
是的是的是的。
那这是数学,你初中的时候提前学高中的数学,那你高中的时候为什么又对编程产生了兴趣呢?
那这是数学,你初中的时候提前学高中的数学,那你高中的时候为什么又对编程产生了兴趣呢?
呃,我编程是初一开始的,对,初一对编程是初一开始,是因为那个就是小升初的时候我去了时代中学,然后它是一个私立校,然后但是私立校的话有一个这个编程兴趣班。
呃,我编程是初一开始的,对,初一对编程是初一开始,是因为那个就是小升初的时候我去了时代中学,然后它是一个私立校,然后但是私立校的话有一个这个编程兴趣班。
然后,然后我,然后,然后就抱着玩。
然后,然后我,然后,然后就抱着玩。
我我能理解高中有兴趣竞争,但其实初中搞编程是应该不对,升学没有太多用,对不对?
我我能理解高中有兴趣竞争,但其实初中搞编程是应该不对,升学没有太多用,对不对?
呃,是的,是的,没有太多用。
呃,是的,是的,没有太多用。
那这个事儿也是你自己找的兴趣班。
那这个事儿也是你自己找的兴趣班。
还是你父母给你找的?
还是你父母给你找的?
我父母觉得这个可能对我挺有意思的。
我父母觉得这个可能对我挺有意思的。
然后我就试了试,然后我觉得还可以。
然后我就试了试,然后我觉得还可以。
好,那我们聊你高中啊。
好,那我们聊你高中啊。
高中我觉得其实我最感兴趣的是你OI省选NOI的经历,能给我们讲讲吗?
高中我觉得其实我最感兴趣的是你OI省选NOI的经历,能给我们讲讲吗?
为什么要搞竞赛呢?
为什么要搞竞赛呢?
因为升学压力还是有的。
因为升学压力还是有的。
嗯,呃,你如果不搞竞赛,那这个对于非北京的人员来说,想上清华北大是非常难的,这个难如登天。
嗯,呃,你如果不搞竞赛,那这个对于非北京的人员来说,想上清华北大是非常难的,这个难如登天。
所以当时是因为升学压力搞的OI啊。
所以当时是因为升学压力搞的OI啊。
是的,是的,就是呃,大部分是因为升学。
是的,是的,就是呃,大部分是因为升学。
因为我之前就已经在搞数学竞赛跟OI了,然后我高一的时候其实花了一点时间去。
因为我之前就已经在搞数学竞赛跟OI了,然后我高一的时候其实花了一点时间去。
做数学竞赛拿到了一些还可以的名次,但是如果再往上的话,就是呃省选数学竞赛的省选。
做数学竞赛拿到了一些还可以的名次,但是如果再往上的话,就是呃省选数学竞赛的省选。
然后我们学校是没有那个基础的,然后自己学也很困难。
然后我们学校是没有那个基础的,然后自己学也很困难。
所以说我就放弃了,并且我对这个再往上的这个就省选网上的数学题,呃我觉得我非常困难,因为我没有那么早的去接触,然后我觉得学习起来非常累。
所以说我就放弃了,并且我对这个再往上的这个就省选网上的数学题,呃我觉得我非常困难,因为我没有那么早的去接触,然后我觉得学习起来非常累。
你觉得你哪怕初中就开始学高中数学都不够早。
你觉得你哪怕初中就开始学高中数学都不够早。
呃初中开始学高中数学竞赛可能够早一点。
呃初中开始学高中数学竞赛可能够早一点。
嗯,对,就是我没有那么提前对。
嗯,对,就是我没有那么提前对。
所以,所以我掂量一下还是放弃了。
所以,所以我掂量一下还是放弃了。
你就是搞呃OI信息学竞赛,给我搞歪了。
你就是搞呃OI信息学竞赛,给我搞歪了。
能给我们介绍一下,就是嗯,靠信息学竞赛然后升学,这个一般是要经过什么什么步骤?
能给我们介绍一下,就是嗯,靠信息学竞赛然后升学,这个一般是要经过什么什么步骤?
先省选,然后是什么样的流程?
先省选,然后是什么样的流程?
呃,先NYP,然后就是相当于一个普及组,呃,不是提高组,NYP提高组的一个这个省里面的一个选拔赛,差不多是十月。
呃,先NYP,然后就是相当于一个普及组,呃,不是提高组,NYP提高组的一个这个省里面的一个选拔赛,差不多是十月。
然后后面是呃,弄完是每个省都有每个省不同的选拔标准,要选出来省队去参加国赛。
然后后面是呃,弄完是每个省都有每个省不同的选拔标准,要选出来省队去参加国赛。
然后省省选的话,福建是有两轮,一轮在寒假一,然后还有一轮在四月份。
然后省省选的话,福建是有两轮,一轮在寒假一,然后还有一轮在四月份。
然后选完之后,然后就是五六月应该有一个清华或者北大夏令营可以二选一。
然后选完之后,然后就是五六月应该有一个清华或者北大夏令营可以二选一。
呃,可以拿一些这个优惠条件,至少当时是这样的。
呃,可以拿一些这个优惠条件,至少当时是这样的。
然后是在七月到八月去搞NY的这个国赛。
然后是在七月到八月去搞NY的这个国赛。
那给我们讲讲你在这个过程中呃是怎么样的?
那给我们讲讲你在这个过程中呃是怎么样的?
第一轮、第二轮。
第一轮、第二轮。
第三轮。
第三轮。
这个NYP还好吧,这个NYP就是已经因为因为这个从初中开始搞的,所以说还好。
这个NYP还好吧,这个NYP就是已经因为因为这个从初中开始搞的,所以说还好。
然后省选。
然后省选。
省选这个高一的时候,就是连省选都没过,就是完全不会做,几乎不会做。
省选这个高一的时候,就是连省选都没过,就是完全不会做,几乎不会做。
然后高二的时候会做一点点,就是会乱搞,然后会一些这个这个HERESY的方法。
然后高二的时候会做一点点,就是会乱搞,然后会一些这个这个HERESY的方法。
就比如说这个有一题叫这个最小双元覆盖,然后我当时搞出来70分,我刚刚好像是全场最高,因为我做出来这一题后面就是进了省队。
就比如说这个有一题叫这个最小双元覆盖,然后我当时搞出来70分,我刚刚好像是全场最高,因为我做出来这一题后面就是进了省队。
但是进完省队之后,就是呃。
但是进完省队之后,就是呃。
后面的就是清华夏令营,感觉还可以。
后面的就是清华夏令营,感觉还可以。
就是拿到一个降60,无条件降60,有条件本一线。
就是拿到一个降60,无条件降60,有条件本一线。
这个怎么理解?
这个怎么理解?
就是高考的成绩直接会给你加60,如果你没有保送的话。
就是高考的成绩直接会给你加60,如果你没有保送的话。
然后如果这个线过了清华当年的录取线,那么清华就会要你。
然后如果这个线过了清华当年的录取线,那么清华就会要你。
然后有条件本一是说呃,如果在NY比赛里面。
然后有条件本一是说呃,如果在NY比赛里面。
呃,考到了前150名,应该是银牌的线。
呃,考到了前150名,应该是银牌的线。
那么就有本一,如果你只要高考的成绩过了本一,那么就无条件录取。
那么就有本一,如果你只要高考的成绩过了本一,那么就无条件录取。
但是如果你是金牌的话,那你就连这个都不用了,你直接保送。
但是如果你是金牌的话,那你就连这个都不用了,你直接保送。
你当时拿到NY的那个有条件本一了吗?
你当时拿到NY的那个有条件本一了吗?
呃,UNFORTUNATELY没有,就因为就是呃,这个是又是一个黑历史。
呃,UNFORTUNATELY没有,就因为就是呃,这个是又是一个黑历史。
就是我是当时的福建省队的倒数第一。
就是我是当时的福建省队的倒数第一。
嗯哼。
嗯哼。
福建省内就只有当年只有一个铜牌,就是我。
福建省内就只有当年只有一个铜牌,就是我。
然后剩下的人都银牌以上。
然后剩下的人都银牌以上。
这事儿的失利对你的升学有影响吗?
这事儿的失利对你的升学有影响吗?
像是嗯,还是有挺多影响的。
像是嗯,还是有挺多影响的。
因为我当时毕竟高二下半年没有搞文化课,然后我对于我的未来也不是很确定,我不知道我到底能高考考多少分,呃,有些。
因为我当时毕竟高二下半年没有搞文化课,然后我对于我的未来也不是很确定,我不知道我到底能高考考多少分,呃,有些。
之前的例子,比如说像。
之前的例子,比如说像。
有有学长就是把60分加分全部用完了,然后然后就真真的是一点都不剩。
有有学长就是把60分加分全部用完了,然后然后就真真的是一点都不剩。
然后我觉得这个万一我也这样怎么办就很危险,然后我对于这种不确定性非常害怕。
然后我觉得这个万一我也这样怎么办就很危险,然后我对于这种不确定性非常害怕。
呃,但是想了想我觉得呃我应该也没有那么差吧,然后还是还是就咬牙选了这个6降60。
呃,但是想了想我觉得呃我应该也没有那么差吧,然后还是还是就咬牙选了这个6降60。
所以你当时另外一个选择是更保险一点的。
所以你当时另外一个选择是更保险一点的。
呃,更保险的一点就是直接可以在呃ONI现场,然后签一个上海交大的。
呃,更保险的一点就是直接可以在呃ONI现场,然后签一个上海交大的。
本一线录取。
本一线录取。
所以当时这个是一个呃很艰难的决定了。
所以当时这个是一个呃很艰难的决定了。
也还好吧,就是主要是呃首先心态方面,这个当时毕竟很很难过,然后对未来不确定性呃,就是自己感到很害怕。
也还好吧,就是主要是呃首先心态方面,这个当时毕竟很很难过,然后对未来不确定性呃,就是自己感到很害怕。
然后但是这个家人鼓励,还是让我选择了这个呃选这个清华六十。
然后但是这个家人鼓励,还是让我选择了这个呃选这个清华六十。
那当时是不是弄完OI,搞完竞赛之后到高三你就不碰这些东西了?
那当时是不是弄完OI,搞完竞赛之后到高三你就不碰这些东西了?
就ALL IN高考。
就ALL IN高考。
呃,也没有,就是会可能会偷偷的碰。
呃,也没有,就是会可能会偷偷的碰。
就是像比如说我觉得我对这个代码的优化有特别的追求,就是我会呃……我我当时甚至练成了,就是比如说在II那个IPAD上面直接。
就是像比如说我觉得我对这个代码的优化有特别的追求,就是我会呃……我我当时甚至练成了,就是比如说在II那个IPAD上面直接。
呃,因为SAFARI它是没有代码编辑器的。
呃,因为SAFARI它是没有代码编辑器的。
然后我就直接这个用IPAD键盘直接裸打代码,然后直接交,然后没有编译。
然后我就直接这个用IPAD键盘直接裸打代码,然后直接交,然后没有编译。
然后那个那一堆的经历其实我觉得也很锻炼自己的思考能力,因为呃,它需要你对于整个整个题目或者整个逻辑有个完整的认知,然后哪里错了你要能快速的定位到是哪里错了。
然后那个那一堆的经历其实我觉得也很锻炼自己的思考能力,因为呃,它需要你对于整个整个题目或者整个逻辑有个完整的认知,然后哪里错了你要能快速的定位到是哪里错了。
然后他会很锻炼你的这个反应能力的,呃,然后我觉得这个对于我来说是一个很好的锻炼。
然后他会很锻炼你的这个反应能力的,呃,然后我觉得这个对于我来说是一个很好的锻炼。
但对你来说,当时其实不需要这种锻炼。
但对你来说,当时其实不需要这种锻炼。
呃,是的,是的,是的,只只不过就是就是自己很感兴趣。
呃,是的,是的,是的,只只不过就是就是自己很感兴趣。
就比如说当时这个Y还有一个叫常数优化,嗯嗯嗯,呃,就比如说这个呃有一个算法,这个虽然时间复杂度可能都是N平方。
就比如说当时这个Y还有一个叫常数优化,嗯嗯嗯,呃,就比如说这个呃有一个算法,这个虽然时间复杂度可能都是N平方。
然后,但是这个实际的它的这个前面是带了一个常数的。
然后,但是这个实际的它的这个前面是带了一个常数的。
然后这个OI的这个评测都是会有这个结果,就比如说按照这个跑测试点的时间来排序,然后跑得最快的那么就就排第一,然后如果跑一样快,那么按照代码长度的长短。
然后这个OI的这个评测都是会有这个结果,就比如说按照这个跑测试点的时间来排序,然后跑得最快的那么就就排第一,然后如果跑一样快,那么按照代码长度的长短。
然后,所以说这个我会同时OPTIMIZE这两个指标。
然后,所以说这个我会同时OPTIMIZE这两个指标。
然后,然后这个刷这个东西就感觉很有意思、很有意思,虽然说没什么用。
然后,然后这个刷这个东西就感觉很有意思、很有意思,虽然说没什么用。
但是很有意思。
但是很有意思。
嗯,你真是搞这个的圣体,因为你真喜欢这个东西是吧?
嗯,你真是搞这个的圣体,因为你真喜欢这个东西是吧?
你从中能获得快乐。
你从中能获得快乐。
对,嗯嗯嗯。
对,嗯嗯嗯。
那我们来聊聊清华。
那我们来聊聊清华。
呃,如果我跟你说你在清华16年开始读本科。
呃,如果我跟你说你在清华16年开始读本科。
你直接跟我说,有没有什么现在想起来哇?
你直接跟我说,有没有什么现在想起来哇?
特别比如说大一大二刚进去值得回忆的事儿。
特别比如说大一大二刚进去值得回忆的事儿。
第一个浮上你脑海的是什么?
第一个浮上你脑海的是什么?
真有的话,就是我,我把我的所有的作业都开源了。
真有的话,就是我,我把我的所有的作业都开源了。
因为不同的人对这件事情有不同的看法。
因为不同的人对这件事情有不同的看法。
呃,像比如说有些学长学姐是呃比较反对这件事的,但是我觉得我应该做这件事。
呃,像比如说有些学长学姐是呃比较反对这件事的,但是我觉得我应该做这件事。
我当时做一个把这个我所收集到的所有的呃这个上古作业、上古材料,然后全部在GITHUB上开源了。
我当时做一个把这个我所收集到的所有的呃这个上古作业、上古材料,然后全部在GITHUB上开源了。
除了那些有版权问题的我没开源,然后剩下的我没有版权问题的都开源了。
除了那些有版权问题的我没开源,然后剩下的我没有版权问题的都开源了。
为什么?
为什么?
因为我觉得应该打破信息差。
因为我觉得应该打破信息差。
信息差是一个,就是如果你在清华生存的话,是一个很有用的东西。
信息差是一个,就是如果你在清华生存的话,是一个很有用的东西。
但是我应我觉得每个人都应该平等的拥有这个信息。
但是我应我觉得每个人都应该平等的拥有这个信息。
你现在回去,你再回去随便抓个计算机的学弟问。
你现在回去,你再回去随便抓个计算机的学弟问。
问这个,你认不认识这个捐这个新戏楼的人?
问这个,你认不认识这个捐这个新戏楼的人?
哪怕他把他的名字放在戏楼上面。
哪怕他把他的名字放在戏楼上面。
你认不认识他?
你认不认识他?
不认识。
不认识。
你认不认识文佳艺?
你认不认识文佳艺?
应该认识,因为毕竟这个大家都看我的作业活的。
应该认识,因为毕竟这个大家都看我的作业活的。
这个这个这个比捐比这个捐楼有用,是的。
这个这个这个比捐比这个捐楼有用,是的。
此处弹幕应该闪过加一。
此处弹幕应该闪过加一。
如果我用过看过你的作业,就应该在这时候发个弹幕了啊。
如果我用过看过你的作业,就应该在这时候发个弹幕了啊。
呃。
呃。
但为什么?
但为什么?
为什么你会把你的作业开源?
为什么你会把你的作业开源?
这里面本质为什么和信息差有关系?
这里面本质为什么和信息差有关系?
呃,我想打破这个信息差,就是我不想让后人重蹈覆辙。
呃,我想打破这个信息差,就是我不想让后人重蹈覆辙。
就是经常疲于奔命,就是很多人其实他不是很擅长搜集东西的,但是他其实很有能力的。
就是经常疲于奔命,就是很多人其实他不是很擅长搜集东西的,但是他其实很有能力的。
但我呃,其实呃,就如果能够给这些人有一个信息平权的机会的话,那他可能在清华会活得更好。
但我呃,其实呃,就如果能够给这些人有一个信息平权的机会的话,那他可能在清华会活得更好。
所以你的信息平权是指知不知道往年的作业这种信息和学长学姐问过以前会考什么重点这种信息。
所以你的信息平权是指知不知道往年的作业这种信息和学长学姐问过以前会考什么重点这种信息。
呃,以及作业。
呃,以及作业。
以及老师没有规定不能放出来的作业,嗯呃,不然的话你会经常会花可能十几二十个小时,然后你又不敢问助教,然后你就不知道怎么做了。
以及老师没有规定不能放出来的作业,嗯呃,不然的话你会经常会花可能十几二十个小时,然后你又不敢问助教,然后你就不知道怎么做了。
然后你就会花一些巨大、巨大块的时间,然后去一直在钻牛角尖,然后反而对于整个学习是很没有帮帮助的,收益很低。
然后你就会花一些巨大、巨大块的时间,然后去一直在钻牛角尖,然后反而对于整个学习是很没有帮帮助的,收益很低。
但这样的话,就是如果我、我我当时觉得如果我把作我自己的作业开源的话,那么我可能会帮到一些这样的例子,然后可能会帮后面更多的一些学弟学妹,用更多自己的时间来去做他们更想做的事情,而不是。
但这样的话,就是如果我、我我当时觉得如果我把作我自己的作业开源的话,那么我可能会帮到一些这样的例子,然后可能会帮后面更多的一些学弟学妹,用更多自己的时间来去做他们更想做的事情,而不是。
要能就是做这些。
要能就是做这些。
没有什么比较浪费生命的事。
没有什么比较浪费生命的事。
对,所以你这事做成了,现在你的作业应该在清华已经成为一个很广为流传的GITHUB RAP啊。
对,所以你这事做成了,现在你的作业应该在清华已经成为一个很广为流传的GITHUB RAP啊。
是的,嗯嗯。
是的,嗯嗯。
那这个之外呢?
那这个之外呢?
我看到你应该大一大二大三多久开始入门科研啊?
我看到你应该大一大二大三多久开始入门科研啊?
这些什么什么时候开始的?
这些什么什么时候开始的?
嗯,这个应该是大二吧。
嗯,这个应该是大二吧。
然后后面就是呃,就是问学长说这个有没有哪个推荐的实验室。
然后后面就是呃,就是问学长说这个有没有哪个推荐的实验室。
呃,当时有就学长跟我说了三个名字,呃,朱军老师,然后汤吉老师,还有崔鹏老师。
呃,当时有就学长跟我说了三个名字,呃,朱军老师,然后汤吉老师,还有崔鹏老师。
呃,我默认这个按排序,按按照每个人牛逼程度排序。
呃,我默认这个按排序,按按照每个人牛逼程度排序。
呃,但可能不是这样的,但是我当时就是按照这个这个排序。
呃,但可能不是这样的,但是我当时就是按照这个这个排序。
你以为先后顺序啊?
你以为先后顺序啊?
对,对我以为先后顺序,然后。
对,对我以为先后顺序,然后。
就报了一个计算机的学术新信息计划,然后后面就是应该是全录取了。
就报了一个计算机的学术新信息计划,然后后面就是应该是全录取了。
然后我就选了朱军老师,然后大二的时候就跟朱军老师呃,就是先见了一面,然后就是问说有什么方向,有三个方向呃。
然后我就选了朱军老师,然后大二的时候就跟朱军老师呃,就是先见了一面,然后就是问说有什么方向,有三个方向呃。
贝叶斯呃,对抗网、对抗生成网络就GAN。
贝叶斯呃,对抗网、对抗生成网络就GAN。
还有一个强化学习,强化学习对呃,就是三个方向。
还有一个强化学习,强化学习对呃,就是三个方向。
然后我当时其实想搞的是GAN,我觉得这个这个图像非常有意思呃,但是我不知道哪个是GAN。
然后我当时其实想搞的是GAN,我觉得这个这个图像非常有意思呃,但是我不知道哪个是GAN。
然后我就喜欢二L,什么叫不知道哪个是GAN?
然后我就喜欢二L,什么叫不知道哪个是GAN?
我当时真的什么都不知道,我就是个小白对。
我当时真的什么都不知道,我就是个小白对。
然后然后我就误打误撞喜欢二L,没有什么特别的,就是我觉得我觉得二L应该是搞那个图像的东西,就就这样。
然后然后我就误打误撞喜欢二L,没有什么特别的,就是我觉得我觉得二L应该是搞那个图像的东西,就就这样。
对,所以是个相当RANDOM的。
对,所以是个相当RANDOM的。
对,是的,是的,是的。
对,是的,是的,是的。
但是后面搞啊,呃,发现这个这个是个打游戏的东西,嗯,呃,觉得挺有意思的,然后就一直搞下去了。
但是后面搞啊,呃,发现这个这个是个打游戏的东西,嗯,呃,觉得挺有意思的,然后就一直搞下去了。
嗯,对,但是实际上呃,就是我最开始想法是我其实有三个大的方向,我其实都挺喜欢的,一个是人工智能,就是AI。
嗯,对,但是实际上呃,就是我最开始想法是我其实有三个大的方向,我其实都挺喜欢的,一个是人工智能,就是AI。
然后另外一个是图形学,还有一个是网络安全。
然后另外一个是图形学,还有一个是网络安全。
呃,网络安全我觉得这个哈克非常酷。
呃,网络安全我觉得这个哈克非常酷。
那我在大学的时候,其实业余时间也搞了很多网络安全的相关的东西,然后还给学校修了不少的这个校园网的BUG。
那我在大学的时候,其实业余时间也搞了很多网络安全的相关的东西,然后还给学校修了不少的这个校园网的BUG。
比如说,呃,比如说这个修了一下这个这个免费下成绩单的这个这个一分钱下成绩单的这个事儿,就是成绩单下一次要这个十块钱就是。
比如说,呃,比如说这个修了一下这个这个免费下成绩单的这个这个一分钱下成绩单的这个事儿,就是成绩单下一次要这个十块钱就是。
我跟另外一个学长发现了一个BUG,然后然后呃就是可以一分钱也可以不要钱下载。
我跟另外一个学长发现了一个BUG,然后然后呃就是可以一分钱也可以不要钱下载。
然后后面就是呃下载几次之后,然后把这个BUG给修了。
然后后面就是呃下载几次之后,然后把这个BUG给修了。
对,就是直接反馈给这个学校教务部门。
对,就是直接反馈给这个学校教务部门。
所以你是很享受这种HACKING的过程对?
所以你是很享受这种HACKING的过程对?
所以网安是一种HACKING。
所以网安是一种HACKING。
我其他的呢?
我其他的呢?
呃,图形学的话我感觉也是个HACKING,对现实世界的HACKING,就是你可以以自己的呃视角去构建你脑中想象的场景。
呃,图形学的话我感觉也是个HACKING,对现实世界的HACKING,就是你可以以自己的呃视角去构建你脑中想象的场景。
然后这样会让你觉得你是上帝,你是神。
然后这样会让你觉得你是上帝,你是神。
我其实当时最感兴趣的还是图形学。
我其实当时最感兴趣的还是图形学。
因为我我在呃初中的时候看过一个电影,叫创呃TRON,就是呃那个那个什么创战记的那个那个。
因为我我在呃初中的时候看过一个电影,叫创呃TRON,就是呃那个那个什么创战记的那个那个。
它是一个那个呃科幻片,然后它的那个电影特效就非常厉害,然后就就把我当时看的非常震撼。
它是一个那个呃科幻片,然后它的那个电影特效就非常厉害,然后就就把我当时看的非常震撼。
然后我我想如果有一天我能做出这种。
然后我我想如果有一天我能做出这种。
特效,或者说我可以像创这样构建一个自己的虚拟世界。
特效,或者说我可以像创这样构建一个自己的虚拟世界。
那是呃,就是我我我觉得我就圆满了。
那是呃,就是我我我觉得我就圆满了。
对,然后我觉得图形学是时间这个的一种手段。
对,然后我觉得图形学是时间这个的一种手段。
对,然后所以说我当时就特别感兴趣图形学。
对,然后所以说我当时就特别感兴趣图形学。
然后呃,我在大二的时候就上图形学。
然后呃,我在大二的时候就上图形学。
嗯,然后我当时就是因为特别喜欢,所以我花特别多时间去做图形学的大作业。
嗯,然后我当时就是因为特别喜欢,所以我花特别多时间去做图形学的大作业。
然后当时应该是拿了呃,全班唯一、唯二的A加。
然后当时应该是拿了呃,全班唯一、唯二的A加。
对,然后发明了一个新算法,能够减少这个。
对,然后发明了一个新算法,能够减少这个。
呃,迭代的这个收敛的次数,以及这个用了一堆的这个算力来跑了,就渲染一个巨高清的图,就是应该十六K的图。
呃,迭代的这个收敛的次数,以及这个用了一堆的这个算力来跑了,就渲染一个巨高清的图,就是应该十六K的图。
然后然后当时就是在我之前是完全没有人炫一个十六K的图的,然后并且十六K的图完全没有噪点。
然后然后当时就是在我之前是完全没有人炫一个十六K的图的,然后并且十六K的图完全没有噪点。
那当时那么感兴趣,图形学后来继续下去了吗?
那当时那么感兴趣,图形学后来继续下去了吗?
嗯,没有。
嗯,没有。
因为我觉得就是如果你要搞科研的话,那还是呃专心比较好,不能这个脚踩两条船。
因为我觉得就是如果你要搞科研的话,那还是呃专心比较好,不能这个脚踩两条船。
因为你当时已经去呃朱老师那儿。
因为你当时已经去呃朱老师那儿。
我已经去朱老师那儿,对,有有个项目是搞那个呃VISTON,就是一个DUM,是一个差不多九十年代一个游戏,然后当时是有一个比赛,想把这个。
我已经去朱老师那儿,对,有有个项目是搞那个呃VISTON,就是一个DUM,是一个差不多九十年代一个游戏,然后当时是有一个比赛,想把这个。
呃,用用一个神经网络来去在一个固定的地图里面,然后把这个游戏打通关。
呃,用用一个神经网络来去在一个固定的地图里面,然后把这个游戏打通关。
就是有个出生点,有个有个终点,然后你要去在这个地图里面去杀怪,然后去捡血包,然后避障,然后去最终到这个呃终点,然后去通关。
就是有个出生点,有个有个终点,然后你要去在这个地图里面去杀怪,然后去捡血包,然后避障,然后去最终到这个呃终点,然后去通关。
所以这个其实是你常学习的入门第一个PROJECT是。
所以这个其实是你常学习的入门第一个PROJECT是。
拿了冠军是的,所以当时你是很享受做强化学习科研的。
拿了冠军是的,所以当时你是很享受做强化学习科研的。
没有为什么?
没有为什么?
呃,很不享受,因为这个因为首先这个这个这个task这个环境呃太过于单一了,然后你要疯狂的去overfit,嗯,然后呃,就是就是你要用各种各种技巧防止它训练的时候崩了。
呃,很不享受,因为这个因为首先这个这个这个task这个环境呃太过于单一了,然后你要疯狂的去overfit,嗯,然后呃,就是就是你要用各种各种技巧防止它训练的时候崩了。
以及,呃,你即使训练没崩,然后你也不知道你怎么调餐才能调对。
以及,呃,你即使训练没崩,然后你也不知道你怎么调餐才能调对。
这个是真的炼丹,这个这个比CV来说,这个这个它的这个调餐难度可能要难上十倍、一百倍。
这个是真的炼丹,这个这个比CV来说,这个这个它的这个调餐难度可能要难上十倍、一百倍。
然后都是玄学,你必须要用一些非常HERISTIC的方法去避免一些CORNER CASE。
然后都是玄学,你必须要用一些非常HERISTIC的方法去避免一些CORNER CASE。
所以你当时就意识到,那段时间的RL研究全靠HERISTIC和调参。
所以你当时就意识到,那段时间的RL研究全靠HERISTIC和调参。
是的,是的,就是改算法其实没有那么本质。
是的,是的,就是改算法其实没有那么本质。
然后呃,因为因为我呃当时的那个任务呃过于单一了,然后。
然后呃,因为因为我呃当时的那个任务呃过于单一了,然后。
大部分大部分情况下都是不能WORK的。
大部分大部分情况下都是不能WORK的。
当时的任务第一个当然是VIZZOOM,那后面是不是就什么像ATARI DEMAND CONTROL SUIT?
当时的任务第一个当然是VIZZOOM,那后面是不是就什么像ATARI DEMAND CONTROL SUIT?
呃呃,我觉得MAGICO跟ATARI要比VIZZOOM还要简单。
呃呃,我觉得MAGICO跟ATARI要比VIZZOOM还要简单。
对,VIZZOOM算难的了,但是呃,在这种CASE上面就对于人类而言它是一个简单的TASK,但是对于RIO而言它是一个非常非常难的TASK。
对,VIZZOOM算难的了,但是呃,在这种CASE上面就对于人类而言它是一个简单的TASK,但是对于RIO而言它是一个非常非常难的TASK。
因为它需要大量的知识,需要就比如说这个什么是障碍物,这个对于人来说这个不需要反应的,但是对于二来说就是呃,或者对于AI来说,这个是完全两个不同的难度了。
因为它需要大量的知识,需要就比如说这个什么是障碍物,这个对于人来说这个不需要反应的,但是对于二来说就是呃,或者对于AI来说,这个是完全两个不同的难度了。
对。
对。
对,所以你在当时就有很清晰的认知。
对,所以你在当时就有很清晰的认知。
认识到环境太单一,哎,呃,算法不是平静。
认识到环境太单一,哎,呃,算法不是平静。
这个是你做中你就会发现,就太多挑战。
这个是你做中你就会发现,就太多挑战。
还太多对。
还太多对。
所以说我不是很享受这个科研的过程。
所以说我不是很享受这个科研的过程。
嗯,我然后我会就是我有意识的把我的重心放到了如何帮助。
嗯,我然后我会就是我有意识的把我的重心放到了如何帮助。
这一类的科研更顺利进展。
这一类的科研更顺利进展。
的过程上。
的过程上。
所以我会呃就是在大四的时候,我会想着这个造一套这个IO的INFRA,嗯呃,或者说IO的小小LIBRARY,能够更方便的让这些想在这个领域卷的人去卷。
所以我会呃就是在大四的时候,我会想着这个造一套这个IO的INFRA,嗯呃,或者说IO的小小LIBRARY,能够更方便的让这些想在这个领域卷的人去卷。
对呃,这样的话就是呃,我我觉得我非常擅长这个事儿,我非常擅长这个这个。
对呃,这样的话就是呃,我我觉得我非常擅长这个事儿,我非常擅长这个这个。
呃,类似软件工程的这个这个方面的东西,然后可以重录代码,让代码看得更好、更好用,然后用户体验做好。
呃,类似软件工程的这个这个方面的东西,然后可以重录代码,让代码看得更好、更好用,然后用户体验做好。
呃,但是呃,至于这个东西怎么调,我非常有有这种生理上的反应。
呃,但是呃,至于这个东西怎么调,我非常有有这种生理上的反应。
你不是不擅长,你就是不不喜欢,不想排斥做这个事儿,是吧?
你不是不擅长,你就是不不喜欢,不想排斥做这个事儿,是吧?
是的,这也就是你大四做天授天授,我们等会儿着重聊。
是的,这也就是你大四做天授天授,我们等会儿着重聊。
是的,所以你大二开始搞科研,搞了VISTO。
是的,所以你大二开始搞科研,搞了VISTO。
然后到了大三,是不是面临一个申请鼠研?
然后到了大三,是不是面临一个申请鼠研?
是的。
是的。
当时是什么样的节奏和状态?
当时是什么样的节奏和状态?
申请鼠研为了为了还是为了大四的申请,然后呃发了一堆的套磁信,然后但是也没有什么结果。
申请鼠研为了为了还是为了大四的申请,然后呃发了一堆的套磁信,然后但是也没有什么结果。
然后后面还是这个我的导师帮我联系了呃联系到了优帅班主,然后然后我就过去了。
然后后面还是这个我的导师帮我联系了呃联系到了优帅班主,然后然后我就过去了。
对,其实我那段时暑研做的也没有那么的成功。
对,其实我那段时暑研做的也没有那么的成功。
我们当时的是在米拉对吧?
我们当时的是在米拉对吧?
对,是在米拉。
对,是在米拉。
当时是一八年呃,不对,一九年。
当时是一八年呃,不对,一九年。
一九年的暑假,一九年的暑假的时候,首先呃优莎是。
一九年的暑假,一九年的暑假的时候,首先呃优莎是。
19年的应该是4月还是5月拿到图灵奖,然后我是在那个之前生的呃,所以还好。
19年的应该是4月还是5月拿到图灵奖,然后我是在那个之前生的呃,所以还好。
然后后面的话就是优莎给我们呃,给我跟带我的POSTDOC的任务是做一个类似于MOE的东西。
然后后面的话就是优莎给我们呃,给我跟带我的POSTDOC的任务是做一个类似于MOE的东西。
MOE对。
MOE对。
呃,当时还没有NLP的MOE。
呃,当时还没有NLP的MOE。
嗯。
嗯。
展开剩余字幕(还有 480 条)
跟首先这个跟二没有任何关系。
跟首先这个跟二没有任何关系。
嗯,呃,其次这是纯这个LANGUAGE MODEL,就是TRANSFORMER。
嗯,呃,其次这是纯这个LANGUAGE MODEL,就是TRANSFORMER。
然后并且当时没有MOE,我们不知道MOE是什么怎么WORK,但是它有一个MOE的IDEA,就是呃,有一个这个ROUTER,然后可以选择不同的这个PASS,然后。
然后并且当时没有MOE,我们不知道MOE是什么怎么WORK,但是它有一个MOE的IDEA,就是呃,有一个这个ROUTER,然后可以选择不同的这个PASS,然后。
然后让我去实现,所以他招了一个做RL的人去做NLP。
然后让我去实现,所以他招了一个做RL的人去做NLP。
呃,是的,我觉得很奇怪。
呃,是的,我觉得很奇怪。
但然后我需要花呃AGAIN,就是我我不擅长学东西,然后我花了很长时间去入门这个全从NLP这个东西,然后然后然后看着这个搓一个东西,但是搓一个东西出来也没有什么好效果,然后因为。
但然后我需要花呃AGAIN,就是我我不擅长学东西,然后我花了很长时间去入门这个全从NLP这个东西,然后然后然后看着这个搓一个东西,但是搓一个东西出来也没有什么好效果,然后因为。
现在回过头来看,这个你这个东西要WORK。
现在回过头来看,这个你这个东西要WORK。
首先你要有算力,你要有很强的这个工程能力,然后你要SCALE UP。
首先你要有算力,你要有很强的这个工程能力,然后你要SCALE UP。
当时这个一个人就就几块卡,这个这搞不出来SCALE UP的东西。
当时这个一个人就就几块卡,这个这搞不出来SCALE UP的东西。
所以说你肯定搞不出来,哪怕方向是对的,那你也是搞不出来的。
所以说你肯定搞不出来,哪怕方向是对的,那你也是搞不出来的。
但其实你有没有觉得好像冥冥之中命运就是在把你往OPEN AI现在的这条技术路线上推?
但其实你有没有觉得好像冥冥之中命运就是在把你往OPEN AI现在的这条技术路线上推?
你先搞了RL,然后又是让你搞NLP。
你先搞了RL,然后又是让你搞NLP。
就两个PIECES,你全部做冥冥之中就你就在OPEN之前你就全部都有过。
就两个PIECES,你全部做冥冥之中就你就在OPEN之前你就全部都有过。
呃,你要真这么说,强行这么说也可以啊。
呃,你要真这么说,强行这么说也可以啊。
就就是马后炮是没有用的。
就就是马后炮是没有用的。
嗯,对,在当时其实我知道你完全GET不到对。
嗯,对,在当时其实我知道你完全GET不到对。
嗯,未来。
嗯,未来。
所以你当时对NLP什么看法?
所以你当时对NLP什么看法?
在经历了那个暑假的时候。
在经历了那个暑假的时候。
嗯,我觉得NLP TASK都是太分散了。
嗯,我觉得NLP TASK都是太分散了。
然后呃,当时其实很多人就在想如何把R U APPLY在。
然后呃,当时其实很多人就在想如何把R U APPLY在。
这个LANGUAGE MODEL TRAINING上面,因为当时这个问题是还没有解的。
这个LANGUAGE MODEL TRAINING上面,因为当时这个问题是还没有解的。
因为TRANSFORMER直接在强化学习上面跑的话,它会崩,它很容易崩。
因为TRANSFORMER直接在强化学习上面跑的话,它会崩,它很容易崩。
然后大家都没有想出来这个东西到底该怎么防止它不崩。
然后大家都没有想出来这个东西到底该怎么防止它不崩。
然后后面证明了,就是你的环境要呃是一个这个纯的一个环境。
然后后面证明了,就是你的环境要呃是一个这个纯的一个环境。
然后,呃,你的reward需要一个是是一个很强的reward。
然后,呃,你的reward需要一个是是一个很强的reward。
什么叫纯的环境?
什么叫纯的环境?
呃,比如说text on,嗯,纯文本。
呃,比如说text on,嗯,纯文本。
嗯,那那之前大家做的不纯的环境是。
嗯,那那之前大家做的不纯的环境是。
呃,比如说你用transformer做一些atari decision啊,比如说你把图像弄成一一些embedding,但是或者说你把这个atari的这个内部的游戏的音这个信息。
呃,比如说你用transformer做一些atari decision啊,比如说你把图像弄成一一些embedding,但是或者说你把这个atari的这个内部的游戏的音这个信息。
结构化表示,然后塞到transformer里面,然后再跑。
结构化表示,然后塞到transformer里面,然后再跑。
对,而且TRANSFORM是一个这个随机数理化的TRANSFORM。
对,而且TRANSFORM是一个这个随机数理化的TRANSFORM。
我当时首先我没有足够多的CONTEXT,我们对于这个领域没有足够多的认识,所以呃我做起来就是非常挣扎,呃这个我觉得。
我当时首先我没有足够多的CONTEXT,我们对于这个领域没有足够多的认识,所以呃我做起来就是非常挣扎,呃这个我觉得。
我我如果现在回过去来,直接来帮助我。
我我如果现在回过去来,直接来帮助我。
到时候我呢可能还是这个样子。
到时候我呢可能还是这个样子。
你是觉得就是当时就处在一个怎么都不可能把东西搞WORK的一个。
你是觉得就是当时就处在一个怎么都不可能把东西搞WORK的一个。
是的,是的,是的,因为算力不够,然后这个对于这个当时的一些认知MOE的认知也不够。
是的,是的,是的,因为算力不够,然后这个对于这个当时的一些认知MOE的认知也不够。
然后呃,你哪怕就这么说吧,哪怕当时有了现在的认知,那还是做不出来。
然后呃,你哪怕就这么说吧,哪怕当时有了现在的认知,那还是做不出来。
因为ENGINEERING不够,然后呃COMPUTER也不够。
因为ENGINEERING不够,然后呃COMPUTER也不够。
对。
对。
嗯,受限于当时的这个资源,你就是做不出来。
嗯,受限于当时的这个资源,你就是做不出来。
那当时可能暑研结束了,然后就回到清华开始准备申请。
那当时可能暑研结束了,然后就回到清华开始准备申请。
对,当时那那当时是什么样的状态?
对,当时那那当时是什么样的状态?
就是会压力很大嘛。
就是会压力很大嘛。
当时嗯,其实挺就是整个人状态其实不大好,因为暑研没搞出来。
当时嗯,其实挺就是整个人状态其实不大好,因为暑研没搞出来。
这个周围的同学,这个比如说去三本呃去CMU数研,然后都搞出来很多东西,然后发PAPER都有E作PAPER。
这个周围的同学,这个比如说去三本呃去CMU数研,然后都搞出来很多东西,然后发PAPER都有E作PAPER。
呃通常来说你是要发个E作PAPER的,不然的话你会被别人刷下去,这个就很卷,没有办法。
呃通常来说你是要发个E作PAPER的,不然的话你会被别人刷下去,这个就很卷,没有办法。
所以说呃我做完数研,然后其实只拿了个一个推荐信,但是我也不知道推荐信里面写的什么样,呃然后。
所以说呃我做完数研,然后其实只拿了个一个推荐信,但是我也不知道推荐信里面写的什么样,呃然后。
嗯,就是挺没有底的。
嗯,就是挺没有底的。
这里结果怎么样?
这里结果怎么样?
后来。
后来。
呃,我是对着PHD申请的,嗯,但是我只拿到MASTER。
呃,我是对着PHD申请的,嗯,但是我只拿到MASTER。
因为那个时候我大二OK,你申请的时候我应该刚刚刚刚大一大二,然后每年知乎上都有那种194你的申请结果怎么样204。
因为那个时候我大二OK,你申请的时候我应该刚刚刚刚大一大二,然后每年知乎上都有那种194你的申请结果怎么样204。
当时我就看到了你的回答啊,然后我印象还挺深刻的。
当时我就看到了你的回答啊,然后我印象还挺深刻的。
当时你就因为我看你履历。
当时你就因为我看你履历。
啊,说图灵奖强推怎么怎么样。
啊,说图灵奖强推怎么怎么样。
结果最后我当时看到你申请结果不好,就没升到PHD。
结果最后我当时看到你申请结果不好,就没升到PHD。
当时我就觉得哇,这么竞争,这么激烈,你自己作为当事人经历那样的申请季,对你来说是一种挫败吗?
当时我就觉得哇,这么竞争,这么激烈,你自己作为当事人经历那样的申请季,对你来说是一种挫败吗?
呃,可能还有一点吧,但是……后面来看也还好,就是嗯,首先我在当时的那个环境,我确实会很大程度上受当时的小环境的影响。
呃,可能还有一点吧,但是……后面来看也还好,就是嗯,首先我在当时的那个环境,我确实会很大程度上受当时的小环境的影响。
PHD是要比MASTER好的。
PHD是要比MASTER好的。
这个应该是整个清华内部的那种氛围。
这个应该是整个清华内部的那种氛围。
那种比是的,这个这个是没有很,这个如果你身在其中,你是很难摆脱这个影响的。
那种比是的,这个这个是没有很,这个如果你身在其中,你是很难摆脱这个影响的。
然后,呃,即使是国外的PHD跟MASTER跟国内的PHD跟MASTER都是一样的,就是PHD要好于MASTER,因为大家会有一种固有的认知,说这个学历越高越好。
然后,呃,即使是国外的PHD跟MASTER跟国内的PHD跟MASTER都是一样的,就是PHD要好于MASTER,因为大家会有一种固有的认知,说这个学历越高越好。
对于今后的这个发展会更好,呃,但是很多时候这个是不成立的,呃,真的取决于你到底干了什么。
对于今后的这个发展会更好,呃,但是很多时候这个是不成立的,呃,真的取决于你到底干了什么。
呃,然后当时的话我确实是有一点失望的。
呃,然后当时的话我确实是有一点失望的。
然后嗯,我我其实也花了一段时间来调整自己,然后后面觉得我我一直以来应该是都是想做一些就是呃,让自己与众不同的事情。
然后嗯,我我其实也花了一段时间来调整自己,然后后面觉得我我一直以来应该是都是想做一些就是呃,让自己与众不同的事情。
就是说你当时在可能在尽力的挣脱出固有的那种评价体系。
就是说你当时在可能在尽力的挣脱出固有的那种评价体系。
是的是的是的,嗯,是的。
是的是的是的,嗯,是的。
呃,就是我我我一直以来就是觉得,就是GPA不是唯一的一个评价体系。
呃,就是我我我一直以来就是觉得,就是GPA不是唯一的一个评价体系。
你需要自己在大学里面找到适合自己的评价体系,然后为这个评价、评价体系去去奋斗,呃,去让自己开心。
你需要自己在大学里面找到适合自己的评价体系,然后为这个评价、评价体系去去奋斗,呃,去让自己开心。
你即使在GPA拿了第一,那么你可以跟往年比一比,跟这个就是其他学院比一比,跟其他学校比一比。
你即使在GPA拿了第一,那么你可以跟往年比一比,跟这个就是其他学院比一比,跟其他学校比一比。
这个这个,反正有的是人。
这个这个,反正有的是人。
就是他并不能说你有多么好。
就是他并不能说你有多么好。
我觉得应该这么看,就是从一个需求方的角度看。
我觉得应该这么看,就是从一个需求方的角度看。
就比如说,呃,如果如果你的最后目的是找工作,那么找工作的人会看重什么?
就比如说,呃,如果如果你的最后目的是找工作,那么找工作的人会看重什么?
他会看重更看重你的这个相关的经验,他不会看那么看重你的GPA,因为这个对他来说没有意义。
他会看重更看重你的这个相关的经验,他不会看那么看重你的GPA,因为这个对他来说没有意义。
如果你是有呃当前这份工作很匹配的经验,那么可以其实可以抵好好几年的工作经历,哪怕你是一个new grad都没有问题。
如果你是有呃当前这份工作很匹配的经验,那么可以其实可以抵好好几年的工作经历,哪怕你是一个new grad都没有问题。
因为因为招人最主要的目的是招进来能用、能干活。
因为因为招人最主要的目的是招进来能用、能干活。
所以你在本科时候认识到这一点。
所以你在本科时候认识到这一点。
呃,我在后面认识到这一点,就是我在MASTER的时候认识到这一点。
呃,我在后面认识到这一点,就是我在MASTER的时候认识到这一点。
但你本科其实还是在那个评价体系下面。
但你本科其实还是在那个评价体系下面。
我本科我尝试挣脱这个评价体系,但是我挣脱了一点,还没有完全挣脱出来。
我本科我尝试挣脱这个评价体系,但是我挣脱了一点,还没有完全挣脱出来。
那一点是什么?
那一点是什么?
呃,就是我意识到了应该要创造自己的评价体系,而不是用其他人提供的评价体系。
呃,就是我意识到了应该要创造自己的评价体系,而不是用其他人提供的评价体系。
我采用了非官方的评价体系,呃,就是我的导师给我推荐的评价体系。
我采用了非官方的评价体系,呃,就是我的导师给我推荐的评价体系。
就是我我一直记得这句话,就是计算机系的评价体系,就他认为的有三个指标,呃,一个是论文,一个是比赛,还有一个是GITHUB的STAR三位数以上。
就是我我一直记得这句话,就是计算机系的评价体系,就他认为的有三个指标,呃,一个是论文,一个是比赛,还有一个是GITHUB的STAR三位数以上。
然后我觉得这个这个是。
然后我觉得这个这个是。
确实是有意义的,因为他给我了一个完全不一样的想法,就是不一样的领域。
确实是有意义的,因为他给我了一个完全不一样的想法,就是不一样的领域。
我我其实可以在开源社区搞一些事情,然后让我有一些跟别人与众不同的地方。
我我其实可以在开源社区搞一些事情,然后让我有一些跟别人与众不同的地方。
嗯,这样对于自己的长期的发展是更好的,而不是说这个你你就是花很多时间去。
嗯,这样对于自己的长期的发展是更好的,而不是说这个你你就是花很多时间去。
学GPA,呃,就是刷GPA这种事情。
学GPA,呃,就是刷GPA这种事情。
这个我有同感,我觉得我在本科的时候,我也是很早我就意识到GPA,特别是本科的GPA是一个三年之后、四年之后你都不用写在简历上的东西。
这个我有同感,我觉得我在本科的时候,我也是很早我就意识到GPA,特别是本科的GPA是一个三年之后、四年之后你都不用写在简历上的东西。
但是呢,那三年、四年里面的本科生又不得不把自己百分之八九十的精力放在这上面。
但是呢,那三年、四年里面的本科生又不得不把自己百分之八九十的精力放在这上面。
因为无论你是找工作,还是申请出国,还是要保研,都是看GPA。
因为无论你是找工作,还是申请出国,还是要保研,都是看GPA。
对你是怎么处理这个矛盾的,就是一个三年内重要无比的东西和一个三年之后完全不重要的东西。
对你是怎么处理这个矛盾的,就是一个三年内重要无比的东西和一个三年之后完全不重要的东西。
呃,我会最低限度的投入。
呃,我会最低限度的投入。
投入就是我会花时间,最低限度的时间来让它达到我想要的这个要求、这个标准。
投入就是我会花时间,最低限度的时间来让它达到我想要的这个要求、这个标准。
呃,再往上一点我都不愿意投。
呃,再往上一点我都不愿意投。
对多一分都不想花时间啊。
对多一分都不想花时间啊。
对多一分都不想花时间,够用就行,够用就行。
对多一分都不想花时间,够用就行,够用就行。
就是就你你你这个这个其实挺简单,你就算一下这个,就比如说在期末考之前算一下这个,你你你现在已经多少分了。
就是就你你你这个这个其实挺简单,你就算一下这个,就比如说在期末考之前算一下这个,你你你现在已经多少分了。
然后你就你就可以安排一下这个这个考试到底要复习,要不要复习。
然后你就你就可以安排一下这个这个考试到底要复习,要不要复习。
对。
对。
有人说你觉得如果现在GPA够了,你宁愿那个课考60分。
有人说你觉得如果现在GPA够了,你宁愿那个课考60分。
你不管了啊?
你不管了啊?
是的,这个是我我一直以来都是这样。
是的,这个是我我一直以来都是这样。
对,然后呃可能60分不太够,就是比如说这个87分,87分是B加,然后这个我就很满足了。
对,然后呃可能60分不太够,就是比如说这个87分,87分是B加,然后这个我就很满足了。
对我,你觉得你挣脱了这种吗?
对我,你觉得你挣脱了这种吗?
因为比如说你出国这种选择,是那种评价体系给你带来的,是那种氛围给你带来的。
因为比如说你出国这种选择,是那种评价体系给你带来的,是那种氛围给你带来的。
呃,不是当时的氛围,其实已经是就是呃,在国内读书比国外好。
呃,不是当时的氛围,其实已经是就是呃,在国内读书比国外好。
一一八一九年。
一一八一九年。
呃,一九年已经是了。
呃,一九年已经是了。
对,一九就是差不多清华会有百分之只有百分之二十左右,但我们那届更少,因为科威的。
对,一九就是差不多清华会有百分之只有百分之二十左右,但我们那届更少,因为科威的。
然后只有5%去出国。
然后只有5%去出国。
你应该是一九年十二月申请期,对不对?
你应该是一九年十二月申请期,对不对?
所以你应该是还在等offer的时候就covid的吧?
所以你应该是还在等offer的时候就covid的吧?
对,然后你应该比如说拿到offer之后,美国领事馆就关了,对。
对,然后你应该比如说拿到offer之后,美国领事馆就关了,对。
你还是坚持要出国。
你还是坚持要出国。
呃,是这个是个很难的选择。
呃,是这个是个很难的选择。
因为当时应该是有科威的,有有疫情,然后呃,国际政治局势又不很动荡。
因为当时应该是有科威的,有有疫情,然后呃,国际政治局势又不很动荡。
嗯,那你个人的未来还要和这两个息息相关。
嗯,那你个人的未来还要和这两个息息相关。
对,呃,那种不确定性下,你当时是什么样的状态?
对,呃,那种不确定性下,你当时是什么样的状态?
嗯,我觉得我当时可能更专注于手头上的事儿。
嗯,我觉得我当时可能更专注于手头上的事儿。
比如说,呃,在家里写天授,在家里写这个退学,ONLINE写这个VISA查询系统。
比如说,呃,在家里写天授,在家里写这个退学,ONLINE写这个VISA查询系统。
这个这个我我就是只是把转移注意力,不要天天去关注一些宏大的国际趣事,而是专注于手头上的事情,这样可能让自己内心更平静一些。
这个这个我我就是只是把转移注意力,不要天天去关注一些宏大的国际趣事,而是专注于手头上的事情,这样可能让自己内心更平静一些。
好,那我们就聊聊那段时间的两个项目。
好,那我们就聊聊那段时间的两个项目。
第一个是天寿,第二个是退学。
第一个是天寿,第二个是退学。
ONLINE我们先聊聊天寿吧。
ONLINE我们先聊聊天寿吧。
天寿刚刚其实你已经讲了,天寿呃,你说动机是因为你觉得当时环境太OVERFIT了,然后RL其实算法的创新没有那么重要啊,反而是这个INFRA,或者说这个好的一个IMPLEMENTATION。
天寿刚刚其实你已经讲了,天寿呃,你说动机是因为你觉得当时环境太OVERFIT了,然后RL其实算法的创新没有那么重要啊,反而是这个INFRA,或者说这个好的一个IMPLEMENTATION。
给我们讲讲为什么做天寿?
给我们讲讲为什么做天寿?
起因是就是首先我在一九年十二月我就有一个。
起因是就是首先我在一九年十二月我就有一个。
很内心有一个强烈的冲动,就说我其实已经写了很多的R的一些实验的代码了。
很内心有一个强烈的冲动,就说我其实已经写了很多的R的一些实验的代码了。
我为什么不把它们整合一下,然后让自己的实验跑得更好?
我为什么不把它们整合一下,然后让自己的实验跑得更好?
这个是出发点。
这个是出发点。
然后我在二月,就2020年2月份的时候,一月一月放假,然后二月就看了一下这个呃R的LIB的代码,就是在Ray下面的R的LIB。
然后我在二月,就2020年2月份的时候,一月一月放假,然后二月就看了一下这个呃R的LIB的代码,就是在Ray下面的R的LIB。
然后我本来第一步想的是用RILIB来看看能不能改改,然后来去支持我自己的实验。
然后我本来第一步想的是用RILIB来看看能不能改改,然后来去支持我自己的实验。
然后我看了一个月,太复杂了。
然后我看了一个月,太复杂了。
抽象太多了,然后这个这个这个一个R LIB有快几十万行代码,然后就是完全不可能接受。
抽象太多了,然后这个这个这个一个R LIB有快几十万行代码,然后就是完全不可能接受。
然后我又根本不知道我要改的东西我该怎么实现,然后然后就决定哎不干了,就直接重新手撸推倒重来。
然后我又根本不知道我要改的东西我该怎么实现,然后然后就决定哎不干了,就直接重新手撸推倒重来。
对,推倒重来。
对,推倒重来。
我我特想知道就是你当时做这个事儿其实还有功利的考虑吗?
我我特想知道就是你当时做这个事儿其实还有功利的考虑吗?
因为很多人那段时间就是想做一个BLAH BLAH POLICY OPTIMIZATION的NEW RIPS PAPER.
因为很多人那段时间就是想做一个BLAH BLAH POLICY OPTIMIZATION的NEW RIPS PAPER.
没有我不想发PAPER,我觉得发PAPER完全没有意义。
没有我不想发PAPER,我觉得发PAPER完全没有意义。
给我们讲讲为什么为什么你已经挣脱出这种评价体系了?
给我们讲讲为什么为什么你已经挣脱出这种评价体系了?
首先我已经有PAPER了。
首先我已经有PAPER了。
啊,我我我觉得多一篇少一篇对我而言没有任何意义。
啊,我我我觉得多一篇少一篇对我而言没有任何意义。
然后呃,并且我申请已经够用了,然后呃,比赛我也有了,呃,GITHUB三位数可能算有,就比如说我自己搞那个课程RIP,但是那个是不是正儿八经的?
然后呃,并且我申请已经够用了,然后呃,比赛我也有了,呃,GITHUB三位数可能算有,就比如说我自己搞那个课程RIP,但是那个是不是正儿八经的?
那我还是想有个正儿八经的三位数是。
那我还是想有个正儿八经的三位数是。
好,那就是天授。
好,那就是天授。
当时看了R1LIVE之后不好用,然后你当时对PAPER没兴趣,对呃?
当时看了R1LIVE之后不好用,然后你当时对PAPER没兴趣,对呃?
但你对开源代码是很有兴趣的。
但你对开源代码是很有兴趣的。
你对一个好用的、能够推动这个领域前进的一个开源代码非常感兴趣。
你对一个好用的、能够推动这个领域前进的一个开源代码非常感兴趣。
对嗯,做这个事儿有多难?
对嗯,做这个事儿有多难?
当时做天授很简单,两周。
当时做天授很简单,两周。
只要两周,第一版。
只要两周,第一版。
一般有什么算法?
一般有什么算法?
好多算法啊,就是就是你对着那个那个就paper实现一下就好了。
好多算法啊,就是就是你对着那个那个就paper实现一下就好了。
OK,对,就就是如果你把抽象搞对的话,那么时间算法就是可能就是呃二十行不到后二十行不到一个算法。
OK,对,就就是如果你把抽象搞对的话,那么时间算法就是可能就是呃二十行不到后二十行不到一个算法。
那为什么你两周就能搞出来一个第一版?
那为什么你两周就能搞出来一个第一版?
ARE YOU LIVE能写几十万行?
ARE YOU LIVE能写几十万行?
我觉得可能是因为它最开始设计有有一点问题,然后因为可能像呃合作的人多了,然后大家都往里面贡献代码,然后最后就变成了项目。
我觉得可能是因为它最开始设计有有一点问题,然后因为可能像呃合作的人多了,然后大家都往里面贡献代码,然后最后就变成了项目。
这个项目会。
这个项目会。
逐渐的腐化。
逐渐的腐化。
所以你是一个人手录的对。
所以你是一个人手录的对。
所以这种一个人高效的迭代,然后做做好一个顶层设计之后就去执行,对你觉得反而会迸发出更更大的力量。
所以这种一个人高效的迭代,然后做做好一个顶层设计之后就去执行,对你觉得反而会迸发出更更大的力量。
是的就是我觉得代码可能呃,或者说一个项目啊,这个更多的。
是的就是我觉得代码可能呃,或者说一个项目啊,这个更多的。
有用的东西是consistency,一一致性。
有用的东西是consistency,一一致性。
如果这个项目是从头到尾都是一致性的话,那他们就是一个,他就是个好项目。
如果这个项目是从头到尾都是一致性的话,那他们就是一个,他就是个好项目。
像比如说很多这个项目的腐化,都是由于呃不一致性。
像比如说很多这个项目的腐化,都是由于呃不一致性。
就比如说两个人,或者说十个人,十个人的话就是每个人写了一点代码,但是每个人其实都不太知道对面到底写了什么东西。
就比如说两个人,或者说十个人,十个人的话就是每个人写了一点代码,但是每个人其实都不太知道对面到底写了什么东西。
嗯,然后有一些ASSUMPTION,有些假设就是没有办法去及时的传递,然后会导致比如说像这个代码在很多地方去。
嗯,然后有一些ASSUMPTION,有些假设就是没有办法去及时的传递,然后会导致比如说像这个代码在很多地方去。
复制粘贴,或者说一些不好的行为,然后不断导致这个代码越变越膨胀,然后去腐化。
复制粘贴,或者说一些不好的行为,然后不断导致这个代码越变越膨胀,然后去腐化。
你觉得当时天寿啊一炮而红吧?
你觉得当时天寿啊一炮而红吧?
可以说挺受欢迎的。
可以说挺受欢迎的。
你觉得天寿做对了什么事儿?
你觉得天寿做对了什么事儿?
我觉得他抓住了用户需求。
我觉得他抓住了用户需求。
就是RESEARCHER,或者说当时的呃科研的干活的人,嗯,其实都有一个需求,说这个有没有好用好改的二的框架,他能直接用。
就是RESEARCHER,或者说当时的呃科研的干活的人,嗯,其实都有一个需求,说这个有没有好用好改的二的框架,他能直接用。
然后因为天授整个代码短。
然后因为天授整个代码短。
呃,然后抽象做的还可以。
呃,然后抽象做的还可以。
就是你至少如果研究一下,然后你会发现你如果改这个地方就一定会对。
就是你至少如果研究一下,然后你会发现你如果改这个地方就一定会对。
呃,而且只有这个一个地方能够改,并且呃,就是如果你要支持你的这个FEATURE的话,你只有改这个地方才能支持。
呃,而且只有这个一个地方能够改,并且呃,就是如果你要支持你的这个FEATURE的话,你只有改这个地方才能支持。
对啊,就是说别人想改什么地方,你的设计已经把它设计好了,就只能改这儿。
对啊,就是说别人想改什么地方,你的设计已经把它设计好了,就只能改这儿。
是的,嗯。
是的,嗯。
是的。
是的。
然后然后像这个呃,就是应用性做的还可以,然后想跑什么算法都有。
然后然后像这个呃,就是应用性做的还可以,然后想跑什么算法都有。
所以当时拍拓是第一版是你一个人写的,对,后面他们会慢慢变成一个更多人的PROJECT了嘛?
所以当时拍拓是第一版是你一个人写的,对,后面他们会慢慢变成一个更多人的PROJECT了嘛?
它就变成一个开源的东西了,还呃,是的,组内在维护。
它就变成一个开源的东西了,还呃,是的,组内在维护。
呃,变成开源的东西,组内其实没什么人来维护。
呃,变成开源的东西,组内其实没什么人来维护。
对,就是直接OPEN SOURCE的。
对,就是直接OPEN SOURCE的。
那那那你是怎么避免天寿不发生你刚刚所说的很多人在一起这种不CONSISTENT这种腐化的问题的?
那那那你是怎么避免天寿不发生你刚刚所说的很多人在一起这种不CONSISTENT这种腐化的问题的?
呃,初期的话是因为我有足够的时间,所以我可以一个人把所有东西全部包了,然后这个肯定是CONSISTENT的。
呃,初期的话是因为我有足够的时间,所以我可以一个人把所有东西全部包了,然后这个肯定是CONSISTENT的。
虽然说这个呃现在看来不大好,呃对于长期发展不大好,但是。
虽然说这个呃现在看来不大好,呃对于长期发展不大好,但是。
对于当时的函数还是够用的,然后后期的话就是因为我的重心,因为呃我入职之后可能就没什么时间了,然后我会直接转移给把把整个呃维护权转移给就是社区的人,然后如果他们觉得是对的,那他们就做,就是如果有一个拍板的人。
对于当时的函数还是够用的,然后后期的话就是因为我的重心,因为呃我入职之后可能就没什么时间了,然后我会直接转移给把把整个呃维护权转移给就是社区的人,然后如果他们觉得是对的,那他们就做,就是如果有一个拍板的人。
那么这个事情应该就是CONSIDER。
那么这个事情应该就是CONSIDER。
现在看五年了,天寿成为一个社区的FRESH,你觉得现在腐化了吗?
现在看五年了,天寿成为一个社区的FRESH,你觉得现在腐化了吗?
有一点,确实有一点。
有一点,确实有一点。
因为呃,我的我的CONTEXT跟呃继任者的那个CONTEXT还是有点不一样的,所以说他会呃重写我的一份代码。
因为呃,我的我的CONTEXT跟呃继任者的那个CONTEXT还是有点不一样的,所以说他会呃重写我的一份代码。
嗯,就是我们俩其实没有那么的CONSISTENT。
嗯,就是我们俩其实没有那么的CONSISTENT。
所以说还是会有一些腐化的问题,但是我觉得为就是长远来看,这是可以接受的。
所以说还是会有一些腐化的问题,但是我觉得为就是长远来看,这是可以接受的。
嗯。
嗯。
对。
对。
第二个PROJECT,我也是用户退学。
第二个PROJECT,我也是用户退学。
你你为啥?
你你为啥?
你你你你不是当时。
你你你你不是当时。
我大二嘛?
我大二嘛?
但后来我对我数研的时候也要约天证,然后当时也是需要找最近的时间。
但后来我对我数研的时候也要约天证,然后当时也是需要找最近的时间。
然后对当时为什么做这么一个这这么一个事儿。
然后对当时为什么做这么一个这这么一个事儿。
我自己有需求啊,就就是跟这个做天授差不多,就是我我觉得我我的需求我应该。
我自己有需求啊,就就是跟这个做天授差不多,就是我我觉得我我的需求我应该。
我找了一圈,我不知道有有什么东西能够满足我的需求。
我找了一圈,我不知道有有什么东西能够满足我的需求。
所以说我就手撸了一个,就是不然没有办法。
所以说我就手撸了一个,就是不然没有办法。
因为当时你应该处在一个一会儿这个临时管管那个有临时管。
因为当时你应该处在一个一会儿这个临时管管那个有临时管。
对啊对啊对啊。
对啊对啊对啊。
然后实时的知道哪儿有签证的。
然后实时的知道哪儿有签证的。
然后然后我我觉得我我有这个需求,就像比如说最最开始我我有收集这个上古学长的这个作业的需求,我觉得很多人应该有这个需求,所以说我就开演了。
然后然后我我觉得我我有这个需求,就像比如说最最开始我我有收集这个上古学长的这个作业的需求,我觉得很多人应该有这个需求,所以说我就开演了。
然后就我我有查签证的需求,然后我就这个写了一个这个签证的这个爬虫,然后我就开练了。
然后就我我有查签证的需求,然后我就这个写了一个这个签证的这个爬虫,然后我就开练了。
然后然后就直接免费给大家使用。
然后然后就直接免费给大家使用。
这个很受欢迎啊。
这个很受欢迎啊。
我昨天晚上看总点击量一百多万。
我昨天晚上看总点击量一百多万。
当时当时就一百多万,那现在可能一千多万、一千多万了。
当时当时就一百多万,那现在可能一千多万、一千多万了。
但是很很早之前就已经关了,就是因为COVID过了之后,然后也没有那么去,没有没有那么多需求了。
但是很很早之前就已经关了,就是因为COVID过了之后,然后也没有那么去,没有没有那么多需求了。
所以,呃,并且这个美国领事馆升级了这个网站,然后当当时的那个爬虫用不了,然后我我也没时间写了。
所以,呃,并且这个美国领事馆升级了这个网站,然后当当时的那个爬虫用不了,然后我我也没时间写了。
嗯,对,嗯,所以他完成了他的使命。
嗯,对,嗯,所以他完成了他的使命。
其实某种程度上,这俩都不是太功利的。
其实某种程度上,这俩都不是太功利的。
PROJECT是的,对吧?
PROJECT是的,对吧?
是的第一个你也不是为了申请,那是已经发生在你申请之后了。
是的第一个你也不是为了申请,那是已经发生在你申请之后了。
对你大可以那段时间,虽然说COVID不能旅游,但是你大可以干点其他的放松的事啊。
对你大可以那段时间,虽然说COVID不能旅游,但是你大可以干点其他的放松的事啊。
是啊,是啊,是啊。
是啊,是啊,是啊。
然后退学也是一样,对吧?
然后退学也是一样,对吧?
你也可以自己弄完之后。
你也可以自己弄完之后。
所以你还是。
所以你还是。
有一种很内在、很强烈的冲动,想要去创造一些你觉得有用的、自己需要的事儿,然后把这个东西分享给所有人。
有一种很内在、很强烈的冲动,想要去创造一些你觉得有用的、自己需要的事儿,然后把这个东西分享给所有人。
是的。
是的。
就是我想做一些,就是呃,能够这个产生影响力的事情,就是哪怕是亏钱也行。
就是我想做一些,就是呃,能够这个产生影响力的事情,就是哪怕是亏钱也行。
嗯,就是比如说做慈善。
嗯,就是比如说做慈善。
呃,我觉得这个做这个这个天寿跟做这个退学online都是做慈善,对,就是完全nonprofit。
呃,我觉得这个做这个这个天寿跟做这个退学online都是做慈善,对,就是完全nonprofit。
嗯。
嗯。
然后做这种慈善项目让我感觉非常满足。
然后做这种慈善项目让我感觉非常满足。
所以相比钱,其实IMPACT会让你更满足。
所以相比钱,其实IMPACT会让你更满足。
是你觉得你对IMPACT这种这种追求多久来的?
是你觉得你对IMPACT这种这种追求多久来的?
高中的时候。
高中的时候。
高中的时候为什么会和IMPACT相关?
高中的时候为什么会和IMPACT相关?
可能说来有点奇怪,就是我高中的时候突然某一天,高三的时候有个IDEA,就是突然从我脑子蹦出来,有可能是呃,就是未来的某个时候,这个往过去的我发送一些信息,然后我意识到一些东西。
可能说来有点奇怪,就是我高中的时候突然某一天,高三的时候有个IDEA,就是突然从我脑子蹦出来,有可能是呃,就是未来的某个时候,这个往过去的我发送一些信息,然后我意识到一些东西。
就比如说如果人生是一场游戏的话。
就比如说如果人生是一场游戏的话。
那么你的游戏的结算分数是,呃,记得你名字的数量的人。
那么你的游戏的结算分数是,呃,记得你名字的数量的人。
没了,没了。
没了,没了。
那意味着什么?
那意味着什么?
意味着你需要被更多的人认识。
意味着你需要被更多的人认识。
所以你是高中,突然有一天你就意识到是这个东西很重要。
所以你是高中,突然有一天你就意识到是这个东西很重要。
我想要让在我死之后,在我死的那个瞬间记得我的名字的人越多越好。
我想要让在我死之后,在我死的那个瞬间记得我的名字的人越多越好。
是的,直到今天你还是以这个度量标准呃。
是的,直到今天你还是以这个度量标准呃。
可以算是。
可以算是。
那我想再往深了问问,为什么这个重要呢?
那我想再往深了问问,为什么这个重要呢?
呃,我当时不觉得这个很重要,但是我尝试了几次,发现这确实是我想要的东西。
呃,我当时不觉得这个很重要,但是我尝试了几次,发现这确实是我想要的东西。
就是如果我的做的东西能够给他人带来好处的话,那么我我就是首先我自己认可做我做的东西,其次他人也认可我做的东西,然后我会从他他人那边得到一些正正反馈。
就是如果我的做的东西能够给他人带来好处的话,那么我我就是首先我自己认可做我做的东西,其次他人也认可我做的东西,然后我会从他他人那边得到一些正正反馈。
这个可以和直接和名望、名气、fame打画画画等号吗?
这个可以和直接和名望、名气、fame打画画画等号吗?
呃,不太行,因为有一些名望、名气可能是不好的。
呃,不太行,因为有一些名望、名气可能是不好的。
嗯哼,就比如说你你坐上了什么什么位置,那你确实很有名望。
嗯哼,就比如说你你坐上了什么什么位置,那你确实很有名望。
但是实际上就是这个名望呃,在别人看来可能对别人的收益可能不是那么多,就是有可能是负面的。
但是实际上就是这个名望呃,在别人看来可能对别人的收益可能不是那么多,就是有可能是负面的。
呃,我想要的是那种就是呃,当然我我觉得这个你不可能对所有人都好,这个是个很难做到的事情。
呃,我想要的是那种就是呃,当然我我觉得这个你不可能对所有人都好,这个是个很难做到的事情。
但是呃,就是我可以尝试的力所能及的对呃我身边的人好。
但是呃,就是我可以尝试的力所能及的对呃我身边的人好。
做一些对大家有意义的事。
做一些对大家有意义的事。
所以这个度量标准是,做一些对大家有意义的事儿,让更多的人记得你。
所以这个度量标准是,做一些对大家有意义的事儿,让更多的人记得你。
对。
对。
如果我要挑战一下这个观点,我会说:那你为什么不自己过得开心就好了?
如果我要挑战一下这个观点,我会说:那你为什么不自己过得开心就好了?
你为什么需要别人记得你?
你为什么需要别人记得你?
你你觉得自想让别人记得自己,想让很多人用你觉得你造出来有用的东西。
你你觉得自想让别人记得自己,想让很多人用你觉得你造出来有用的东西。
这个冲动本本源是什么?
这个冲动本本源是什么?
是你害怕被忘记吗?
是你害怕被忘记吗?
不是。
不是。
嗯。
嗯。
我觉得人生其实也可以算作一种体验,就是你既然都已经来到这个世界上了,那你为什么不就是?
我觉得人生其实也可以算作一种体验,就是你既然都已经来到这个世界上了,那你为什么不就是?
就不要浪费了这段旅程。
就不要浪费了这段旅程。
对,但是为什么不浪费这段旅程?
对,但是为什么不浪费这段旅程?
得让别人记得你。
得让别人记得你。
嗯。
嗯。
我我发现这儿有一种很、很有趣的张力啊。
我我发现这儿有一种很、很有趣的张力啊。
因为你刚刚第一点说你想挣脱一些外部的评价标准,嗯,比如说GPA啊,比如说高考或者怎么怎么样,别人觉得PHD比MASTER好,但另外一方面你给自己的这个内生的这个INTRINSIC的这个标准。
因为你刚刚第一点说你想挣脱一些外部的评价标准,嗯,比如说GPA啊,比如说高考或者怎么怎么样,别人觉得PHD比MASTER好,但另外一方面你给自己的这个内生的这个INTRINSIC的这个标准。
又是外界的对你的认同。
又是外界的对你的认同。
但这个认同并不是官方的认同,就是不是既有评价体系的认同,是是共识。
但这个认同并不是官方的认同,就是不是既有评价体系的认同,是是共识。
OK,所以你想要摆脱的是。
OK,所以你想要摆脱的是。
嗯,现有体系和成规的那种评价体系。
嗯,现有体系和成规的那种评价体系。
对,但你更想要的是每个人发自内心的给你点赞。
对,但你更想要的是每个人发自内心的给你点赞。
是的,所以这个点赞可以变成你的GITHUB的那个STAR,对,可以变成退学的点击量,对,可以变成比如说你现在GOOGLE SCHOLAR的CITATION,也可以变成你现在OPEN AI的MODEL每天做多少次INFERENCE,对。
是的,所以这个点赞可以变成你的GITHUB的那个STAR,对,可以变成退学的点击量,对,可以变成比如说你现在GOOGLE SCHOLAR的CITATION,也可以变成你现在OPEN AI的MODEL每天做多少次INFERENCE,对。
嗯。
嗯。
你会担心你的这样的标准会变成新的一种成规吗?
你会担心你的这样的标准会变成新的一种成规吗?
嗯,就是那可能以前上一辈的人是拿GPA评价年轻人。
嗯,就是那可能以前上一辈的人是拿GPA评价年轻人。
嗯,那当你成为再上一辈的时候,你就拿IMPACT评价下一辈的年轻人。
嗯,那当你成为再上一辈的时候,你就拿IMPACT评价下一辈的年轻人。
我只是对我自己这么要求的,我不会对别人这么要求。
我只是对我自己这么要求的,我不会对别人这么要求。
所以你并不觉得你的标准是可以放之四海而皆准的。
所以你并不觉得你的标准是可以放之四海而皆准的。
是的,是的。
是的,是的。
所以你不喜欢那种被外部的标准推着走。
所以你不喜欢那种被外部的标准推着走。
是的。
是的。
那会不会出现你自己的标准推着你走的这种情况呢?
那会不会出现你自己的标准推着你走的这种情况呢?
目前还没有吧。
目前还没有吧。
就是你如果发出现这种情况,你可以改,你可以改自己的评价标准。
就是你如果发出现这种情况,你可以改,你可以改自己的评价标准。
所以你虽然你有你的标准,但是你不是这个标准的奴隶。
所以你虽然你有你的标准,但是你不是这个标准的奴隶。
就你有你IMPACT的标准。
就你有你IMPACT的标准。
是的就是哪怕不会为他所困。
是的就是哪怕不会为他所困。
对,但就比如说我,我其实在呃很长一段时间,我其实都没有这个开源项目了,但是我也不会觉得这个是一个很困扰我的事情。
对,但就比如说我,我其实在呃很长一段时间,我其实都没有这个开源项目了,但是我也不会觉得这个是一个很困扰我的事情。
我倒觉得不担心,我觉得OPEN I的MODEL就是最好的。
我倒觉得不担心,我觉得OPEN I的MODEL就是最好的。
是某种程度上你可以这么认为,对?
是某种程度上你可以这么认为,对?
嗯,因为评价体系是一个很简单、直接的一个操作,能够快速的筛选人。
嗯,因为评价体系是一个很简单、直接的一个操作,能够快速的筛选人。
所以说呃,它这个社会发展方式就会收敛到这种呃策略上,所以说短时间内是无法改变的。
所以说呃,它这个社会发展方式就会收敛到这种呃策略上,所以说短时间内是无法改变的。
哪怕你是这个评价体系,在绝大多数人看来,你都是胜出者和受益者。
哪怕你是这个评价体系,在绝大多数人看来,你都是胜出者和受益者。
其实你也不喜欢这个评价体系。
其实你也不喜欢这个评价体系。
是的,就是其实应该更更个性化。
是的,就是其实应该更更个性化。
这是清华,然后。
这是清华,然后。
在一个风雨飘摇的疫情的那段时间啊,你申请到CMU应该本来预计是应该要20年9月入学的。
在一个风雨飘摇的疫情的那段时间啊,你申请到CMU应该本来预计是应该要20年9月入学的。
对,当时应该疫情第一学期过去了嘛。
对,当时应该疫情第一学期过去了嘛。
上网课就直接在家上网课,一直在家上上了一年。
上网课就直接在家上网课,一直在家上上了一年。
对啊,但当时其实你是不是一入学就。
对啊,但当时其实你是不是一入学就。
得想着找工作的事儿啊。
得想着找工作的事儿啊。
对,那个过程是什么样的过程?
对,那个过程是什么样的过程?
那过程就是我开始时候吊儿郎当的,然后就投了,应该是投了十八家,然后最后只收到这个GOOGLE跟这个AUTO ML,就是陈天琪老师的公司。
那过程就是我开始时候吊儿郎当的,然后就投了,应该是投了十八家,然后最后只收到这个GOOGLE跟这个AUTO ML,就是陈天琪老师的公司。
然后当时想着如果我手上只有这两个OFFER,那我肯定去AUTO ML,我不想去GOOGLE,因为去GOOGLE没什么意思。
然后当时想着如果我手上只有这两个OFFER,那我肯定去AUTO ML,我不想去GOOGLE,因为去GOOGLE没什么意思。
这个意思是怎么评判呢?
这个意思是怎么评判呢?
嗯,就是你在大厂当螺丝钉,然后做一些自己不是那么喜欢的事儿。
嗯,就是你在大厂当螺丝钉,然后做一些自己不是那么喜欢的事儿。
就比如说前后端,然后后面就稍微想明白一点,然后后面就再去面试,然后拿了当时的换方。
就比如说前后端,然后后面就稍微想明白一点,然后后面就再去面试,然后拿了当时的换方。
换方当时说要搞一个呃AI LAB,就是后面的DEEP SICK。
换方当时说要搞一个呃AI LAB,就是后面的DEEP SICK。
对,我当时是拿了OFFER,对,然后但是我没有去。
对,我当时是拿了OFFER,对,然后但是我没有去。
没有去。
没有去。
然后你去了OPEN AI,是的。
然后你去了OPEN AI,是的。
所以其实现在看起来,如果开天眼的话,你当时面临的选择是DEEP SEEK VERSUS OPEN AI,是的。
所以其实现在看起来,如果开天眼的话,你当时面临的选择是DEEP SEEK VERSUS OPEN AI,是的。
所以当时哪怕是换方,那个也不是去搞量化,而是搞AI。
所以当时哪怕是换方,那个也不是去搞量化,而是搞AI。
呃,换方那个就是搞ROINFO啊。
呃,换方那个就是搞ROINFO啊。
对,如果我没有其他OFFER的话,那我会选择换方。
对,如果我没有其他OFFER的话,那我会选择换方。
其他OFFER是指OCTO之外的其他呃。
其他OFFER是指OCTO之外的其他呃。
不是是比如说OPENAI,跟我当时应该还有英伟达、英伟达、英伟达也是搞IOC三,然后费尔其实也是,但是费尔最后由于一些流程原因把我拒了。
不是是比如说OPENAI,跟我当时应该还有英伟达、英伟达、英伟达也是搞IOC三,然后费尔其实也是,但是费尔最后由于一些流程原因把我拒了。
OK,所以你当时面临的选择应该是换方OPENAI、英伟达TikTok啊?
OK,所以你当时面临的选择应该是换方OPENAI、英伟达TikTok啊?
对。
对。
嗯,菲尔可能有。
嗯,菲尔可能有。
然后在这样的选择下面,你最后选择了OPENAI。
然后在这样的选择下面,你最后选择了OPENAI。
对,这个选择是怎么做的?
对,这个选择是怎么做的?
嗯,我觉得就是因为。
嗯,我觉得就是因为。
因为我要强调的是这个是BEFORE CHATGPT。
因为我要强调的是这个是BEFORE CHATGPT。
对对,所以你当时其实你是不知道CHATGPT IS COMING的啊?
对对,所以你当时其实你是不知道CHATGPT IS COMING的啊?
对对对对。
对对对对。
所以这个选择是怎么做的?
所以这个选择是怎么做的?
呃,首先我觉得这个。
呃,首先我觉得这个。
OPEN AI之前一直在做强化学习,OPEN AI跟DEEP MIND是就是当时IO里面搞的最好的两个RESEARCH LAB。
OPEN AI之前一直在做强化学习,OPEN AI跟DEEP MIND是就是当时IO里面搞的最好的两个RESEARCH LAB。
然后我觉得如果我能进,那就是也是我我我我其实当时没有想到这事儿,我没有想到这个我我能进这事儿,然后。
然后我觉得如果我能进,那就是也是我我我我其实当时没有想到这事儿,我没有想到这个我我能进这事儿,然后。
呃,我能进,我觉得就已经非常好了。
呃,我能进,我觉得就已经非常好了。
然后呃,然后我觉得就是我能够有一个机会来体验,就是世界上最前沿的一些RESEARCH,它是到底是怎么做的,而不是像这个呃,就是小作坊一样,就是比如说在学校里面,然后就几个PHD手搓一个东西,然后然后没有一些方法论,然后去做一个项目。
然后呃,然后我觉得就是我能够有一个机会来体验,就是世界上最前沿的一些RESEARCH,它是到底是怎么做的,而不是像这个呃,就是小作坊一样,就是比如说在学校里面,然后就几个PHD手搓一个东西,然后然后没有一些方法论,然后去做一个项目。
就我感觉非常别扭,然后我想去学习它到底是怎么样有个方法论去进行一些工业界的研究的。
就我感觉非常别扭,然后我想去学习它到底是怎么样有个方法论去进行一些工业界的研究的。
那你当时去OPENAI的话,应该是直接是张书曼的组。
那你当时去OPENAI的话,应该是直接是张书曼的组。
是的就是张书曼招的我啊。
是的就是张书曼招的我啊。
是他面试的你对。
是他面试的你对。
就我非常感激他,就是我非常感激他能给我这样一个机会。
就我非常感激他,就是我非常感激他能给我这样一个机会。
哪怕他离职了,就是他离职的那一天,我还难过了一个下午,然后把电脑关了,然后什么都不干。
哪怕他离职了,就是他离职的那一天,我还难过了一个下午,然后把电脑关了,然后什么都不干。
嗯嗯,所以他当时其实是很欣赏你的。
嗯嗯,所以他当时其实是很欣赏你的。
对嗯。
对嗯。
为什么?
为什么?
为什么你有问过他吗?
为什么你有问过他吗?
有,就是因为他觉得就是呃,首先呃,他觉得我GITHUB非常漂亮。
有,就是因为他觉得就是呃,首先呃,他觉得我GITHUB非常漂亮。
啊。
啊。
他他其实也认可我这个评价体系。
他他其实也认可我这个评价体系。
嗯,对,然后呃,因为因为他这个应该是他的评价体系的一个指标,然后之前也没有人意识到,然后并且就是招这么一个有良好的。
嗯,对,然后呃,因为因为他这个应该是他的评价体系的一个指标,然后之前也没有人意识到,然后并且就是招这么一个有良好的。
呃,工程能力的一个这么一个人进来的话,对于任何的项目都是有益的。
呃,工程能力的一个这么一个人进来的话,对于任何的项目都是有益的。
所以你们面试有什么有趣的故事吗?
所以你们面试有什么有趣的故事吗?
你有怎么 IMPRESS ON?
你有怎么 IMPRESS ON?
呃,就是可能最后一轮面试就是他出一道题,然后出了一道非常 END TO END 的一个题,然后很开放性,然后然后他给我三个小时,然后我花了两个小时就做完了。
呃,就是可能最后一轮面试就是他出一道题,然后出了一道非常 END TO END 的一个题,然后很开放性,然后然后他给我三个小时,然后我花了两个小时就做完了。
就从头开始写一个东西,然后然后然后我就做完了。
就从头开始写一个东西,然后然后然后我就做完了。
然后然后我就跟他说,就展示了一下,然后说这个就虽然展示的过程中出现了个BUG,然后但我现场修了一下,然后也没什么问题。
然后然后我就跟他说,就展示了一下,然后说这个就虽然展示的过程中出现了个BUG,然后但我现场修了一下,然后也没什么问题。
然后反正就是呃,可能他认为我既有一些工程能力,然后同时确实呃实力还可以。
然后反正就是呃,可能他认为我既有一些工程能力,然后同时确实呃实力还可以。
呃,然后就把我招了。
呃,然后就把我招了。
嗯,对,然后然后他的这个面试题只给两个人测过,一个是我,还有一个是应该还有一个是ENTRY,就是现在做CODEX那个人。
嗯,对,然后然后他的这个面试题只给两个人测过,一个是我,还有一个是应该还有一个是ENTRY,就是现在做CODEX那个人。
嗯,对。
嗯,对。
你们俩都通过了,对,都通过了,所以通过率是百分之百啊。
你们俩都通过了,对,都通过了,所以通过率是百分之百啊。
是的。
是的。
好,我我我们马上聊OPAI。
好,我我我们马上聊OPAI。
但是在OPAI之前,我其实特好奇你当时找工作的时候考虑过读PHD吗?
但是在OPAI之前,我其实特好奇你当时找工作的时候考虑过读PHD吗?
没有,为什么?
没有,为什么?
因为你接触了一些工业界的人,会发现就是读PHD就是如果你想进工业界,那么读PHD就是浪费生命。
因为你接触了一些工业界的人,会发现就是读PHD就是如果你想进工业界,那么读PHD就是浪费生命。
你完全可以以MASTER为跳板,然后来凑够PHD进工业界的标准。
你完全可以以MASTER为跳板,然后来凑够PHD进工业界的标准。
比如你可以在MASTER,或者说你可以在本科的时候攒够,才得选,然后做出一些能够让你与众不同的一些项目。
比如你可以在MASTER,或者说你可以在本科的时候攒够,才得选,然后做出一些能够让你与众不同的一些项目。
然后让你可以跟同时期的PHD candidate同台竞技。
然后让你可以跟同时期的PHD candidate同台竞技。
然后再看看有什么你可以做的,能够让对方挑选MASTER的你,而不是PH另外一个PHD。
然后再看看有什么你可以做的,能够让对方挑选MASTER的你,而不是PH另外一个PHD。
嗯,呃,我觉得是想清楚差异化这个是很关键的。
嗯,呃,我觉得是想清楚差异化这个是很关键的。
所以你很早就想清楚我未来一定是工业界对。
所以你很早就想清楚我未来一定是工业界对。
因为我觉得学术界教书或者当教授太卷了,然后不是我想要的东西,然后我还要去为了一个项目去拉方定啊,然后。
因为我觉得学术界教书或者当教授太卷了,然后不是我想要的东西,然后我还要去为了一个项目去拉方定啊,然后。
嗯,那还不如就是感觉限制很多。
嗯,那还不如就是感觉限制很多。
那比如说我们是我们是个公司,我们要招,然后有同样的MASTER,有同样呃,有PHD。
那比如说我们是我们是个公司,我们要招,然后有同样的MASTER,有同样呃,有PHD。
你会不会觉得这两种它其实培养的能力都不太一样?
你会不会觉得这两种它其实培养的能力都不太一样?
因为PHD更多要培养你的学术的能力,对吧?
因为PHD更多要培养你的学术的能力,对吧?
对,你要怎么写好一个PAPER,把故事讲圆,然后画图画得漂亮,然后把这个宣发做好。
对,你要怎么写好一个PAPER,把故事讲圆,然后画图画得漂亮,然后把这个宣发做好。
你觉得这事儿重要吗?
你觉得这事儿重要吗?
对于一个公司来说,某种程度上有锻炼。
对于一个公司来说,某种程度上有锻炼。
但是那如果和像你这样比较极致的工程能力相比,你你觉得这两种能力在现在这个AI的时代会怎么评判?
但是那如果和像你这样比较极致的工程能力相比,你你觉得这两种能力在现在这个AI的时代会怎么评判?
这两种谁更有价值啊?
这两种谁更有价值啊?
呃,现在的时代那当然是工程能力越好就更有价值。
呃,现在的时代那当然是工程能力越好就更有价值。
呃,但是放在当时那个时间点的话,那还真不好说。
呃,但是放在当时那个时间点的话,那还真不好说。
就是,所以我当时的做法是我两个都尽量去满足你。
就是,所以我当时的做法是我两个都尽量去满足你。
记忆反正也发过paper,然后开源的infra work肯定也做的很popular,工程能力也够强。
记忆反正也发过paper,然后开源的infra work肯定也做的很popular,工程能力也够强。
那为什么现在你觉得已经很明显了?
那为什么现在你觉得已经很明显了?
工程能力是第一位的。
工程能力是第一位的。
呃,我来引用一句我同事说的话,就是。
呃,我来引用一句我同事说的话,就是。
呃,我同事之前也是R O的一个PHD,然后搞了一个很出名的R O的framework。
呃,我同事之前也是R O的一个PHD,然后搞了一个很出名的R O的framework。
然后他说了一句话,就是教一个researcher。
然后他说了一句话,就是教一个researcher。
如何做好engineering要远比教个engineer如何做好research来的难。
如何做好engineering要远比教个engineer如何做好research来的难。
呃,是因为是这样的。
呃,是因为是这样的。
就是呃,目前的一些这个就是RESEARCH LAB的一些这个探索,前沿探索它其实拼的都是呃INFRA的正确性。
就是呃,目前的一些这个就是RESEARCH LAB的一些这个探索,前沿探索它其实拼的都是呃INFRA的正确性。
如果你INFRA正确,那么就是看你单位时间内你能迭代多少次。
如果你INFRA正确,那么就是看你单位时间内你能迭代多少次。
因为你反正IDEA你大家大大不了找人讨论一下,然后IDEA就出来了,然后你就验证。
因为你反正IDEA你大家大大不了找人讨论一下,然后IDEA就出来了,然后你就验证。
你只要能验证好,然后你就相当于这是你的RESEARCH WORK。
你只要能验证好,然后你就相当于这是你的RESEARCH WORK。
然后你其实不要又动那么多脑子,就是动脑子的人可能是因为已经在这个领域浸染了很久的人。
然后你其实不要又动那么多脑子,就是动脑子的人可能是因为已经在这个领域浸染了很久的人。
就比如说呃ALEX,然后他在呃这个领域从一开始GPT一的时候就开始弄了,然后他可能有很、很、很很强的这个RESEARCH的直觉。
就比如说呃ALEX,然后他在呃这个领域从一开始GPT一的时候就开始弄了,然后他可能有很、很、很很强的这个RESEARCH的直觉。
那他动脑子比普通的PH动脑子更有用。
那他动脑子比普通的PH动脑子更有用。
然后你就找他讨论就好了,就是IDEA非常便宜。
然后你就找他讨论就好了,就是IDEA非常便宜。
然后你要做的就是你在单位时间内能够验证多少有效的IDEA。
然后你要做的就是你在单位时间内能够验证多少有效的IDEA。
并且要是正确的INFRA,正确的结果,对快速的迭代。
并且要是正确的INFRA,正确的结果,对快速的迭代。
是的,而现在的PHD不具备这个能力。
是的,而现在的PHD不具备这个能力。
或者说呃,没有以这个为重点,因为这个对他来,这个对他们而言不重要。
或者说呃,没有以这个为重点,因为这个对他来,这个对他们而言不重要。
因为我认为目前的学术培养体系在于如何有好的一个学术的方向。
因为我认为目前的学术培养体系在于如何有好的一个学术的方向。
但是这个方向其实公司里面也有人会有,因为你只要在这个领域工作比较长的一段时间,你就会有一些研究直觉,然后你就会意识到什么是好的,什么是不好的,什么是该做的。
但是这个方向其实公司里面也有人会有,因为你只要在这个领域工作比较长的一段时间,你就会有一些研究直觉,然后你就会意识到什么是好的,什么是不好的,什么是该做的。
什么是不该做的。
什么是不该做的。
所以IDEA IS CHEAP YEAH。
所以IDEA IS CHEAP YEAH。
而有一个很强的engineering skill,把这个infra答对,快速的迭代。
而有一个很强的engineering skill,把这个infra答对,快速的迭代。
这个事儿你有了之后,你验证IDEA可能AGENT都能搞。
这个事儿你有了之后,你验证IDEA可能AGENT都能搞。
是嗯。
是嗯。
因为我的认知范围内是每家的INFRA都有不同程度的BUG,然后谁修BUG,谁修的BUG越多,那谁的模型训的就越好。
因为我的认知范围内是每家的INFRA都有不同程度的BUG,然后谁修BUG,谁修的BUG越多,那谁的模型训的就越好。
所以拉玛劝不过GPT,是因为拉玛的BUG太多。
所以拉玛劝不过GPT,是因为拉玛的BUG太多。
MAYBE我不知道,但是我我可能会这么猜测。
MAYBE我不知道,但是我我可能会这么猜测。
所以你很清楚的,在很早的时候你就意识到了整个这个PIPELINE要WORK,关键不是你的那些算法的创新,而是正确的超参、正确的INFRA、好的SYSTEM的让你快速的迭代。
所以你很清楚的,在很早的时候你就意识到了整个这个PIPELINE要WORK,关键不是你的那些算法的创新,而是正确的超参、正确的INFRA、好的SYSTEM的让你快速的迭代。
是的,然后呃,并且我不是很愿意去做这个RESEARCH调参这个事儿。
是的,然后呃,并且我不是很愿意去做这个RESEARCH调参这个事儿。
对这个这个来说,没有对我没有任何吸引力。
对这个这个来说,没有对我没有任何吸引力。
我我吸引我就是我更喜欢卖铲子。
我我吸引我就是我更喜欢卖铲子。
你喜欢有一个playground,你把根基搭好,让别人去玩,别人去发论文。
你喜欢有一个playground,你把根基搭好,让别人去玩,别人去发论文。
对你不管啊。
对你不管啊。
对呃,然后别人发论文的时候可以可能可以带上我啊。
对呃,然后别人发论文的时候可以可能可以带上我啊。
然后然后你就发现就是我发现很多这个model release都有我的名字。
然后然后你就发现就是我发现很多这个model release都有我的名字。
这个就是因为我在OpenAI的内部搭了整个Post Training的R O Infra。
这个就是因为我在OpenAI的内部搭了整个Post Training的R O Infra。
所以整个POST TRAINING的RL INFRA,你是最核心的贡献者。
所以整个POST TRAINING的RL INFRA,你是最核心的贡献者。
是的,然后大家因为大家在之前都是用这个整个POST TRAINING RL INFRA来去训这个RHF的模型。
是的,然后大家因为大家在之前都是用这个整个POST TRAINING RL INFRA来去训这个RHF的模型。
所以每发一个大的RELEASE,每发一个大的这个模型的话,这个我的名字就得放上去。
所以每发一个大的RELEASE,每发一个大的这个模型的话,这个我的名字就得放上去。
所以你可以算是我每一个OPENAI背后的MODEL都有你,因为你喜欢卖铲子对。
所以你可以算是我每一个OPENAI背后的MODEL都有你,因为你喜欢卖铲子对。
然后然后并且我是卖卖铲子。
然后然后并且我是卖卖铲子。
这个最面向客户的那一位,因为这个R是这个整个INFRA的最顶端。
这个最面向客户的那一位,因为这个R是这个整个INFRA的最顶端。
生态位很高。
生态位很高。
对,所以说这个如果太底层的话,你也这个这个名字可能也不太。
对,所以说这个如果太底层的话,你也这个这个名字可能也不太。
如果写个DATA LOADER或者STORAGE,可能没有那么那个。
如果写个DATA LOADER或者STORAGE,可能没有那么那个。
但你R有每个人都想要的一个东西,是的是的是。
但你R有每个人都想要的一个东西,是的是的是。
好聪明呀!
好聪明呀!
我我之前也想过,就是我的这个职业生涯啊应该怎么发展,然后我我当时。
我我之前也想过,就是我的这个职业生涯啊应该怎么发展,然后我我当时。
定了又定了一个指标,我要最大化我在OpenAI Blog上出现名字的次数。
定了又定了一个指标,我要最大化我在OpenAI Blog上出现名字的次数。
你真的很会给自己写reward啊。
你真的很会给自己写reward啊。
对。
对。
然后然后这个reward,那你你需要做什么呢?
然后然后这个reward,那你你需要做什么呢?
那你肯定是先依法,因为你如果做这个单个的research,这个这个不能scale up。
那你肯定是先依法,因为你如果做这个单个的research,这个这个不能scale up。
然后如果你做INFRA的话,大家都用你。
然后如果你做INFRA的话,大家都用你。
那所以说你可以SCALING UP。
那所以说你可以SCALING UP。
嗯,对,然后并且我又擅长写R INFRA。
嗯,对,然后并且我又擅长写R INFRA。
那所以说这个这个是个非常非常适合的机会。
那所以说这个这个是个非常非常适合的机会。
这事儿基本上你进了清华之后,这事儿就是你的主线R INFRA。
这事儿基本上你进了清华之后,这事儿就是你的主线R INFRA。
对,在今天你还会鼓励,因为你你已经过了这个选择。
对,在今天你还会鼓励,因为你你已经过了这个选择。
但我们这个播客的很多观众。
但我们这个播客的很多观众。
可能还在本科,可能在硕士。
可能还在本科,可能在硕士。
他们还在犹豫工业界VS学术界的这个选择,你会怎么帮他们去思考这个过程?
他们还在犹豫工业界VS学术界的这个选择,你会怎么帮他们去思考这个过程?
特别是在2025年,在这样的格局下面。
特别是在2025年,在这样的格局下面。
长远来看,我还是觉得学术界没有就是现代学术界应该要被重构。
长远来看,我还是觉得学术界没有就是现代学术界应该要被重构。
但现在对自己的未来有抱负的那波年轻人,他们希望像你这样做出IMPACT。
但现在对自己的未来有抱负的那波年轻人,他们希望像你这样做出IMPACT。
啊。
啊。
那他到底是去读个PHD,还是尽早进入工业界?
那他到底是去读个PHD,还是尽早进入工业界?
我觉得还是尽早进入工业界比较好。
我觉得还是尽早进入工业界比较好。
因为读PHD的话,你不知道你PHD毕业之后会发生什么事情,有可能毕业之后呃,这个这个范式已经来了,然后你会发现这个你做的东西可能就没什么用了。
因为读PHD的话,你不知道你PHD毕业之后会发生什么事情,有可能毕业之后呃,这个这个范式已经来了,然后你会发现这个你做的东西可能就没什么用了。
如果你的你的目标函数就是进这个A这个AI LAB的话,那么你要先。
如果你的你的目标函数就是进这个A这个AI LAB的话,那么你要先。
弄清楚一点是,AI Lab 到底需要什么样的人。
弄清楚一点是,AI Lab 到底需要什么样的人。
如果他们更需要infra的人,那么你就多做一些infra的活,哪怕你没有PhD degree也没有关系。
如果他们更需要infra的人,那么你就多做一些infra的活,哪怕你没有PhD degree也没有关系。
因为更重要的是看你的这个经验,呃,能不能MATCH有没有用。
因为更重要的是看你的这个经验,呃,能不能MATCH有没有用。
所以现在你觉得AI LAB最需要什么样的人?
所以现在你觉得AI LAB最需要什么样的人?
我觉得还是INFRA,对INFRA是一个无底洞,就是呃RESEARCH的话,就是有RESEARCH直觉的就那些人。
我觉得还是INFRA,对INFRA是一个无底洞,就是呃RESEARCH的话,就是有RESEARCH直觉的就那些人。
因为。
因为。
你从ChatGPT出来之后,然后这个在这个行业里面干了,比如三年以上的人就屈指可数。
你从ChatGPT出来之后,然后这个在这个行业里面干了,比如三年以上的人就屈指可数。
然后,呃,当前的问题还是在于infra。
然后,呃,当前的问题还是在于infra。
你能不能scale up?
你能不能scale up?
你scale up有多少,就是单位时间内你能迭代多多少次。
你scale up有多少,就是单位时间内你能迭代多多少次。
然后这取决于了,就直接决定了你的这个这个生产效率。
然后这取决于了,就直接决定了你的这个这个生产效率。
那听起来不是对PHD特别友好的一个环境。
那听起来不是对PHD特别友好的一个环境。
现在是的,可能这个也牵扯到一个gap。
现在是的,可能这个也牵扯到一个gap。
我觉得这个你有,你我们俩都有很深的体会,就是因为RL的研究学术界。
我觉得这个你有,你我们俩都有很深的体会,就是因为RL的研究学术界。
就是对着ATARI MOJICO这几个TASK是OVERFIT,是的调过来调过去,就是比你我在100K的时候谁分数高。
就是对着ATARI MOJICO这几个TASK是OVERFIT,是的调过来调过去,就是比你我在100K的时候谁分数高。
关于 Bayt 播客
Bayt 提供中文+原文双语音频和字幕,帮助你打破语言障碍,轻松听懂全球优质播客。