GTC 2026：AI的下一个战场不是模型，而是「推理系统」| S10E04 | What's Next｜科技早知道中文双语解读

本集简介

2026年3月，英伟达年度开发者大会GTC在美国圣何塞开幕。这一年的GTC氛围与往年明显不同——黄仁勋不再需要向市场证明AI的价值，因为Agent的爆发和开源模型的崛起，已让算力需求成为行业共识，Token消耗量正以百倍速度增长。本期节目，Diane在GTC现场带来了第一手观察，并专访了推理优化初创公司Eigen AI的联合创始人。Eigen AI由三位MIT背景的创始人于2024年年中创立，专注于开源大模型的推理加速与企业定制化部署。此次GTC，他们的推理速度跑分直接登上黄仁勋主题演讲的大屏幕，成为当前推理速度最快的团队之一。节目中，我们深入探讨了为何推理层正成为AI行业最重要的竞争战场、GPU和LPU在推理过程中各自扮演的角色、英伟达斥资约200亿美元收购Groq背后的战略逻辑，以及当前AI应用的商业模式为何正面临系统性挑战。本期人物丁教 Diane，「声动活泼」联合创始人、「科技早知道」主播 Di Jin，Eigen AI 联合创始人主要话题 [00:11] 今年GTC最大的不同是什么？黄仁勋状态明显更放松，不再需要向市场“推销”AI的价值 Agent爆发导致Token消耗量指数级增长，算力需求已成为行业共识开源模型崛起打开了推理层的商业空间，这一层开始变得关键 [09:13] Eigen是一家什么样的公司，在做什么？三位MIT背景的创始人，专注模型压缩与推理加速通过Post Training为企业定制模型，Inference加速让模型跑得更快、更便宜 GTC开幕前两天完成技术突破，推理速度登上黄仁勋主题演讲大屏幕 [13:24] 过去一年AI行业最大的结构性变化是什么？模型训练层高度集中，GPU成本比人才成本贵10到100倍，中小公司基本出局 Reasoning（推理时扩展）成为新的性能提升路径，让固定模型通过增加算力输出更好结果 Agent工作流使Token消耗量远超对话场景，推理层的优化价值随之暴增 [23:34] 英伟达为何要花约200亿美元收购Groq？GPU和LPU各自擅长什么？ AI生成回答分两阶段：理解问题（Prefill）适合GPU并行处理，逐字生成答案（Decoding）适合LPU串行提速当前最快模型约每秒1000个Token，Agent场景未来可能需要每秒10000个，仅靠GPU难以跨越这道坎 GPU负责前端、LPU接手后端，两者组合是当前长序列推理的最优解 [34:04] 推理优化的技术路径有哪些，分几个层次？底层是CUDA算子优化，针对不同模型的矩阵计算特点做精细调整中间层包括量化（降低数字精度）、剪枝（删除冗余专家模块）、投机解码（小模型预测 + 大模型验证）最上层是调度与路由，核心是将请求分配到已存储对应KV Cache的GPU上，避免重复计算 [44:05] 推理优化如何在速度、精度和成本之间取舍？完全不掉精度、少量掉精度、需后训练恢复精度，三类方案对应不同客户需求对话场景最看重TTFT（首字响应时间），Agent场景更看重整体任务完成时间语音交互场景存在天花板：模型再快也超不过人能听懂的速度，快到一定程度就无意义了 [47:28] AI应用的商业模式为何正出现系统性问题？ SaaS订阅制是历史遗留：过去软件边际成本接近零，如今每次AI使用都在真实烧钱重度用户轻松“用穿”月度套餐，公司不得不限流，引发用户强烈反弹更合理的方向是按任务完成量收费，但用户心理锚点尚未迁移，行业仍处震荡期 [53:52] 开源模型能追上闭源模型吗？推理层未来最大的机会在哪？行业最大的非共识：开源模型到底能否真正追上闭源，以及AGI是否已到来推理层几乎只能服务开源模型，开源能力的拐点直接决定这一赛道的天花板一旦开源模型达到拐点，Token将如电力般渗透各行各业，推理层市场规模将彻底打开黄仁勋的「AI五层蛋糕」模型名词解释 LPU（Language Processing Unit） Groq公司研发的专用芯片，专为大语言模型的文字生成（Decoding）环节优化，通过将高带宽内存直接集成在芯片上，大幅提升逐字生成速度，但牺牲了通用性。 TPU（Tensor Processing Unit）谷歌为自身AI需求定制的芯片，性能强劲且价格相对便宜，但目前仅面向OpenAI、Anthropic等少数大型客户供货，缺乏开放的开发者生态。 Quantization（量化）降低模型内部数字精度以节省存储和计算量的技术。好比把精确到小数点后10位的数字改写成精确到2位——计算量大幅下降，但对最终输出影响有限。精度从高到低依次为FP32、BF16、INT8、INT4，越低效率越高，但掉点风险也越大。 Pruning（剪枝）识别并删除模型中冗余参数或模块的技术。以MoE架构为例，模型内部有大量从未被有效训练的“伪专家”，将其删除后模型精度几乎不受影响，但推理速度和效率显著提升。 Speculative Decoding（投机解码）先用小模型快速“草拟”若干Token，再让大模型批量验证并决定是否采纳的加速技术。当草稿被采纳的概率足够高时，整体推理速度可提升50%以上。 KV Cache（键值缓存） AI在生成回答过程中，将对前文的“理解结果”缓存起来，避免每次都重新读取和计算全部历史内容。合理调度KV Cache是Agent场景下降低延迟和成本的关键技术之一。 MoE（Mixture of Experts，专家混合架构）模型内部由多个“专家”子模块组成，每次推理只激活其中最匹配当前任务的少数几个。DeepSeek、Qwen等主流开源模型均采用此架构，可在维持大参数量的同时显著降低实际计算开销。 SLA（Service Level Agreement，服务水平协议）对服务质量的量化约定，例如“首字响应时间不超过300毫秒”或“每秒至少输出多少个Token”。推理层的大多数技术决策，都是围绕在成本约束下满足客户SLA要求展开的。 TTFT（Time to First Token，首字时延）从用户发出请求到收到第一个输出字符的时间间隔。对话类产品中这一指标最为关键，直接影响用户对系统响应速度的主观感受。「Knock Knock 世界」上周「Knock Knock 世界」更新了「数字收藏」话题：一段视频、一个表情为什么也能成为博物馆的收藏品？点击这里收听节目👉https://sourl.co/8F55vV 「Knock Knock 世界」是一档适合9岁以上青少年收听的播客，你可以听到全球新鲜事，还能成为「全球观察员」，报选题、参加选题会。2026年的节目正在持续更新中，可以在各大音频平台搜索订阅。幕后制作监制：Yaxian 后期：迪卡运营：George 设计：饭团商业合作声动活泼商业化小队，点击链接直达声动商务会客厅（https://sourl.cn/9h28kj），也可发送邮件至 business@shengfm.cn 联系我们。加入声动活泼声动活泼目前开放商务合作实习生、社群运营实习生和BD经理等职位，详情点击招聘入口关于声动活泼「用声音碰撞世界」，声动活泼致力于为人们提供源源不断的思考养料。我们还有这些播客：声动早咖啡、声东击西、吃喝玩乐了不起、反潮流俱乐部、泡腾VC、商业WHY酱、跳进兔子洞、不止金钱欢迎在即刻、微博等社交媒体上与我们互动，搜索“声动活泼”即可找到我们。期待你给我们写邮件，邮箱地址是：ting@sheng.fm 欢迎扫码添加声小音，在节目之外和我们保持联系。 Special Guest: Di Jin.

2026 年 3 月，英伟达年度开发者大会 GTC 在美国 San Jose 开幕。这一年的 GTC 气氛与往年明显不同——黄仁勋不再需要向市场证明 AI 的价值，因为 Agent 爆发和开源模型崛起已经让算力需求成为行业共识，Token 消耗量正在以百倍速度增长。本期节目，Diane 在 GTC 现场为大家带来了第一手的观察，也专访了推理优化初创公司 Eigen AI 的联合创始人。Eigen AI 由三位 MIT 背景的创始人于 2024 年中创立，主攻开源大模型的推理加速与企业定制化部署。这次 GTC，他们的推理速度跑分直接登上了黄仁勋 Keynote 的大屏幕，是当前推理速度最快的团队之一。节目里我们深入聊了为什么推理层正在成为 AI 行业最重要的竞争战场、GPU 和 LPU 各自在推理过程中扮演什么角色、英伟达斥资约 200 亿美元收购 Groq 背后的战略逻辑，以及当前 AI 应用的商业模式为何正在面临系统性挑战。本期人物丁教 Diane，「声动活泼」联合创始人、「科技早知道」主播 Di Jin，Co-founder at Eigen AI 主要话题 [00:11] 今年 GTC 最大的不同是什么？黄仁勋状态明显更放松，不再需要向市场"推销" AI 的价值 Agent 爆发让 Token 消耗量指数级增长，算力需求已成行业共识开源模型崛起打开了推理层的商业空间，这一层开始变得关键 [09:13] Eigen 是一家什么样的公司，在做什么？三位 MIT 背景创始人，专攻模型压缩与推理加速 Post Training 帮企业定制模型，Inference 加速让模型跑得更快更便宜 GTC 开幕前两天完成技术突破，推理速度登上黄仁勋 Keynote 大屏幕 [13:24] 过去一年 AI 行业最大的结构性变化是什么？模型训练层高度集中，GPU 成本比人才成本贵 10 到 100 倍，中小公司已基本出局 Reasoning（推理时扩展）成为新的性能提升路径，让固定模型通过多花算力输出更好结果 Agent 工作流让 Token 消耗量远超对话场景，推理层的优化价值随之暴增 [23:34] 英伟达为什么要花约 200 亿美元收购 Groq？GPU 和 LPU 各自擅长什么？ AI 生成回答分两阶段：读懂问题（Prefill）适合 GPU 并行处理，逐字生成答案（Decoding）适合 LPU 串行提速当前最快模型约每秒 1000 个 Token，Agent 场景未来可能需要每秒 10000 个，GPU 单独难以跨越这道坎 GPU 负责前段、LPU 接手后段，两者组合是目前长序列推理的最优解 [34:04] 推理优化的技术路径有哪些，分几个层次？底层是 CUDA 算子优化，针对不同模型的矩阵计算特点做精细调整中间层包括量化（降低数字精度）、剪枝（删除冗余专家模块）、投机解码（小模型预测 + 大模型验证）最上层是调度与路由，核心是把请求打到存有对应 KV Cache 的 GPU 上，避免重复计算 [44:05] 推理优化怎么在速度、精度和成本之间做取舍？完全不掉精度、少量掉精度、需要后训练恢复精度，三类方案对应不同客户需求对话场景最看重 TTFT（第一个字的响应时间），Agent 场景更看重整体任务完成时间语音交互场景存在天花板：模型再快也超不过人能听懂的速度，快到一定程度就没有意义了 [47:28] AI 应用的商业模式为什么正在出现系统性问题？ SaaS 订阅制是历史遗留：以前软件边际成本接近零，现在每用一次 AI 都在真实烧钱重度用户轻松"用穿"月度套餐，公司不得不限流，引发用户强烈反弹更合理的方向是按任务完成量收费，但用户心理锚点还没有完成迁移，行业仍在震荡期 [53:52] 开源模型能追上闭源模型吗？推理层未来最大的机会在哪？行业最大的非共识：开源模型到底能不能真正追上闭源，以及 AGI 算不算已经到来推理层几乎只能服务开源模型，开源能力的拐点直接决定这个赛道的天花板一旦开源模型达到拐点，Token 将像电力一样渗透各行各业，推理层的市场规模将彻底打开黄仁勋的「AI 五层蛋糕」模型名词解释 LPU（Language Processing Unit） Groq 公司研发的专用芯片，专为大语言模型的文字生成（Decoding）环节优化，通过把高带宽内存直接集成在芯片上，大幅提升了逐字生成的速度，但牺牲了通用性。 TPU（Tensor Processing Unit）谷歌专为自身 AI 需求定制的芯片，性能强劲且价格相对便宜，但目前仅面向 OpenAI、Anthropic 等少数大型客户供货，缺乏开放的开发者生态。 Quantization（量化）降低模型内部数字精度以节省存储和计算量的技术。好比把精确到小数点后 10 位的数字改写成精确到 2 位——计算量大幅下降，但对最终输出影响有限。精度从高到低依次为 FP32、BF16、INT8、INT4，越低效率越高，但掉点风险也越大。 Pruning（剪枝）识别并删除模型中冗余参数或模块的技术。以 MoE 架构为例，模型内部有大量从未被有效训练的"伪专家"，将其删除后模型精度几乎不受影响，但推理速度和效率显著提升。 Speculative Decoding（投机解码）先用小模型快速"草拟"若干 Token，再让大模型批量验证并决定是否采纳的加速技术。当草稿被采纳的概率足够高时，整体推理速度可提升 50% 以上。 KV Cache（键值缓存） AI 在生成回答过程中，将对前文的"理解结果"缓存起来，避免每次都重新读取和计算全部历史内容。合理调度 KV Cache 是 Agent 场景下降低延迟和成本的关键技术之一。 MoE（Mixture of Experts，专家混合架构）模型内部由多个"专家"子模块组成，每次推理只激活其中最匹配当前任务的少数几个。DeepSeek、Qwen 等主流开源模型均采用此架构，可在维持大参数量的同时显著降低实际计算开销。 SLA（Service Level Agreement，服务水平协议）对服务质量的量化约定，例如"首字响应时间不超过 300 毫秒"或"每秒至少输出多少个 Token"。推理层的大多数技术决策，都是围绕在成本约束下满足客户 SLA 要求来展开的。 TTFT（Time to First Token，首字时延）从用户发出请求到收到第一个输出字符的时间间隔。对话类产品中这一指标最为关键，直接影响用户对系统响应速度的主观感受。「Knock Knock 世界」上周「Knock Knock 世界」更新了「数字收藏」话题：一段视频、一个表情为什么也能成为博物馆的收藏品？点击这里收听节目👉https://sourl.co/8F55vV 「Knock Knock 世界」是一档适合9岁以上青少年收听的播客，你可以听到全球新鲜事，还能成为「全球观察员」，报选题、参加选题会。2026 年的节目正在持续更新中，可以在各大音频平台搜索订阅。幕后制作监制：Yaxian 后期：迪卡运营：George 设计：饭团商业合作声动活泼商业化小队，点击链接直达声动商务会客厅（https://sourl.cn/9h28kj ），也可发送邮件至 business@shengfm.cn 联系我们。加入声动活泼声动活泼目前开放商务合作实习生、社群运营实习生和 BD 经理等职位，详情点击招聘入口详情点击招聘入口关于声动活泼「用声音碰撞世界」，声动活泼致力于为人们提供源源不断的思考养料。我们还有这些播客：声动早咖啡、声东击西、吃喝玩乐了不起、反潮流俱乐部、泡腾 VC、商业WHY酱、跳进兔子洞、不止金钱欢迎在即刻、微博等社交媒体上与我们互动，搜索声动活泼即可找到我们。期待你给我们写邮件，邮箱地址是：ting@sheng.fm 欢迎扫码添加声小音，在节目之外和我们保持联系。 Special Guest: Di Jin.

双语字幕

仅展示文本字幕，不包含中文音频；想边听边看，请使用 Bayt 播客 App。

Speaker 0

用声音。

Speaker 1

碰撞世界。

Speaker 0

生动活泼。

Speaker 2

Welcome to the stage nvidia.

Speaker 0

founder and ceo.

Speaker 2

jensen wang hello 大家好，欢迎来到我们今天的科技早知道。

Speaker 2

那今天其实我是在英伟达2026G T C的现场，那今天是第一天开展。

Speaker 1

welcome to G T C。

Speaker 1

What an amazing year!

Speaker 0

在这期节目开始之前，我觉得我还是需要几分钟的时间，从我的这个视角帮助大家梳理一下这一次的 gtc 因为这次 gtc 它还是蛮有划时代意义的一年，我希望能够通过今天的这个节目，然后能给大家有一个结构化的的一个视角来看今年的 gtc.

Speaker 1

And i just want you to know that i'm up here without a net there are no scripts there's no teleprompter and i've got a lot of things to cover so let's get started.

Speaker 0

首先呢，从发布的产品来看啊，他们发布了 vr rubin 它是一个有七颗关键芯片组成的一个新型的这个架构。

Speaker 0

然后同时也有这个 vr rubin 加上 grok。

Speaker 0

这个 grok 是 groq 啊，不是 grok 是一家呃专门做 lpu 的一家这个芯片初创公司。

Speaker 0

然后去年英伟达以200亿美元的价格收购了他们，他们同时也发布了下一代的这个架构叫费曼，就是物理学家费曼的这个费曼。

Speaker 1

generation will be named after feynman.

Speaker 0

然后同时，大家也可以看到今年是这个库达的20周年。

Speaker 0

英伟达不仅只是它这个硬件做的稳，其中一个很大的原因就是它的生态，它的库达的这个生态。

Speaker 0

然后今年在媒体的问答会上面，这个老黄说了一句话：我其实记到现在，当时整个库达团队占了公司的成本的90%，收入是零。

Speaker 0

但是老黄就是这么有魄力的。

Speaker 0

持续的让公司再去开发库达。

Speaker 0

然后他也说了，如果当年没有做库达，就没有今天的英伟达。

Speaker 0

所以今年他们也是从呃这个角度，然后做了很多的不同行业他们的这个 library 代码库的这个更新。

Speaker 0

当然了，英伟达也发布了自己版本的小龙虾，呃，nemo claw 当然也有今年说的很多的，就是他们的自己的开源自动驾驶软件。

Speaker 1

叫做 alpamayo。

Speaker 1

the alpamayo ecosystem also includes the nvidia physical ai dataset.

Speaker 0

抛开所有的这些发布的硬件啊、软件啊，这些产品不说，我感受最深的就还是整个老黄他自己的状态跟前两年完全不一样，因为我已经连续了三年参加了 gtc 了。

Speaker 1

let's finish it up we have another announcement you're good you're good just stand right here stand right here.

Speaker 0

那今年其实是，我觉得他是最放松的一年。

Speaker 0

不管是台上的他的表现啊，然后到跟我们的媒体的这个 qa 的环节，表现在方方面面。

Speaker 0

像去年他其实还是需要在不断的向世界，特别是这个二级市场的这些分析师啊，要去证明 ai 的 roi，他要去 pitch ai，但今年他完全不需要了。

Speaker 0

包括去年他其实在这个媒体访谈的时候，他只开放了给这些白名单的公司才能问他问题啊。

Speaker 0

今年其实是我看现场大概能够有100多家吧，然后全世界各地的媒体，然后向他问问题，他都是非常的笑容满面，还跟大家开玩笑啊，气氛非常的轻松。

Speaker 0

今年其实就是已经成为了行业共识了。

Speaker 0

Ai 它并不是一个需要再去证明的东西，这个是我今年最大的感受。

Speaker 0

那大家可能有的会问这个为什么？

Speaker 0

其实就是 agent 爆发这一个事情带来的。

Speaker 0

这么多的 agent 他们在推理，然后他们在带来的这些 token 的大量的消耗，其实就是老黄的这个信心的底气的这个来源。

Speaker 1

the amount of computation we need.

Speaker 1

At this point, as a result of agentic AI, as a result of reasoning, is easily a hundred times more than we thought we needed this time last year.

Speaker 1

And let's reason about why that's true:.

Speaker 2

tokens decode the laws of physics.

Speaker 1

TO GET US THERE FASTER.

Speaker 0

对大家其实应该也注意到了。

Speaker 0

整个在这个它的 KEYNOTE 的一开场，其实是有一个非常唯美的、一个特别激动人心的 TOKEN。

Speaker 0

怎么像是这种电呀、水呀，已经渗透在了我们人类生活的方方面面的这样的一个短片？

Speaker 0

我自己其实是有一点点被感动到的。

Speaker 0

所以AGENT它的爆发给行业带来的这个启发是什么呢？

Speaker 0

那就是如果AGENT要被大量的、大规模的使用的话，那这些TOKEN是谁来优化的？

Speaker 0

那以往其实这些在闭源的AI公司里面，像是OPENAI、ANTHROPIC，就是他们自己在去主导的。

Speaker 0

呃，你只能用他们的API，你没有办法去决定模型是怎么运行的，他给你直接就就就处理好了。

Speaker 0

但是在开源的这个模型下面，你可以做非常多的优化、资源调度等等等等。

Speaker 0

那这个其实就是打开了一层全新的商业新的空间。

Speaker 0

对，如何让一个模型在同样的 gpu 上面跑得更快，然后更加准确、更稳定，这个同时能够支持多并发的这些需求，这个就是今年最重要的东西。

Speaker 1

Tokens don't just teach robots how to move but to bring joy.

Speaker 0

所以总结一下的话，其实就是 agent 让 ai 真正的被大量的用起来，那开源让 ai 可以被真实的优化。

Speaker 0

然后推理这一层呢，就是让 ai 可以更好的去被调度、商业化和规模化。

Speaker 0

这三个事情其实都是连在一起发生的。

Speaker 0

这也是为什么今年在老黄的 keynote 上面，他们会把 croc。

Speaker 0

这样LPU的一个解决的这个方案，放进了自己的整体的解决方案体系里面。

Speaker 0

那很多人会觉得LPU是一个非常激进的路线，看起来跟英伟达传统的GPU思路完全不一样。

Speaker 0

对，说到这儿可能大家也对GPU、LPU，甚至是谷歌自己的TPU这几个概念有一点不知所云。

Speaker 0

那我就很通俗的跟大家讲一下。

Speaker 0

如果要类比的话，可能GPU更加像是一个中央厨房，什么都能做。

Speaker 0

那TPU就像是这个自家定制的厨房啊，就是为为自己他们的这些呃需求来定制的。

Speaker 0

那LPU它是一条更加极致的、很快的这种流水线，就就是快。

Speaker 0

嗯，它可能也会牺牲一些其他的东西。

Speaker 0

这个他们并不是说是这个谁更好谁更坏，他们只是为了不同的目标而进行优化。

Speaker 0

那LPU就是。

Speaker 0

英伟达下一步优化的一个重要的方向。

Speaker 1

Thank you i love you too thank you.

Speaker 0

所以在这个新的范式下面，因为以前其实就是底层的这个英伟达这样的呃公司，然后再加上闭源的 ai 公司。

Speaker 0

那这样的范式变化了之后，其实中间核心的这一层就变得非常的重要。

Speaker 0

那在这次的 gtc 我们也采访到了一家推理层的公司，然后它名字叫做。

Speaker 0

AGEN EIGEN，这次的GTC上面他们也出现在了黄仁勋KEYNOTE的大屏幕上面。

Speaker 0

他们是现在推理速度跑得最快的团队之一，所以我们就想今天借着这个采访跟大家真正地聊一聊推理这一层现在正在发生什么。

Speaker 0

因为后面其实这个采访还是有挺多的专业的术语的，就非专业的朋友其实也不用说是被吓到啊。

Speaker 0

如果跟大家一个大方向去听这一期的话，就是。

Speaker 0

在不同的这个层面上面，现在的这个推理公司是怎么样去做不同的优化，不同的调参，不同的这个调配的，我没有听明白也没有问题。

Speaker 0

好了，那下面就是我们今天的节目。

Speaker 1

在节目的开始，推荐一则最近的新鲜事给你。

Speaker 1

你有没有想过，我们的数字信息，比如邮件、网页，会在某一天变成文物？

Speaker 1

上个月，一家名为V&A的伦敦博物馆收藏了一条发布于20年前18秒的YouTube视频。

Speaker 1

而收藏这段视频，花费了他们整整一年半的时间。

Speaker 1

他们不仅要找到20年前的代码，还得要把运行这段代码的视频播放界面一点点地重建起来。

Speaker 1

那除了视频，这家博物馆还收藏过我们每天都在用的微信、一个文字的表情符号等等。

Speaker 1

那这些东西为什么能成为博物馆的正式展品？

Speaker 1

在不断更新的数字时代，今天的数字世界会在未来消失吗？

Speaker 1

这个话题来自于我们的播客 KNOCK KNOCK 世界。

Speaker 1

如果你感兴趣，可以在单机简介中看到我们这期节目的链接。

Speaker 2

能大概帮我们这个介绍一下这个Egan这个词是什么意思？

Speaker 2

然后你们是什么样的一个背景的公司？

Speaker 1

呃我们是成立于去年的大概五六月份。

Speaker 1

嗯呃Egan这个名字的话是主要是数学的里面的一个名词叫Egan Value或者是Egan Vector啊我们要取一个矩阵里面的最有意义的那些Value跟Vector来代表整个矩阵。

Speaker 1

那么这个就对应于我们做这个Optimization的时候其实大部分时候都是在挑选整个模型里面最精华的部分。

Speaker 1

然后把那些冗余部分去掉，这样的话才能够去加速。

Speaker 1

然后另外一层意思的话，就是它是在德语里面的发言出来一个词，然后它的原意的话就叫做ON，也就是我们的ENTERPRISE USER的话，它能够ON这个模型或者是ON整个INFRA，能够控制啊它的系统里面的每一个部分。

Speaker 1

那么我们就是提供这样一个服务给他们，提供这样一个INFRA给他们，这样的话他们可以完全掌控自己的服务。

Speaker 1

第3个意思的话其实就是你会发现就是 AGENT 的话刚好是 efficient gen 就是 efficient generative 所以这样3层含义的话就让它非常的完美。

Speaker 2

比比 NVIDIA 这个名字要，哈哈哈。

Speaker 1

大家都不知道是什么意思。

Speaker 1

对对对，NVIDIA 的话也挺难念的，说实话。

Speaker 2

对，所以你们4个 co-founder 是吧？

Speaker 2

联合创始人，然后你们都是这个同学，原来在 MIT.

Speaker 1

是3个 co-founder 3个 co-founder 哦，说错了。

Speaker 1

对，其中有一个人呢，后来成为 advisor 了。

Speaker 1

我们三个人的话，现在都是 mit 出身的。

Speaker 1

我们 ceo ryan 还有另外一个合伙人韦晨的话是韩韩老师组的，就是韩松组的。

Speaker 1

然后我的话也是在 csl 毕业，校园期间18年的样子认识了 ryan。

Speaker 1

后来他毕业之后第一时间找到了我，然后跟我一起商量做什么。

Speaker 1

一开始的时候甚至还在讨论做一个 agent 的公司。

Speaker 2

在这个是什么时候？

Speaker 1

是去年。

Speaker 1

这个其实是24年年底，因为那个时候我觉得 agent 肯定是一个爆发的。

Speaker 2

那时候刚刚 menas 都还没有 release 他们的。

Speaker 1

没有没有没有。

Speaker 1

对，menas 的话应该是25年的23月份样子，对，所以还是比较早的。

Speaker 1

但后来的话就发现，在A线方面的话，只是说有一些经验，但并不是最强的EXPERTISE。

Speaker 1

后来就感觉还是做自己最擅长的事情会比较好一点，所以就还是回到了我们这个老本行，就是我是做POST TRAINING啊。

Speaker 1

现在这个I杠AI的话，也是继续负责POST TRAINING部分，然后用R遥去啊帮助CUSTOMER来去定制一些模型，然后在它这个DOMAIN里面的话，表现的比啊BAN模型要更好一些。

Speaker 1

Run 一个维程的话，他们就比较擅长的是 inference 的加速，所以他们会去负责，嗯，啊，把这个模型变得越来越快、便宜。

Speaker 2

这一次的 gtc 跟你预想的一样吗？

Speaker 2

你们有没有很意外，然后会被放在大屏幕上。

Speaker 2

给大家展示。

Speaker 1

对，这里其实有个插曲吧，就是啊上周六的时候，gdc 有一个就是负责 startup 或者说这个 keynote 这个人，啊，联系到我。

Speaker 1

公关。

Speaker 2

是吧？

Speaker 2

对。

Speaker 1

然后连下来我们说就是他发现我们的那个当时那个排名并没有在前面，但是已经超过100呃TOKENS每秒。

Speaker 1

所以想看看我们要不要用就是NVIDIA提供的一个一个开源的库来帮我们加速一下。

Speaker 1

他那个榜里面是这样的，他是三天的AGGREGATION，就是AVERAGE一下。

Speaker 1

然后但是有一个TAB里面显示是当天的，然后我们给他展示一下当天那个我们那个分数的话已经超过了TOGETHER，就成为第一了。

Speaker 1

然后他才知道哦，原来你们已经会了，而且做的比他改的更好一点。

Speaker 2

这个是专门他周一做的这个演讲，他们周六跟你们联系，你们试用了之后，他们马上就把这个结果给放在了大屏幕上。

Speaker 1

实际上我们是呃上周二的时候就已经把这个东西已经做出来了，然后放上去之后，它需要一点点的这个AGGREGATE才能够把那个最终的这个速度给大家实现出来。

Speaker 1

嗯，所以。

Speaker 1

呃，也就相当于在我们没有知道他这个东西的情况下的话，就已经把它做出来了。

Speaker 1

嗯，对，所以他就觉得这个 ok 呃，没有用我们的东西，你们已经搞出来了。

Speaker 2

说明因为你们用他们的新的东西可能会速度还会更快。

Speaker 1

对对对，所以，因为 kindle 这种东西是要提前截稿的，一般是周五的时候就要截了。

Speaker 1

对，所以他当时已经很难去帮我们再改掉了。

Speaker 1

但是周一的时候，在我们在看那个直播的时候，突然发现，哎，把最新的东西给它放进去了。

Speaker 2

没想到 nvidia 的这个，哈哈哈，d tc 团队这么。

Speaker 1

对，就是周六的时候还在那个工作。

Speaker 1

而且对这么卷，就是他估计是在周天的时候把它改掉了。

Speaker 2

我想可能从这个整个行业的趋势来说的话，你们在过去的可能这一年里面，你刚刚说反正是agent快速爆发的这个一年嘛，然后你们看到最大的这个呃不一样的这个变化是什么？

Speaker 2

就是以前可能大家都是在训练层，然后今年可能是就是在推理和这个加速层了。

Speaker 1

哦，我觉得是因为两点变化吧。

Speaker 1

第二点，第一点的话就是所有的公司。

Speaker 1

能做POC的，并且做得好的公司是越来越少了，基本上会集中在头部几家了。

Speaker 1

以前的话，你会发现二三年、二四年就是百花齐放，嗯，有的STARTUP有很多说自己做什么模型，嗯，然后中场的话也说自己做什么模型，比如说DATA BREAKS当时就收了一家公司，然后专门去做这个他自己的模型。

Speaker 1

嗯啊，但是你到了二五年、到了二六年，他们的声音都已经不见了。

Speaker 1

就不再说自己做什么什么模型，然后只有什么头部的大厂，像啊御三家，然后再加上META、MICROSOFT、AM总这些稍微比较有雄厚资本的还在继续做以外，基本基本上其他的很少能看到的。

Speaker 1

这是一个比较非常明显的变化。

Speaker 2

因为人才都已经被聚集了、集中了。

Speaker 2

呃。

Speaker 1

是这样能这样，我觉得人都是占。

Speaker 1

small fraction 主要是 gpu 如果你要做一个特别 comprehensive 或者 general 一个比较好的模型，基本上你耗费的 gpu 的资源的话，是所有中场 startup 已经玩不起的了。

Speaker 1

对 gpu 的成本其实比人才的成本还还要贵，起码贵10到100倍之间的呀。

Speaker 1

因为我们现在所有模型的话都是需要，然后就是上10万张卡。

Speaker 1

那这个量级的话其实比。

Speaker 1

一整个团队都要贵，会很多。

Speaker 1

第二点的话就是我觉得还是受益于这个REASONING，或者说THINKING MODE，然后导致这个你可以把TEST TIME的一个它的一个PERFORMANCE通过无限的延长它的REASONING，能够把它的PERFORMANCE提得越来越高。

Speaker 1

这个是现在能够实现的。

Speaker 1

那也就是说你在一个固定MODEL的情况下的话，可以通过玩。

Speaker 1

各种 test time kind of scaling，或者是加一些 harness，然后让它的 performance 的话比它原先的 model 表现的要更好。

Speaker 1

那对比一下就是，如果你单纯用 cloud 去做一件事情，你会发现你能做的事情是非常有限的。

Speaker 1

但如果你给他加一个很好的环境，嗯，一个 harness，嗯，你就可以让他去做成 call code，或者是 cloud cowork。

Speaker 1

那这些的话是能够真正的去给你带来生产力的提升，或者是完成一件事情的。

Speaker 2

我翻译一下，就可能就是从底层技术来说的话，就是 scaling law 已经越来越，它的 roi 没那么高了，然后可能在产品层面上面，你可能做更多的一个优化，因为现在大家都是正经的不是研究机构了，是正经我们要有收入，然后有客户的，所以我们在成本上面能够更加好的考量，就是怎么样做你刚刚讲的这个 harness 更好的产品，来给客户来用。

Speaker 1

这个所谓的 harness 的话，就相当于我根据客户的这个 use case 来去给他。

Speaker 1

加各种的环境，加各种的限制，避免模型里面一些不太好的地方，然后发挥它的长处，真的变成一个产品。

Speaker 1

嗯，对，然后在这个过程的话，你会发现就是你要做一件一件事情的话，它的TOKEN的消耗量比以前要多很多，比单纯的这种CONVERSATION CHATBOT要高至少一个数量级，甚至两个数量级。

Speaker 1

嗯，对，所以这个为什么现在。

Speaker 1

所有的大厂，嗯，包括像CLUB，然后然后AI他们的话都会非常缺算力，因为这方面的应用越来越多了。

Speaker 2

嗯嗯，所以我今年其实最大的一个观察是我感觉黄仁勋他第一次他不用说是在台上PITCH的非常的狠，说这个AI就是未来，AI一定能给你这个，他不用再讲ROI了。

Speaker 1

嗯，不要穿因为市场已经告诉大家。

Speaker 2

对，市场已经告诉大家了，而且这个AGENT大家都知道，不管是你的这个输入和输出，它TOKEN都是指数级的增加，嗯，对对对，所以你您今年最大的这个这个观察和这个。

Speaker 2

嗯，从 gtc 本身的 keynote 和这几天的这个会的观察是什么？

Speaker 1

我确实注意到了黄仁勋用了花了上10分钟时间，专门去介绍一张图。

Speaker 1

嗯，比如说 hopper 的这个曲线是怎么样子的，然后再往上是 blackwell 再是 by robin。

Speaker 1

嗯，然后每一条曲线的话都对应的是你用了更新的 gpu 的话，就可以让更多的人成为 free man。

Speaker 1

嗯，就是他可以免费用这个服务，但是你完全不用考虑这个 cost 了，你就可以只对那些最高尖端那些 professional user 的话，再去收费。

Speaker 1

这样的话能让你的这个 product 的 go to market 也非常好做。

Speaker 1

对对，但这个必须使用到最新的 gpu。

Speaker 1

对，这个是非常这个 appeal 你的，说实话。

Speaker 1

但是要实现这一点的话，我说实话。

Speaker 1

如果没有很好的 infrastructure 也就是那些 software layer。

Speaker 2

对，就是你们在做的这一层。

Speaker 1

对。

Speaker 1

就是我们经常会讨论一个问题，就是，我同样一个 traffic 一个 sla request request from the customer.

Speaker 1

我到底是用 h 200还是用 b 200？

Speaker 1

然后你要在每一个 gpu 上面的话做最好的配置，然后再去比较哪一个 gpu 的话，它的 cost effective 会更高一点。

Speaker 1

然后你会发现如果有些 setting 没有做好的话，其实 blackwell 它的 cost values 没有更好。

Speaker 1

对，所以必须得拥有比较好的 system level 的这种 software 才能，这个 blackwell 才能发挥它的作用。

Speaker 2

对，因为他今天那张图嘛，他就是他分了四层，好像是，然后免费，然后是 low 然后是 medium，high 和 premium，premium。

Speaker 2

对对对，然后分着几层。

Speaker 2

然后其实就跟这个，我不知道，可能市场成熟度相关吧，你可能这个慢慢的怎么样能够就变成了一个产品，它并不是这个单位里面这个耗电量，然后我们产出的 TOKEN 或它的这个价值。

Speaker 2

它是怎么样这个不同的这计算出来的，我觉得我们可能从去之前我们这个 TOKEN 的单位价值，我们想在企业里怎么最后换算成企业的 ROI 嗯，然后现在把它更加量化了，更加细致的这个分布。

Speaker 2

你看一个客户过来给你们的诉求，然后他怎么样能够真正把这个钱赚回来。

Speaker 2

对。

Speaker 2

其实在昨天的那个，他跟好几个 open source model 的那个 CEO 一块也在聊嘛，对。

Speaker 2

然后他其中举的一个例子就是，比如说是这个，从这个小龙虾这个 agent 来看的话。

Speaker 2

比如要烧那50刀的这个 TOKEN 嗯，他就得做出比如说是这个51块钱的这个营收，然后你才能 make sense 你烧这么多钱，是吧？

Speaker 2

对要不然反过来其实大家已经现在就是就算的还是蛮清楚的了然后所以中间很重要的这层就是你们正在做的这个工作怎么样去给大家调度好然后你们在这一层上面是现在是怎么做的因为这个竞争对手也蛮多的像TOGETHER AI SENSE然后包括英伟达的亲儿子CALL ME这些呃也也是一个VERY WELL FOUNDED的这个公司。

Speaker 1

嗯对我可以把这个行业的分布可以稍微再讲一下就是比如说CALL WAVE这一层的话是属于纯机房层嗯他们比较擅长的就是两点第一个是跟老黄搞好关系拿卡。

Speaker 1

那么第二点的话是在市场上去融资，融完资之后的话就开始造机房。

Speaker 1

所以它是属于最底层的这个机房层，然后他在去年的年末的样子，然后又买了一家公司叫VISA的BIAS。

Speaker 1

应该他给的对象的话就是要帮他去做这个上面的SERVER这一层。

Speaker 1

但是有一点就是VISA的BIAS这个出身的话就是纯做这个SAAS TOOL的，做OBSERVABILITY。

Speaker 1

他并没有做过任何的做，比如模型的加速这种东西。

Speaker 1

所以你会发现在 ai 榜单上的话，v s and bias 那个分数一直都非常难看。

Speaker 1

然后在整个行业里面的话，比较厉害的还是 together ai 嗯，原因的话就是比如说 cto 的话，张策比也是学校出身的这个 professor 然后他的 chief scientist 啊，吹道的话是写 flash attention 的老大哥。

Speaker 1

所以这个实力的话是在摆在那里摆着，然后因为有这些人在，所以他就要有吸引非常多的这种Talent。

Speaker 1

这为什么我们在每一次打榜单的时候啊，只要有Together在就会变得难一点，然后Five Words的话是在啊Together之后的一个，但是技术还可以对，然后最近出来的像Clarify的话也还不错，然后其他的像。

Speaker 1

就是内行上一看就知道，这个这个模型到。

Speaker 2

这个对于你们来说都不是竞争对手。

Speaker 1

对都不是竞争对手。

Speaker 1

就是从技术上来看的话，就是大概就这么几家是我们觉得还是有点水平的。

Speaker 1

对，那么这种话情况下你会发现，就是实际上你要面对竞争对手也就那么几个，包括像 GOOGLE 的 TEST 的话，呃，我们其实有跟他们有个单子，就是给他们提供某一些模型，然后他们想打到第一的话，嗯，我们就把我们可以打到第一的那个 DOCK 给他们。

Speaker 2

这个怎么解释？

Speaker 2

这个不是技术的人的话。

Speaker 1

比如说GOOGLE和TAS项目，他们也有一个在AI上面的榜单。

Speaker 1

然后呢，他们比如说在某些模型上面的话还没有达到第一，那这个时候的话，我们就把我们的这个技术授权给他，然后这样的话他就拿到我们的技术可以达到第一名去。

Speaker 1

嗯，对，但是他们要的是比如说是像LLAMA这种模型，可能是因为他们跟那个META有一些合作吧，所以想要去。

Speaker 1

PROMOTE拉马的一些模型，所以要在这些模型上面的话要拿到第一名。

Speaker 1

所以我们当时就给他做了这些东西，所以就是说相当于啊整个行业里面的话，其实人才分布是比较重要一点的。

Speaker 1

就是大公司的话，虽然你看起来它的体量很大，然后理所当然的它应该技术是最好的，但实际上还是看这个。

Speaker 1

公司有没有把足够的资源放上去？

Speaker 1

嗯，然后招足够好的人，把足够好的人去放在那个地方。

Speaker 1

但如果不是它的一个核心的话，比方说 google 的核心其实在于毕业模型、gemma 这些，那么他在这些 open source model 的这个嗯榜单上面的话，其实并没有花很多足够的人去做，所以并不代表他是最好的。

Speaker 1

完全是看这个 market 里面的 competitor 他花了足，是否足够的人才。

Speaker 1

对。

Speaker 2

我们刚刚讲了，其实先你得有足够的资金，有卡，你才有人。

Speaker 1

对，我觉得 influence 的话是一个比较特殊的，就是它不需要你那么多卡，对你也不需要去用卡，也不需要有那么多卡，但是纯粹看就是这个团队本身的一个 talent。

Speaker 1

如果对这个行业足够熟悉，然后并且很聪明。

Speaker 1

嗯，那比方说我们呃 influence，泰克利的话就是16岁就上清华的，他之前也不做这方向。

Speaker 1

嗯，大概就花了一两个月时间，就把你们所有的都搞明白了，都搞明白了，而且能够做创新。

Speaker 1

嗯，所以这个是比较重要的一点。

Speaker 2

那整个其实这个行业其实现在就是分三层，底层就是英伟达它所有的这些硬件，然后中间这种调度系统层就是你们在做的，然后在上面比如像是 OPEN AI、THROPPY，他们就是完全做产品的。

Speaker 2

嗯，对，如果可能对于这个呃整个技术不是特别了解的这个普通的听众来说的话，就把这三个分层得得先了解清楚。

Speaker 2

对，所以你们在这层就是。

Speaker 2

现在还是蛮缺的，就比如说是你看大家所有都人都在用老黄的GPU，那谁更快？

Speaker 2

怎么样去调度？

Speaker 2

那这块儿其实就是很多的技术的细节。

Speaker 2

所以我有个最最大的一个问题，就今年老黄他是把这个LPU，就是GROG给收购进来了，嗯，然后大概花了能够有两百亿美元。

Speaker 2

对，其实行业内部挺多人其实是有一些这个争议，为什么老黄要往这个方面去？

Speaker 2

去做优化，或者，然后我不知道从你们的这个角度来看的话，你觉得它是一个正常的方向呢？

Speaker 2

还是其实它就只是一个在消除自己的潜在竞争对手？

Speaker 1

哦，我觉得是一个非常 make sense 的吧。

Speaker 1

因为呃首先 grok 的话就是本身是非常适合做 decoding 的，因为他把所有的 ram 的话，就是最高带宽的 sram 全部放在了芯片上面去了，然后不是在旁边。

Speaker 1

那这样的话，它的带宽非常大。

Speaker 2

就它能够极致优化它的速度。

Speaker 1

对，这里面有一个比较重要的概念，就是做 decoding 的时候，实际上你是 auto regressive 的，然后你每次只 decode 下一个 token。

Speaker 1

嗯，所以就会导致，就无论你 batch 要多大。

Speaker 1

比如说你 batch 比如说上上千好了，但是你只要 predict 每一个 sequence 的话，只要 predict 下一个 token。

Speaker 1

那你实际上整个 batch 的话也只要 predict 比如说1000个 tokens。

Speaker 1

所以它的COMPUTATION实际上是非常少的，但是它比较需要的是把前面所有的KV CASH给搬过来。

Speaker 1

搬过来之后的话，一起去呃进来之后的话再算下一个。

Speaker 1

那KV CASH占到权重比较多一点，那也就是MEMORY占的比较多一点。

Speaker 1

所以它只需要把MEMORY做得很大，但是COMPUTATION就是并行计算那部分的话可以缩小，这样的话就能够优化这个DECODING这个部分的速度。

Speaker 1

那么这个时候的话你会发现就是。

Speaker 1

Gpu 它擅长的其实是 computation，也就是并行计算。

Speaker 1

它的 ram 的话是靠的hbm，也就是在周芯片周围的那那一圈的这个 hbm。

Speaker 1

然后它进到那个芯片里面去的话，是要走一个transfer 的，那个 transfer 的速度的话是个瓶颈。

Speaker 1

所以它是非常适合的是你把东西端搬进去之后，开始做并行计算。

Speaker 1

然后这部分越快越好。

Speaker 1

那 gpu 的话就最擅长的是把前面的 prefilling 给它做好。

Speaker 1

所以我们相当于是前面的历史部分的话，context 部分的话用的是 profile，放在 gpu 上面。

Speaker 1

这个是放 gpu 上面，然后真的要到 decoding 的时候的话，我就转到这个 lpu 上面，这样的话 decoding 会非常快。

Speaker 1

这两个组合的话，是一个目前做推理，尤其是长 sequence 推理的话，是一个最好的组合。

Speaker 1

所以我觉得老黄是把这点看准了，就是未来一定，因为你要不停的 scaling 这个 test time，然后 sequence 只会越来越长。

Speaker 1

那么这个时候的话，这个组合的话能够保证他的江湖地位。

Speaker 2

因为我我在也他的那个一个媒体的这个 Q&A session 的时候，其实这个是被大家问的最多的问题。

Speaker 2

老黄自己当时是在这个媒体会上是直接说，啊，我只是看他是一个新的生出来的这样增长的一个领域，啊，并没有把我的未来全都放在，压住在这个上面。

Speaker 2

呃，就没有说把它作为一个很大的策略在说，啊，就我们只是这一方面，我们只是把它 cover 到了这个需求。

Speaker 1

但有一种可能性是他当时的确没有想到 opencl 这些东西的诞生，然后也没有想到就是 agent 会进步的这么快。

Speaker 1

然后这个 token 消耗量的话一下子暴涨，这个东西是他有可能他当时在去年年底的时候也没有想到的。

Speaker 1

然后另外一方面的话，也有可能是他故意就是。

Speaker 1

故作轻松，然后不想不想告诉你全部。

Speaker 1

对对，但的确是OPEN CLOUD这种东西的诞生的话，会让很多人觉得就是TOKEN消耗量比以前真的不是一个量级的。

Speaker 1

嗯，对我们有个非常深刻体会，就是我们也拿OPEN CLOUD来去做一些自动化的部署。

Speaker 1

但是OPEN CLOUD最大的问题就是跑一晚上，基本上你会把所有TOKEN，就是所有的八节都给消消耗掉了。

Speaker 1

但是如果人用的话，可能要一个月都用不完。

Speaker 1

这样的话，就相当于如果真的要用到OPEN CALL这种自动化的意见来去不停地为我们去工作的话，那这个TOKEN的消耗量的话，会使人能够消耗量的一百倍都不止。

Speaker 1

所以这就是为什么，就是啊，老黄如果他要在未来的话继续占住这个他们的地位的话，就必须得把这个推理的成本要到更加低，对，这是一个未来的趋势。

Speaker 1

也许他在去年年底的时候已经看出来。

Speaker 2

看出来了。

Speaker 2

但对于你们来说，你们觉得这个完全是一个正确的一个策略方向。

Speaker 2

嗯，老黄呢？

Speaker 2

现在这样子一个GROK加上这个VIRAL RUBIN的这样的几个7个芯片在一块儿。

Speaker 1

嗯嗯，如果你看另外一个采访，就是DIMEY的那个嗯一些采访的话，你会发现他们也会明显的把EFFORTLESS的话都放在了推理上面了。

Speaker 1

他们明确讲的就是，比如现在的话，你会看到所有的模型嗯在榜单上面的话，大概就是几百个TOKEN。

Speaker 1

每秒，那么最快的是GPT6SS，嗯，可能达到900到1000，这已经是最快的了。

Speaker 1

但实际上到了未来的话，比如说一两年之内的话，嗯，他们认为必须得到比如说10K的TOKENS每秒才能够满足所有人对于A整的需求。

Speaker 1

那么这样的话就必须得涨至少10倍以上，所以必须得用这种LP这种新的东西。

Speaker 2

明白明白。

Speaker 2

现在 gpu 有点像分诊台了是吧？

Speaker 2

哈哈哈。

Speaker 2

然后再把它再去分到，比如说是可能你要看这边的专家的话，然后就是等于像是 lpu 你就你快速的就把它这个看完了。

Speaker 1

有点像是 gpu 负责的是前面的读取，读完之后再分给 lpu 再开始做 generation 所以因为 gpu 的话，它比较擅长是把前面所有东西快速的影。

Speaker 1

就是并行的读完，但是后面的这个单步的 sequential 的 decoding 的话，就是 lp 更更擅长一些。

Speaker 1

明白。

Speaker 2

那我们再说一下那个 tp，有比如说 google 的这个，嗯，就大家其实最近也在讨论的蛮多的。

Speaker 2

嗯，所以从你们的这个角度看，它未来可能会是一个潜在的对英伟达的生态系统的一个很强有力的竞争对手吗？

Speaker 1

会是会是。

Speaker 1

呃，实际上 grok 的 founder 的话就是从。

Speaker 1

Tpu 出来的，对。

Speaker 1

但是有个问题就是，有生态的问题，就是 tpu 到现在为止都只卖给大的弊端。

Speaker 2

必须。

Speaker 2

它没有什么生态是吧？

Speaker 1

它没有任何的生态，就是只能是定向的，比如说给。

Speaker 1

anthropic，然后提供这些，然后 anthropic 的话，内部人会了之后的话，他就能去使用。

Speaker 1

但是啊，你放在其他公司的话。

Speaker 2

没有人会。

Speaker 2

就今年是 google 的20周年是吧？

Speaker 2

黄仁勋也在发布会上说了很多，他们更新了很多不同的细分领域的 library，这个图书馆。

Speaker 2

老黄在说了一句话，我觉得其实对于这个所有的 founder 还是触动蛮大的。

Speaker 2

就他们当时在做库达的时候，其实库达对他们来说是零收入，但他们占用他们90%的这个成本。

Speaker 2

嗯，我觉得一般的 founder 你能做出这样子的一个很有魄力的决策还是挺难的。

展开剩余字幕（还有 302 条）

Speaker 2

就是刚刚又回到了我们这个这个聊 tpu 这块，就你如果没有生态系统的话，你没有把这一步做出来，你可能在推广上面还是挺难的，让大家都把你用起来。

Speaker 1

嗯，对，是的，这个都需要时间。

Speaker 1

但是至少 TPU 能让一些大户人家先用起来。

Speaker 1

大户人家，对，像 OpenAI 跟 Anthropic，然后他们先用的话，那个量也挺大的。

Speaker 1

这也是一条策略，说实话，因为现在闭眼模型还是势头比较猛的，他们长得比较快，然后他们消耗量也相对来说是大很多的。

Speaker 1

那么只要他们能持续的去用这个，就是越来越多的这种大户人家用 TPU 的话，那这部分收入也是一个非常可观的收入。

Speaker 2

哎，所以如果从速度或者是这个调频来说，可能是TPU还是为他们这种，比如说是还是Taylor的比较多，这个专门量身定做的比较多。

Speaker 2

所以他们的速度还是会比较快。

Speaker 1

他们的速度其实跟VeryRubbing相比就还是至少这一代应该没有优势了。

Speaker 1

OK，对跟Blackwell是B200是持平的，跟B300还是有差距。

Speaker 1

所以并不是说它有特别大的领先优势，但毕竟还是更便宜。

Speaker 1

对，他们价格是至少1/2的样子。

Speaker 2

对，因为我我也做了一下功课，我觉得如果可能对行业外的这个听众朋友们来讲的话，就把这个 gpu、tpu 和 lpu 我们要做个很通俗易懂的这个比喻来说啊，你可以纠正我。

Speaker 2

gpu 有点像是这个非常全能的中央厨房，然后你可以做很多现炒，你接受什么样的菜单都可以，它的生态非常的这个完善，然后什么佐料，什么这个材料都有。

Speaker 2

tpu 就 google 的这个，它可能更加像是专门为这种大户人家，然后量身定做的，他们的需求啊什么都跑得非常的顺。

Speaker 2

就比如说打个不恰当的比喻，就有点像是可能呃西贝的这个预制菜和他们的这个门店，其实整个流程会非常的这个流流畅，非常的顺。

Speaker 2

你什么是在这个厨房工厂里面做好的，然后你在门店里面怎么样炒更快一点，这是非常的这个流畅。

Speaker 2

但可能如果到了 lpu，它有点像是是麦当劳了，然后基本上全部都是预预制菜，然后速冻的，你到现场你直接加工就非常快。

Speaker 1

确实，嗯，lpu 最擅长就是把这个。

Speaker 1

Sequence 做的比较快一点。

Speaker 1

嗯，然后啊，gpu 就相当于是一个非常大型的工厂，然后线路的话都是并行的去处理的，这样的话能够一次性把所有的 input 都给处理完。

Speaker 2

对，就是更加全能。

Speaker 2

但是可能对于不同细分领域的，比如说是可能，像是 agent 啊，像是这个 cla 啊，然后大家就不一定它是最优解。

Speaker 2

嗯嗯，那我们刚刚讲到，你刚刚讲有一些是大厂啊，然后一些中厂，一些小厂，然后现在大家的这个推理的这些速度啊什么，他们其实是从。

Speaker 2

哪一个角度优化的，然后作为他们的这个可能呃自己的这些 edge 刚讲可能有一些用的像是 tpu，然后有一些是大家就是用英伟达的这个 gpu，然后还是像中间 layer，比如像用你们的 together ai 或者是 fireworks 都是一个动态参数。

Speaker 1

是吗？

Speaker 1

实际上所有的优化都是基于一定的硬件来展开的，比如说现在 h 用的比较多一点，那么在 h 上面。

Speaker 1

搭建起来的这个INFLUENCE的这些嗯，所有的SYSTEM的话是相对来说最健全的。

Speaker 1

B的话是大概就大户人家的话可能一年前就已经有了，但实际上在这个中小厂里面的话可能就是半年前才慢慢开始有的。

Speaker 1

这个时候才慢慢的才能够有一些这种相对应的这个SYSTEM出来。

Speaker 1

也就是说这个GPU底层的话会决定上层，嗯，所以先要拿到这些GPU，然后不停的做实验，然后才能够说OK。

Speaker 1

在这方面的话，能够做的慢慢的比H200上面的话真的要高出两倍以上。

Speaker 1

因为两倍的话是一个价格差距，嗯，40要必须在两倍以上的话才能够justify。

Speaker 1

你为什么要用B？

Speaker 1

然后我们的话就是要基本上技术迭代的话要分三个layer吧，最底层的话是扩大层的，扩大层的话是需要去写那些呃算子，比如说kernel那些东西。

Speaker 1

最多的算子的话当然就是就是matrix与matrix之间相乘，那个也是。

Speaker 1

最耗计算量的地方，然后也就是GEMM。

Speaker 1

因为不同的模型的话，它的这个GEMM费用有点不一样，所以你要根据不同的模型的这个算子来去稍微调制一下，才能够把它的效能是提到最大。

Speaker 1

所以这个是最底层的扩大层，然后在中间层的话，就是一些跟模型的这些呃EFFICIENCY相关的东西，比方说它有没有用LINEAR LAYER或者LINEAR ATTENTION，这个是在AKIMI。

Speaker 1

跟 deepseek 用的比较早一点，然后就是 sparsity，然后也是 deepseek 做的比较多一点。

Speaker 1

然后后来的话就 gm5的话就完全 adopt 了。

Speaker 1

这些东西的话都能够提升性能，然后但是你要把它的 influence 做到更好的话，也需要调里面的非常多细节。

Speaker 1

再往上一点点的话，就是也是 deepseek 提出来的，就是用那个 speculative decoding。

Speaker 1

也不算 deepseek，就是一开始的话就是 research 里面也有很多人提出来了，但是没有真正的用在大模型里面。

Speaker 1

然后 speculative decoding 的话有点像是你用一个小的模型去提前生成一个 sequence。

Speaker 1

因为它模型更小，所以更快一点。

Speaker 1

然后呢，在大的那个模型的话，就能够去看它生成的那些DRAFT选择是否是接受。

Speaker 1

如果直接接受的话，那就自己不用算了。

Speaker 1

对，这样的话就可以让这个大的模型DECORATE得更快一点。

Speaker 1

对，这个东西也是非常能够对那个SUPPORT提高非常非常快，因为只要你的SUSPENSE RATE在2.3以上的话，那你的提升的话基本上有50%以上了。

Speaker 1

那么这一层的话也比较多，涉及到就是你要做一个 customization，就是所有的 draft model 是要 train 出来的。

Speaker 1

那么 train training 这个过程的话，就需要你对这个呃这个模型的 training corpus 有一个比较好的掌握。

Speaker 2

所以我看你们也在做这个模模型的 training.

Speaker 1

对，有很多做模型的 training，对。

Speaker 1

但还有一些技术的话，就是也是在中间，就是比如说 quantization，然后包括 pruning 这样东西。

Speaker 1

那这个是韩松老师在。

Speaker 1

2014年就提出来的，嗯，一开始在CNN上面提出来。

Speaker 1

后来的话，在18年、19年，就是韩松进到MIT之后的话，就把这个东西用在了TRANSFORMER里。

Speaker 1

所以然后这个东西一直到现在为止都还是行业的前沿，就是包括像BLACKWELL最擅长的地方的话，就是做IP4、NBI P4。

Speaker 1

那如果你要把NVIP4真的用上的话，就得把整个模型至少某一部分给它框态成一个IP4的格式，并且保证它不是不掉点。

Speaker 1

那这个过程也不是那么的TRIVIAL，对？

Speaker 1

然后很多厂家其实还在推出的是BF16，然后有一些的话推出的是原生的IP8，但是能够做到原生的IP4，并且完全不掉点的话。

Speaker 1

非常少，我目前能看到的就是deep c做的比较好，然后open x做的好。

Speaker 1

然后更加往上了一层的话，最最上面一层的话就是各种调度，也就是routing。

Speaker 1

那这里面的话就涉及到就是kv cash跟kv cash a will routing，因为绝大多数的agent的这种task的话，它的cash非常重，因为你的前面的context有很多都重复的，对你得把它review下来才能够提高这个速度，以及比较降低成本。

Speaker 1

那么这个时候的话，就必须得把我之前存的这个相对应的KV开始的GPU给它找到，并且打到那个地方去。

Speaker 1

不然就你如果打到一个新的GPU上面的话，那就找不到那个KV开始了。

Speaker 1

所以这个地方的话就属于ROUTING的调度层，大概就是这么三个、三层、三、三层。

Speaker 1

对，三层的话都得有，相当于每一层都得听。

Speaker 2

因为刚刚讲的是三层嘛，第一层，反正这是硬件层面了，这个反正这个各家这个硬件厂商出什么，你们反正就根据那个上面在做第一层的这个软件的这个调配，然后第二层。

Speaker 2

这个我没有太听明白，不知道能不能通俗易懂的帮我们再比如打个比喻啊什么的。

Speaker 1

嗯嗯，第二层的话，比如说 sparsity 这个东西的话，打比方说就是，就是一个模型里面的话，绝大多数的参数其实是没有用的。

Speaker 1

或者说这样说吧，就是我在 decode 每个 token 的时候的话，你其实在 predict 整个 vocabulary 里面所有单词的每一个 probability 然后你选择最有可能那个单词，然后作为下一个输出。

Speaker 1

然后这个时候你会发现很多单词都是没有用的。

Speaker 1

然后 quantization 就更像，是我在表示一个数字的时候，我的精度可以是最高的 ip 32。

Speaker 1

那这样的话，competition 比较重，然后把它减到 bf 16，然后相当于我用一半的存储空间来去表示这一个数字。

Speaker 1

当然你的计算量的话也相应就是减半了。

Speaker 1

嗯，然后可以再再砍一一半变成 ip eight。

Speaker 1

但是呢，我依然能够大概去表示出来这个数字，可能有一些精度上的损失，但是对于整个模型来说是 ok 的，因为模型太大了。

Speaker 1

那么多数字，然后每个数字稍微少一点，那么差一点也没什么关系。

Speaker 1

所以IPA到现在为止的话也是VALIDATE它不怎么掉精度了。

Speaker 1

最后一个的话就是IP FOUR，那就是砍到只剩下四个PRECISION了。

Speaker 1

那这个时候的话，相当于我可以把整个模型的赛赛变变成一半。

Speaker 1

但是如果你是单个的数字的话，COMPUTATION就变成了一半。

Speaker 1

但如果你是两个矩阵相乘。

Speaker 1

那 competition 就是变成1/4了。

Speaker 1

所以这就是更好的地方，就是，但是 IP four 的话，目前为止在于某些模型是能做得好的，有些模型还是有点掉精度。

Speaker 2

所以他是，所以掉精度，他的最后给产出来的答案，他其实就有的是，我们叫什么片汤话，或者你根本就没有根据我的这个问题的这个核心的意义，给我特别精准的回答。

Speaker 1

他在那个回答上的那个 quality 没有以前好了。

Speaker 2

就是好模型和不好模型中间的差距其实很多是在这里。

Speaker 1

对，是的是的。

Speaker 1

嗯，对。

Speaker 1

所以 ip4相对来说还是要去调很多东西的。

Speaker 1

当然有一点就是 ip4的话也是跟那个 gpu 有关系，那么 gpu 的话如果你不支持 ip4的计算，也是不能用的。

Speaker 1

嗯。

Speaker 2

好几好几，一层一层一层一层。

Speaker 1

对对对。

Speaker 1

然后这就是 quantization 带来的好处，就是减这个 map。

Speaker 1

减整个 memory 的 usage 同时的话能够减这个 computation 然后其他的方法的话，就 speculative decoding 的话，刚才讲过，就是它相当于用一个更小的模型去盖了一个更大的模型。

Speaker 1

这个是比较好理解的，然后剩下就是 expert pruning，或者是整个啊 model pruning。

Speaker 1

model pruning 的话就像是整个模型里面的话，因为有太大了，非常多的冗余的东西。

Speaker 1

然后把那些的砍掉，但是也不会影响到整个模型的这个 performance。

Speaker 1

那最经典的例子的话就是在 moe 这个环境里面的话，嗯，比方说呃困模型或者 deep c 模型的话，用到的是256个 experts。

Speaker 1

然后其中去选择前四个或者前八个，那你会发现256个模型里面，256个experts里面啊，并不是每一个expert都是有用的。

Speaker 1

你可以把一些expert给它砍掉，然后你会发现这个模型还是正常运行。

Speaker 1

那这个时候的话，因为你少了这个experts，你不用去算那些experts了，那么也可以去提高这个速度。

Speaker 1

嗯，对，这就是expert pruning。

Speaker 1

那么expert pruning的话也是一样的，就是我们觉得expert pruning如果做得好。

Speaker 1

可能掉一点点精度，但是后来我们在实验之后的话，发现很多现在的 moe，你抽完之后的话，砍掉了一些 experts 之后，完全不掉精度。

Speaker 1

这说明就是在 training 过程中，可能哈，因为 routing 上面训练的不是很好，导致某些 experts 其实没有怎么被训练。

Speaker 1

嗯，然后有一些 experts 被用的很多，所以这就是为什么 iso pruning 的话，在我们现在实验里面看到，能够 maintain 这个 performance 同时能够减少 combination。

Speaker 2

就是在 expert 这一层的这个调度上面，其实这一层是很多空间优化的。

Speaker 2

对，就是你去医院，就像刚刚讲那个分诊台一样，然后你到底是给到哪个专家，然后这个分诊台它的能力是特别重要。

Speaker 1

对对对。

Speaker 1

嗯，也就是说相当于256个 experts 里面有很多都是伪专家，其实没啥用的。

Speaker 1

然后有些才是真的有用的东西。

Speaker 1

ok。

Speaker 2

对，就是这个分诊台有多智能，这个是现在大家正在攻克的，在不断要实验的。

Speaker 1

对对对。

Speaker 2

是的是的是的。

Speaker 2

刚刚讲厚厚一层是那个 kv cash。

Speaker 2

嗯。

Speaker 2

嗯，然后是那个层面的调度。

Speaker 1

呃，那一层的话就是主要是要要保证前面的 context 如果是相近的话，要被分配到一个相对应的一个 gpu 上面去。

Speaker 1

因为只有在那些 gpu 上面的话，才存在了。

Speaker 1

你的上下文，像对应的这个上下文的可以开始。

Speaker 1

然后如果你黑掉，会黑到的话，你可以非常轻松的把这个拿出来，就不用再重新计算一遍。

Speaker 2

嗯，就是就像一个这个开大会或者是一个速记员，然后你速记的东西，它其实不用说是你每一次你都往回去全都再看一遍，每个会再重新再看一遍，然后怎么样是把这个速记员记下来的东西更快能被系统明白，然后这个其实是最重最重要的。

Speaker 1

这个。

Speaker 1

更快的去把它 retrieve 回来，嗯，然后直接参与到后面的 decoding 部分。

Speaker 1

这样的话前面那部分的话都可以省掉时间。

Speaker 1

就现在的 inference 的话，比之前两年前要复杂非常多了。

Speaker 1

因为当时的话，kb cash 都没有什么。

Speaker 1

都不怎么做，然后每一条 sequence 都是重新去读一遍，然后再开始 decode。

Speaker 1

读一遍这个过程的话非常耗费时间。

Speaker 1

然后现在的话就这部分就非常容易，就，甚至比如说 entropy 的话是最近才 support 的 automatic cash。

Speaker 1

对，就是2到2026年才 support 这个，在之前的话都没有 automatic cash，你要自己去设计，ok，你这个地方。

Speaker 1

这个 sequence 我要 cash 一下，那个 sequence 我不 cash，你要自己去做这样一个设定。

Speaker 1

但这个非常复杂，说实话。

Speaker 2

对，我记得去年这时候我还，那个，就可能从我的这个消费者端来看的话，我还不断的要删我这个 chatgpt 里面的这个 memory，它动不动就告诉我你已经100%了，你没有办法再往下再再记录你新的东西了。

Speaker 2

对，但是下半年基本上这个就没没了。

Speaker 2

对。

Speaker 2

所以你们在做这个不同的这个优化的时候，你们有没有说是在，比如说是这个延迟啊，或者是那个吞吐啊，或成本之间的一个，你按照什么来做这样子一个权衡的？

Speaker 1

全部都是根据用户的 sla 来决定的。

Speaker 1

如果用户他是一个偏这种 conversation 并且实时交互，那这个时候实际上 ttft 是最重要的，得保证在，比方说。

Speaker 1

呃，有的是两三百毫秒之内就给它返回了第一个单词。

Speaker 1

那TDFT更重要一点，那相对来说的话，因为你在那个过程中的话，你可以用流式，所以有TPOD，也就是整个的TOKENS每秒，这就不是很重要的。

Speaker 1

比如一秒钟输出多少个TOKEN其实都不重要，因为因为你输出的那个TOKEN数量的话已经足够它慢慢去读出来了。

Speaker 1

嗯，所以这个时候，然后整个的速度就没有那么快，没有那么重要。

Speaker 1

然后LATENCY也没有那么重要的，因为大部分情况下的话都是我已经生成完了这个TTS，还没有读完，然后这个用户还没有看完。

Speaker 1

对，所以你会发现就是只要是跟CONVERSATION相关这些东西的话，实际上啊，第一个单词出现的那个时间是比较重要的，因为它影响到了比如说我。

Speaker 1

现在我已经问了一个问题，我得有多快回答，拿到一个第一个单词的回答。

Speaker 1

然后开始OK.

Speaker 2

我知道这个回答是这样子的。

Speaker 2

这也是后来进行优化过的。

Speaker 1

对不对？

Speaker 1

对对对。

Speaker 1

然后这个TDP是在这个过程中非常重要。

Speaker 1

嗯呃，但是如果你是要做一个AGENT，那这个时候的整个LATENCY也很重要，因为对AGENT来说的话，你都是要去等它慢慢去执行，执行完之后最终给一个答案。

Speaker 1

对，那我不想在这个过程中的话等太久。

Speaker 1

所以就整个执行时间就比较重要一点，所以我就需要去优化这个整个的latency。

Speaker 1

对对，然后呃这是不同场景。

Speaker 1

第二第二点的话就是。

Speaker 1

就看你的用户愿不愿意去接受这个呃，掉一定的精度。

Speaker 1

嗯，所以我们所有的方法是分两两个部分，一部分是完全的 LOSSLESS，另外一个方法的话是呃 SOMEWHAT LOSSY，还有一些的话是掉很多，但是你能够通过一个一定的 TRAINING 来啊 RECOVER 回来。

Speaker 1

嗯，所以就分三类。

Speaker 1

然后那么前面两类的话是不需要任何的 TRAINING 的，然后可能完全不掉或者掉一点点。

Speaker 1

然后第三类的话，就是我靠一些POST TRAINING能够会给他会cover回来。

Speaker 1

那这样的话，那么第三类很明显就必须得跟这个客户的话去做一个深度定制了。

Speaker 1

那么前面的话就完全不用去管这些，然后掉一点点的话，有些客户也是OK的，因为他那个场景可能没有那么CRITICAL，但他就想要更低的成本。

Speaker 1

嗯，所以就看这个客户对于精度的要求、对于成本的。

Speaker 1

8G 的道理是多的卡多严，然后但是第一种的话还是最多的，因为他还是不希望掉任何精度，然后8G 的也不会说抠到那么程度。

Speaker 2

对，ok。

Speaker 2

所以，哎，你们的用户的 use case 大概是什么样的一个方向？

Speaker 1

我觉得分两类吧，两个大类吧，就是第一个大类的话就是完全就是做 interaction 的，就比如说做 conversation 那些。

Speaker 1

那这些的话，一般来说要么就是纯文字的，要么就是要接一些 ASR、TTs，然后做语音的交互。

Speaker 1

这是一个类型。

Speaker 1

那第二个类型的话，就是做 coding 跟 agent，基本上就是这两类比较多一点。

Speaker 1

然后做 agent 的话，也是各种各样的 agent 的吧，看又是做 browser 的，browser use 那些，就是 browse 一些 website，然后有的话就是做 coding 的，然后有的话就是调一些 tool，它自己有一些 tool。

Speaker 1

我我感觉未来估计第二类会越来越多一点。

Speaker 2

诶，所以其实我最近也有看到，比如说是像我不知道你聊不聊那个Hicks Feel对，然后他们其实就是marketing做得好，然后但是突然出现了好多用户，然后一下就很多并行，然后反而他们就把自己的这个成本招到非常的高，然后反而过来他们在商业模式上面又给大家又是要多收钱，然后就造成了一波的这个用户的非常负面的这个反馈。

Speaker 2

你觉得这个其实是一个现在的行业发展的一个growing pain吗？

Speaker 2

还是你怎么看待这个问题？

Speaker 1

说白了，Hicks Feel的话就是把。

Speaker 1

Workflow 做的比较好一点，它用的全部都是 b 端的一些 video model 比方说可灵的，或者是快手的一些模型，然后 vivo 用的比较多一点，然后 sora 也用了一些。

Speaker 1

然后把这些的 compose 在一起，然后做一个 workflow 出来，然后有点像是个 agent 的 workflow 那这过程的话其实非常消耗了这个 vm 模型的这些 credits。

Speaker 1

所以他必须得保证这个消耗的 credits 的话能够 worthwhile 比如说他的。

Speaker 1

消费的快点成本的话，要至少小于用户配的那个钱。

Speaker 1

对，但turns out的话，就是现在都是按照subscription来走的。

Speaker 1

对，所以power user的话很容易就用穿掉了。

Speaker 1

对，所以它也只能给它限制。

Speaker 1

那一旦限制的话，那么前面的user就会很不开心。

Speaker 1

对，但是这个一定是要经历的一个阵痛期吧？

Speaker 1

因为所有的类似的公司的话，在最开始的时候都得去亏钱。

Speaker 2

就大家其实就还是没有一个标准的一个playbook，一个玩法，到底我怎么样收钱，然后怎么样去预测我们的这个用户它的增长。

Speaker 2

和他们的这个用户用量，所以就基本上这这个是不是也就，你会经常看到你们客户会会发生这种事情。

Speaker 1

对，这是一个非常。

Speaker 2

行业问题。

Speaker 1

行业问题是因为 saas 以前嗯把大家用户习惯已经 anchor 到了这个 subscription 上去了。

Speaker 1

但是那个时候的成本其实是 negligible 的。

Speaker 1

但现在的话，你每用一次都是在烧钱。

Speaker 1

所以 subscription 其实是一个不好的商业的模型。

Speaker 1

更多的应该是按照 usage，按照 completion task 来去做。

Speaker 1

api 对，我完成一个 task 我应该收多少钱？

Speaker 1

但这就很让现在的 user 很不能接受嘛。

Speaker 1

对，所以就导致了现在一种畸形的这种商业模式。

Speaker 2

可能还是在震荡期吧。

Speaker 1

对，还在震荡期。

Speaker 1

其实人是能接受的，比如说律师行业就是按照 hourly pay 的，但是当 ai 做同样的事情的时候，反而不能接受了。

Speaker 2

有没有说是这个好像再快也没有意义的这样子的一些用力。

Speaker 1

有，就是刚刚好像是说那个，如果你是做一个语音交互的话，对，那个情况下的话，包括你读文字也是。

Speaker 1

你的速度完全取决于人能 digest 的速度。

Speaker 1

再快的话，就相当于机器在等人。

Speaker 1

这个时候确实再快就没有什么用。

Speaker 1

但是你切换到 open call 这个场景的话，那快就是好。

Speaker 1

因为所有的 tokens 是由机器自己来 consume，然后自己机器自己来去做 decision，那它的时间，它的速度是非常快的。

Speaker 1

所以这个时候。

Speaker 1

你要衡量整个task完成时间的话，肯定是就是每一个model它的速度越快越好。

Speaker 2

因为我也看到很多人他自己不同的这种agent的这种安排形式，比如说用可能最贵然后最聪明的模型做他的管理者，然后下面可能再用不是特别贵的这个模型来做这个每天这个吭哧吭哧干活的这样子的呃这个员工。

Speaker 2

呃然后我也看到有一些朋友他们其实就连整个怎么样分配这个事情的这个。

Speaker 2

都会再加一层 layer。

Speaker 2

我我不知道从你们的这个这这一层来看的话，你觉得这个会是你们可以做优化或者可以做产品的一个层面吗？

Speaker 1

嗯。

Speaker 1

我觉得这就更多的像是一个 harness 该做的事情吧。

Speaker 1

对，我们做的是每个 commander 自己，他应该有什么样的速度，然后什么样的一个 quality。

Speaker 1

嗯，然后 harness 来自己决定，就是比如说某个 task 的话可以用哪个稍微弱一点的模型。

Speaker 1

嗯，哪些 task 的话必须，比如说做 planning 的话就必须用一个最强的 b 端的，比如 cloud offers 4.7。

Speaker 1

来去做，然后他把这个设定好就可以了。

Speaker 1

但是我们有一个产品就是叫 AGENT DATA，然后这个是用来去做 SYNTHESIZE 一些啊 TRAINING DATA 的。

Speaker 1

然后里面的话，这个 DESIGN 的话是完全是一个有点像是一个 MULTI AGENT HARNESS，然后上层的一些 PLANNING 的 MODEL 的话必须用最好的模型，比方说 CLOUD 最最强的模型，但是底层的一些 EXECUTOR。

Speaker 1

一个非常 single 的 component 的 executor 的话，就可以用一些稍微弱一点弱一点模型，也没有什么关系。

Speaker 1

嗯，啊，所以这个地方的话，我们的确做了这样一个 design。

Speaker 2

对，就如果像是这个黄仁勋说的，然后这个未来推理成本极度下降，然后这个速度极度提升的话，你们觉得可能未来什么样的用户的，他的 use case 呀，或者是你觉得什么东西，或者新的这种东西会发生？

Speaker 2

因为我感觉现在好像限制就是限制在我们自己的想象力上面了。

Speaker 1

我觉得是，我觉得现在两个东西上面，一个是开源模型的智力水平。

Speaker 1

嗯，对，因为你如果用闭源模型的话，这个 token 消耗量跟它的成本实际上是很多 use case 不能 justify 的，就很多 use case 就是我希望有个 robot 能帮我做了，对，但是它太贵了。

Speaker 1

啊，这个事情我不如自己做了。

Speaker 1

所以现在 cloud 的话只能是打那种 professional users，因为他的时间相对来说更加贵一点。

Speaker 1

那他就愿意去付这么多成本去做那件事情。

Speaker 1

但如果真的要 on block 到，比如说 everyday life 的 task 的话，那可能就是成本是一个非常大的考量点了。

Speaker 1

所以毕业模型相对来说成本就是便宜非常多的。

Speaker 1

嗯，所以我觉得有一个非常非常大的观察点，就是到去年的年底的时候，呃，这些CODING的模型慢慢就变成了每个人的标配了。

Speaker 1

原因是他确实能做非常多就是CODING ENGINEER想做的那些事情了。

Speaker 1

然后到今年的话，就已经变成了FORMAL情绪，就是谁不用。

Speaker 2

谁就这，就是被时代抛到后面了。

Speaker 1

对，所以转变的非常快。

Speaker 1

那如果开源模型也能有这个 turning point 的话，那这个时候模型会慢慢变成一个 commodity 就可以实现了。

Speaker 1

那如果真的那个时候到来的话，我觉得可能一年之内吧，开源模型会被用在非常多，各种各样的地方，并且是能够做一些真正的事情的。

Speaker 1

模型的 tokens 是一个，有一像像电力系统一样，会 drive 各行各业的东西了。

Speaker 2

那你觉得现在你们行业里面大家最大的非共识是什么？

Speaker 1

非共识是感觉开源模型到底能不能够嗯赶得上闭源模型，然后闭源模型到底能不能够到达 agi 那个点吧？

Speaker 1

或者说什么是 agi？

Speaker 1

嗯，这个是我感觉很多人有不同的答案吧。

Speaker 1

比如说有的人觉得 agi 已经到了，因为确实很多事情已经被替代掉了。

Speaker 1

嗯，然后。

Speaker 1

到底还有没有下个范式？

Speaker 1

就如果是现在这个范式下面的话，我感觉更多的像是你的 use case 会不断的被 b 模型吃进去。

Speaker 1

因为它的毕竟有那么多人，然后加上所有资源去做 data 然后把它纳入到下一代产品上去，下一代模型上去。

Speaker 1

更像是在吃 data 然后吃这些 use case。

Speaker 1

是，但并不是一个本质的 intelligence。

Speaker 2

对但是但是其实这个OPEN CALL这一波其实是把这个开源模型整个这些公司其实他们如果没有CALL的话他们可能过两年他们可能就过就会消失的这些公司全都带活了。

Speaker 1

对嗯。

Speaker 2

大家可以看到这个TOKEN可能成百倍的在这个在烧对对然后他们的这个不管是投资他们的市值啊或者他们的这个这个这个故事也都在这两这两这几周。

Speaker 1

的事情这几周吧对我觉得这是个好事就是他能让这些开源公司。

Speaker 1

获得更多的资本以及人才。

Speaker 2

对，但我同时也有，比如说是可能我们自己作为一个内容公司，我们自己有一些 use case，然后我也让一些可能没有那么想要花时间去钻研的这个同事们。

Speaker 2

然后说你们也可以等等，不用自己先去装小龙虾，让一些模型其实现在马上它的功能就都赶上了。

Speaker 2

嗯嗯，对，你像像是可能我们自己来说的话，就是大量的去看一些这个什么新闻，然后把它筛选出来最有意义的，然后我们再去做这个选题的构思啊什么，就这块。

Speaker 2

嗯，我们都不用自己去做小龙虾了，我们其实直接就比如说是像。

Speaker 2

Openai 像什么 cloud 他们都直接有 agent 的模式就直接出来了。

Speaker 1

是的是的。

Speaker 1

是。

Speaker 1

对，我跟老婆也是在讨论这个，她一直在思考为什么大家，就是比如她的朋友圈里面有很多文科生也开始养龙虾，她不能理解为什么他们会搞这种东西，嗯，然后一定需要吗？

Speaker 1

然后就跟他说，你就用一下 cloud 里面的那个 cowork 对，你就不需要它了。

Speaker 2

是，嗯，是。

Speaker 2

我觉得可能还是这个文科生终于能够扬眉吐气了的这种感觉。

Speaker 1

哈哈哈，是是是是是。

Speaker 1

对，就是能够玩转一个比较先进的一个科技。

Speaker 2

我觉得还是还是鼓励大家都去试一试的，我觉得上手总是这个没错的，起码也能缓解一些这个焦虑。

Speaker 2

要不然你聊一下你们自己的护城河？

Speaker 1

我们最大的护城河还是在于是人，说实话，然后当然每个人都非常的hard working也是非常重要的，因为现在所有东西都进化的太快了。

Speaker 1

对，嗯。

Speaker 1

我感觉除了老黄能够卖 gpu 这个是一个非常大的护城河以外，其他行业每一个都有这样那样的一个不确定性吧。

Speaker 1

对。

Speaker 1

啊，包括 openai cloud.

Speaker 2

jvm 这个。

Speaker 2

我觉得他们就完全没有赛出来呢。

Speaker 2

我觉得整个从这个，这一次跟五角大楼的这一次合作，然后包括呃 anthropic 他们在这个专业用户这边的市场份额，嗯，因为他们烧的 token 比普通用户要烧的多的多。

Speaker 2

对对对，我觉得这这这场比赛完全没看到那头呢。

Speaker 2

对还没有看到，对你们来说呢？

Speaker 2

你们觉得最兴奋的地方在哪里？

Speaker 1

我们最兴奋的地方就是在于开业模型的这个TOKEN USAGE确实涨上来了，这是比较对我们来说比较关键的。

Speaker 1

然后毕竟基本上所有的我们这一层的都是在做开业模型，基本上变模型是碰不到的，所以。

Speaker 1

嗯也是希望他能做的越好吧，不然如果真的是那三家dominate的话也是一个不太好的事情吧。

Speaker 2

你不管是你的个人的数据啊还是你的这个隐私啊我觉得其实有很多的大家是想拿到手里的我觉得这个可能open call对你们来说也是一个很振奋的时代变革性的东西。

Speaker 2

嗯是的嗯好好谢谢金静今天接受我们的采访好谢谢谢谢祝你们越做越好。

Speaker 1

谢谢谢谢好。

Speaker 0

今天的科技早知道就到这里了。

Speaker 0

听完之后，如果你有任何的想法，欢迎在评论区和我们交流。

Speaker 2

；如果有任何想听的话题，也请告诉我们。

Speaker 2

如果你喜欢我们的节目，请记得分享给更多的朋友。

Speaker 0

那我们下期再见，下期再见。

关于 Bayt 播客

Bayt 提供中文+原文双语音频和字幕，帮助你打破语言障碍，轻松听懂全球优质播客。

继续浏览更多播客

浏览全部播客

进入全部播客页面

Where Should We Begin? with Esther Perel

共 9 集

What's Good Games: A Video Game Podcast

共 1 集

Who We Are with Rachel Lim

What The Chip Happened - Jose Najarro AI & Chip Stocks

共 1 集

WHOOP Podcast

共 2 集

What Now? with Trevor Noah

共 2 集

Why Won't You Date Me? with Nicole Byer

共 1 集

What Makes You Happy ?