E223｜应用爆发之年：聊聊模型技术进化与商业化 | 硅谷101 中文双语解读

本集简介

2025年被称为“AI应用元年”，大模型不再只是实验室里的技术玩具，而是真正走向生产线、走进企业流程、走入消费者日常。它已经冲进各行各业，开始“搞钱”！这一期对话揭示了一个清晰的时代信号：大模型正在从“技术狂热”走向“商业务实”。无论是阿里通过千问大模型推动全行业渗透，还是影石和语忆科技在一线将AI融入智能硬件、企业数据分析等真实业务流程，都表明：AI的价值不在于它多“智能”，而在于它多“有用”。当前阶段，成本下降、工具成熟、企业认知提升，或许未来竞争不在于谁有最大的模型，而在于谁最能理解企业场景、最能封装业务价值、最能持续迭代。如果你在思考： ● AI如何在我所在的行业落地？ ● 投入AI到底划不划算？ ● 未来哪些AI能力会成为标配？这一期节目或许能给你带来不少启发。本期播客我们邀请到阿里千问大模型商业化总经理徐栋，以及两家在AI落地一线的企业代表——影石Insta360研究院总监亓鲁教授和语忆科技联合创始人&CEO吕瀛杰，共同拆解大模型在商业前线“开荒”的逻辑、成本和隐藏关卡。【主播】泓君，《硅谷101》创始人，播客主理人【嘉宾】徐栋，阿里云千问大模型业务总经理亓鲁教授，Insta360研究院总监吕瀛杰，语忆科技联合创始人&CEO 【你将听到】模型的技术进步与商业化 03:23 视频生成进入“可控生产”时代 06:57 AI漫剧、短剧是怎么挣钱的 10:12 2025年语言模型的进步 16:27 AI+智能硬件，你可以通过智能眼镜买咖啡了 19:18 大模型商业化两个方向：生产力、用户体验 22:13 端云结合，七成通用任务本地处理 23:51 B端用户关注点迁移：从模型效果转向性能和成本 26:45 推理成本指数级下降背后的驱动因素 29:31 什么做“开源”大模型？开源与闭源模型如何平衡？ 33:33 评价指标的演进：从Token到商业价值 35:40 基础大模型研发进入精耕细作阶段，聚焦Agent实用能力影石Insta360如何用AI 38:54 AI剪辑：从“拼接”到“理解” 40:49 AI面临的挑战：理解用户模糊的意图 43:02 如何从全景相机中找出素材处理不止是降本，更是增效 48:57 AI能在咨询行业做哪些事 54:16 选择基模看重哪些能力 56:05 用AI辅助企业发现营销机会 01:00:24 作为“中间层”的竞争力 01:03:34 ToB观察：AI让企业更接受为SaaS付费了【监制】泓君【后期】 AMEI 【运营】朱婕【BGM】 All Parts Equal - Airae Poisson d'Avril - Ludvig Moulin 【在这里找到我们】公众号：硅谷101 收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐其他平台：YouTube｜Bilibili 搜索「硅谷101播客」联系我们：podcast@sv101.net Special Guests: 亓鲁教授, 吕瀛杰, and 徐栋.

2025年被称作“AI应用元年”，大模型不再只是实验室里的技术玩具，而是真正走向生产线、走进企业流程、走入消费者日常。它已经冲进各行各业，开始“搞钱”！这一期对话揭示了一个清晰的时代信号：大模型正在从“技术狂热”走向“商业务实”。无论是阿里通过千问大模型推动全行业渗透，还是影石和语忆科技在一线将AI融入智能硬件、企业数据分析等真实业务流程，都表明：AI的价值不在于它多“智能”，而在于它多“有用”。当前阶段，成本下降、工具成熟、企业认知提升，或许未来竞争不在于谁有最大的模型，而在于谁最能理解企业场景、最能封装业务价值、最能持续迭代。如果你在思考： ● AI如何在我所在的行业落地？ ● 投入AI到底划不划算？ ● 未来哪些AI能力会成为标配？这一期节目或许能给你带来不少启发。本期播客我们邀请到阿里千问大模型商业化总经理徐栋，以及两家在AI落地一线的企业代表——影石Insta360 研究院总监亓鲁教授和语忆科技联合创始人&CEO吕瀛杰，共同拆解大模型在商业前线“开荒”的逻辑、成本和隐藏关卡。【主播】泓君，《硅谷101》创始人，播客主理人【嘉宾】徐栋，阿里云千问大模型业务总经理亓鲁教授，Insta360研究院总监吕瀛杰，语忆科技联合创始人&CEO 【你将听到】模型的技术进步与商业化 03:23 视频生成进入“可控生产”时代 06:57 AI漫剧、短剧是怎么挣钱的 10:12 2025年语言模型的进步 16:27 AI+智能硬件，你可以通过智能眼镜买咖啡了 19:18 大模型商业化两个方向：生产力、用户体验 22:13 端云结合，七成通用任务本地处理 23:51 B端用户关注点迁移：从模型效果转向性能和成本 26:45 推理成本指数级下降背后的驱动因素 29:31 什么做“开源”大模型？开源与闭源模型如何平衡？ 33:33 评价指标的演进：从Token到商业价值 35:40 基础大模型研发进入精耕细作阶段，聚焦Agent实用能力影石Insta360如何用AI 38:54 AI剪辑：从“拼接”到“理解” 40:49 AI面临的挑战：理解用户模糊的意图 43:02 如何从全景相机中找出素材处理不止是降本，更是增效 48:57 AI能在咨询行业做哪些事 54:16 选择基模看重哪些能力 56:05 用AI辅助企业发现营销机会 01:00:24 作为“中间层”的竞争力 01:03:34 ToB观察：AI让企业更接受为SaaS付费了【监制】泓君【后期】 AMEI 【运营】朱婕【BGM】 All Parts Equal - Airae Poisson d'Avril - Ludvig Moulin 【在这里找到我们】公众号：硅谷101 收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓FM｜荔枝FM｜网易云音乐｜QQ音乐其他平台：YouTube｜Bilibili 搜索「硅谷101播客」联系我们：podcast@sv101.net Special Guests: 亓鲁教授, 吕瀛杰, and 徐栋.

双语字幕

仅展示文本字幕，不包含中文音频；想边听边看，请使用 Bayt 播客 App。

Speaker 0

哈喽，大家好，欢迎收听硅谷101，我是红军。

Speaker 0

我记得两年以前我们播客在聊大模型的时候，大家还总觉得模型有这样那样的问题，很难真实的应用到工作或者生活中。

Speaker 0

而今天大家的手机里面是不是都有一个或者好几个这种 AI 助手类的工具了？

Speaker 0

我们看到现在基础模型的能力在很多场景已经够用了，传统的企业也开始大规模的拥抱 AI 所以我们今天的主题啊，是想聊聊整个大模型它的商业化与应用。

Speaker 0

为了把这样的一个主题聊清楚，我邀请到了一个模型公司的人，来聊一聊模型技术能力的进化与商业化的进化这两条线是如何交织发展的。

Speaker 0

那在节目的后半部分，我也邀请到了两家企业，看看他们是怎么样找到AI与现有业务的结合点，并且呢，在拥抱AI的过程中，他们的思考与痛点。

Speaker 0

那首先，第一位跟我在一起聊天的嘉宾是阿里云千问大模型业务总经理徐栋。

Speaker 0

哈喽栋哥，你好！

Speaker 1

哈喽红军老师。

Speaker 0

大家好！

Speaker 0

对，很开心你能来做客我们的播客啊。

Speaker 0

因为在2025年底到2026年初，大家讨论最多的一个是AI AGENT，还有一个就是AI应用，真的是开始走进大家的生活了。

Speaker 0

今天也很开心，就是你能跟大家聊一聊啊，大模型在商业化方向的一些趋势。

Speaker 0

在此之前，你要不要先简单跟大家介绍一下你在阿里的工作，以及你主要在负责一些什么？

Speaker 1

哎，好的，谢谢红军老师。

Speaker 1

因为阿里做大模型时间还比较久，我们最早的模型可以追溯到21年左右。

Speaker 1

那首先呢，有一个非常有名的，尤其在海外可能大家会比较关心的模型，叫千问，英文名叫困。

Speaker 1

因为在开源领域，它其实已经是一个非常大的一个体量，基本上很多北美的公司也会用它做一个基模，它代表的是我们的语言模型。

Speaker 1

所以我们会用这个模型去挑战AI的智慧，看看它能不能用更多的工具进入更多的生产环节啊。

Speaker 1

所以这是一个我们非常主力的一个模型。

Speaker 1

那另外呢，我们还有第二个模型是视觉生成类的模型，它叫万象。

Speaker 1

那万象这个模型它可以生图片，也可以生视频，也可以做图片和视频的编辑。

Speaker 1

同时呢，它也可以成为未来世界模型的范式的可能性。

Speaker 1

所以这是我们最近这三个月重点发了2.5的PREVIEW版本和2.6。

Speaker 1

也是给到了我们很多新的反馈，就是视频的创作这块。

Speaker 1

第3个基础模型呢，是我们在去年的云栖大会发布的，叫做phone，是一个纯音频的模型。

Speaker 1

它的音频包括了我们比较熟悉像ASR、TTS，也包括了声音克隆。

Speaker 1

我们在这个模型上面就追求的是更加拟真，包括还有它的多语言、不同的方言、不同口音，它怎么更好地理解和表达。

Speaker 1

大家可以理解，我们其实今天模型还是比较结构化了。

Speaker 1

所以在这样几个基模基础上面呢，我们就开始跟很多客户做交流和交互。

Speaker 1

有一些是偏向于我们制造业，或者说实体企业、品牌商；那更多的还是包括了我们很多互联网公司。

Speaker 1

但我的体感上来说的话，最近这一年有大量AI NATIVE的公司，他们通过模型获取了不少非常不错的一些成果。

Speaker 1

他们在很多碎片化的一些市场里面都达到了非常好的一个R Y啊，这是我日常的一些工作的一个方向和内容。

Speaker 0

嗯，然后你刚刚讲到了几个大的模型啊，你觉得过去2025年在模型技术上最重要的进化是在哪几个方向？

Speaker 1

最近这半年其实进化的内容特别多。

Speaker 1

那我认为视频生成模型就以万为代表，如果按照G P T3.5到四的这个状态，我认为它已经到G P T四的状态。

Speaker 1

因为过去视频生成模型，它更多的应用场景都是在一些特效娱乐方面。

Speaker 1

但今天我们看到视频生成模型可以进入到一些生产化的领域，比如说最近很火的AI漫剧、漫剧今天的增长速度是非常快的。

Speaker 1

还有就是自动化生成广告视频，因为大家知道很多视频里面会有15秒的一个切片广告，今天这些广告我们看到有很大的趋势都开始进入到自动化生成的一个状态里面去了，它有一个相对完整的管线。

Speaker 1

可能5个人就可以一天生成6000个左右的视频啊，这是一个非常明显的趋势。

Speaker 1

所以我个人体感上来，在这一块技术的变化带来的影响是最为明显的。

Speaker 1

在最近半年，我觉得模型上面有几个特性还蛮有意思的。

Speaker 1

第一个呢，就是模型开始时间越来越长了，视频生成模型过去可能是五秒、十秒，现在已经开始进入15秒的时代了。

Speaker 1

那再往下的话，它有可能能够进入到1分钟，这样的话，它生成的内容的连贯性就会变得更加好。

Speaker 1

这是一个比较有技术挑战的地方，所以我们也特别期待我们今天几张图片或一句话能够直接有一个3分钟的短视频。

Speaker 1

那这个产品设计体验就会有很大的一个根本性的变化。

Speaker 1

第2个的话呢，今天我们看到在视频内容不再是很枯燥的这个常见的镜头，今天模型可以不同镜头多次切换，光影效果可以做很好的一个变化。

Speaker 1

那这个就有点像我们在一个专业影视级的一个能力，他把这个能力让所有人通过简单提示词就可以生成出来了。

Speaker 1

这也是过去很大的一个变化。

Speaker 1

第3个变化，其实是也是SARA TWO给到我们的很大的一个启发，就是CARRY能力。

Speaker 1

所以呢，我们也是关注到了今天如果要做做角色扮演，如果每个人都是导演的话，他希望能够去保ID，也就是人物和物体背景，它的呃形态、大小、它的音色，希望能够保住它的后续创作里面就会有很好的一个延展空间。

Speaker 1

所以简单来说的话，就是我们希望从15秒进一步能延长。

Speaker 1

现在我们应该做的非常不错，已经是国内应该最长的一个视频生成模型了。

Speaker 1

今天我们的看到镜头的切换、光影的变化，都是专业导演他需要配合摄像、美术等等不同的角色一起来做的。

Speaker 1

那这些能力其实通过模型它也有可能就可以变得门槛更低了。

Speaker 1

那最后一个就是角色扮演，我们说的那个CARRY的能力。

Speaker 1

这个能力我相信是未来所有的视频创作生成模型都是一个标配。

Speaker 1

角色扮演是指什么？

Speaker 1

角色扮演就是我讲一下这个场景啊，假设我们有一个手机。

Speaker 1

啊，我们可以对着手机做一个自拍，可能五秒钟视频。

Speaker 1

我们可以抬头，或者说左右看一看。

Speaker 1

看完之后呢，可以同时说几句话。

Speaker 1

这样又有点像我们假设在录播的之前，可以简单试个镜。

Speaker 1

模型输入这段视频的话，它就可以对视频里面的人物的形象和声音去做保ID，也就是我在真正创作的后面连续性上面，整个这个形象和声音它都可以被复刻出来。

Speaker 1

这是一个比较大的改变。

Speaker 0

也就是说以后可能不用真人了，或者说真人出镜5秒钟，他后面的很多东西他就可以让 AI 去生成模型化去运作了。

Speaker 1

对，也就意味着我们对生成内容的可控性变得更高。

Speaker 1

那原来我们可能还是依赖于抽卡，但今天我们在输入端做更多的参考，参考的维度变多了。

Speaker 1

这个领域其实在动漫创作领域其实挺多的，就原来是讲参考图，现在其实开始讲参考视频，因为它的信息维度会更多。

Speaker 0

嗯，因为你刚刚其实也提到了，比如说现在五个人他们就可以生成6000个视频。

Speaker 0

同时，比如说AI漫剧其实已经比较火了，因为我们这一期其实也在聊整个AI它是怎么样去走向应用以及它的商业化的。

Speaker 0

你觉得基于这一部分模型能力的提升，你看到了哪些比较好的商业化的案例或者应用？

Speaker 1

嗯，大家都知道，就国内的短剧市场已经超过了电影市场。

Speaker 1

所以在视频生成这块，我们很明显能感觉到所有的短剧从原来的真人，或者说需要大量人工编辑的这个状态开始，有一定比重切换到AI的模型里面去了。

Speaker 1

最近最火的其实漫剧，国内的漫剧可能先发展的应该是动态漫，它可能是以图片微动的效果做出来的，就整个剧情它会变得很连续、很连贯。

Speaker 1

而且它商业化的能力也非常强，所以漫剧已经成为一个非常跟AI结合的一个事实了。

Speaker 0

嗯，刚刚我们提到的像短剧市场，包括用AI去生成短剧跟做真人IP的character的这种短剧，包括你后来提到的批量的结构化的去生成AI广告。

Speaker 0

大家最关心的一个问题就是：我用AI做的成本跟我用人做的成本分别是多少？

Speaker 0

就是现在这些厂商啊。

Speaker 0

他在考虑接入模型的时候，他看重的是什么？

Speaker 0

然后这个成本的比较是什么？

Speaker 1

现在对于品质不一样，大概他们会分成S级、A级、B级。

Speaker 1

一部短剧的话，如果是一个合理的成本，AI可能能够做到2万元以下。

Speaker 1

那他如果算上投流，算上他的ROI的话，他有可能就能打正，或者说实现不错的一个收入。

Speaker 1

那如果他对精品的要求更高，他就需要投入更多的资源去做后期的一个制作。

Speaker 1

那这样的情况下，它的可能成本会更高，但它也有可能这个剧的品质就会更高。

Speaker 1

那如果是广告的话呢？

Speaker 1

一般现在我们看到15秒的视频啊，AI的成本能够控制在10元以下或者15元以下，那它其实就可以在市场上有比较好的一个商业的空间。

Speaker 1

因为一般15秒的一个合格的广告，它就可能是在市场上面是在25元到50元之间，所以呢，它就形成一个比较好的商业的一个循环了。

Speaker 0

嗯，哦，对，那这个成本确实还挺低的。

Speaker 0

类似于用 AI 做广告的这种，因为其实阿里系它是有淘宝的大电商的生态的，它是这些电商的卖家在选择用 AI 做广告吗？

Speaker 1

这个结构还是有点复杂的。

Speaker 1

今天我们看到每个流量平台它都会给到广告主或者说代理公司，它能够去有一定的编辑能力，来更匹配它的流量平台。

Speaker 1

但是广告主呢，他自己也会有自己大量的素材，这些素材有可能是自己做的，也有可能是由第三方的 agency 来去做的。

Speaker 1

所以今天在整个的广告生成这块儿，其实有多个维度的。

Speaker 1

有可能是AGENCY来做，也有可能是AGENCY分包给他的专门做AI NATIVE广告的这种创业公司来做。

Speaker 1

那我们看到这部分的AI创业公司越来越多，他们也越来越多的会用ONE这个模型和困的模型结合起来，变成个管线，然后就形成了刚刚我说的可能五六个人、十个人，他就可以一天生成六千个广告，然后通过这些生成广告再给到AGENCY，或者说给到流量平台的广告主。

Speaker 0

嗯，呃，我觉得这个还挺有意思的。

Speaker 0

这个是我们刚刚提到的在AI的视频生成模型的这一块啊，因为其实你们还有音频生成模型Queen的这个模型嘛。

Speaker 0

你觉得在其他两个模型上，它的进步跟突破在2025年来看分别是什么？

Speaker 1

我觉得语言模型它其实目前是一个持续而深刻的变化，虽然我们很难再看到一个巨大的范式上的改变。

Speaker 1

我简单说一下我们在做的一些事情，包括我们看到可能的影响。

Speaker 1

第一个呢，就是大家知道高质量数据集越来越少了，或者说大家都在模型里面训练得相对充分了。

Speaker 1

但是怎么样去利用好高质量数据集来去做精工细作，能把数据从不同角度或者说前后顺序去做调整，来去让模型能够把知识的这个学习效率变得更高。

Speaker 1

这个其实是我们今天每一个模型公司都会去做这件事情。

Speaker 1

所以我们会发现今天模型在一些 corner case 上的表现越来越好了，它其实都是跟对高质量数据集的精耕细作有关。

Speaker 1

那第二个事情呢，就是今天模型我们看到它的结构会越来越稀疏。

Speaker 1

同时像 mtp 就是多头可预测的技术，我估计在不同模型中都在去实践，所以呢它的速度会变更更快，啊，甚至可能是成倍的往上提升。

Speaker 1

也就是本来我们的 tps 或者手包，假设是在手包是在2秒，那未来大概率很多手包可以到500毫秒都是有可能的。

Speaker 1

取决于它的上下文的长度，那它的TPS我们过去讲30到50是不错了。

Speaker 1

但如果今天基于模型的不断进化，它达到80到100以上都是很有可能。

Speaker 1

那在一些性能要求极高的场景下面就会变得非常棒。

Speaker 1

那其实大家也可以从机器吞吐角度来去理解，那模型变得稀疏之后，它的成本一定也会进一步下降。

Speaker 1

所以呢，也有可能今天模型的推理的成本它会进一步以一个量级下降。

Speaker 1

所以这是一个也是会看到一个非常好的一个收益。

Speaker 1

那还有呢，就是模型还有很多事情是我们日常一直在不断去迭代的，而且它也是个长期的工作。

Speaker 1

就像指令遵循能力，我们希望它进一步提升它的AGENT的能力啊，AGENT能力其中最核心的其实就是TO USE的能力啊，它不断提升。

Speaker 1

关键是怎么泛化的用工具？

Speaker 1

过去可能你用一个工具不错，但是今天用多个工具，一个工具往深了用，这其实都是有很多需要去不断提升的。

Speaker 1

另外就上下文变得越来越长，因为我们今天如果工具调用轮次变多，那其实我们需要更长上下文，并且它能执行的指令更精准。

Speaker 1

所以在这几个方面呢，当在叠加coding能力提升，其实我们就可以看到一个很好的趋势。

Speaker 1

未来可能会有非常多的agent，它是自己连续不断地去运行的。

Speaker 1

有可能这个agent它就不是说我们今天像chatbot那样马上给我个结果，而是个非常简单的结果。

Speaker 1

它有可能会把我们闲时的计算资源都吃掉，来去做一个AI for science的一个研究课题，或者说去生成一个非常有深度的report。

Speaker 1

那这个报告背后，它一定会用到不同的检索引擎，甚至一些 CRM ERP 防住软件都是有可能的。

Speaker 1

那如果他会用了这么多工序做出来这么一个结果，我们相信他的质量一定会比单纯的文本进文本出的结果会来得好很多。

Speaker 0

嗯，对你刚刚讲到了很多基础模型在很多细微的点上的这样的一个提升啊。

Speaker 0

因为我们其实去年一年在追踪整个的大模型还有 agent 的发展趋势的时候呢。

Speaker 0

我注意到2025年是AI从模型走向应用非常关键的一年。

Speaker 0

整个AGENT是在一个大爆发的状态，而且我观察到中国的应用创新是尤其的活跃。

Speaker 0

为什么是去年的这样的一个时间点？

Speaker 0

它是因为整个模型的基础能力提升了，还是说哪几个小的点一下让大家开始都觉得我可以去做应用了？

Speaker 1

我觉得第一个就是reading的能力，因为reading的能力的话，其实是是在24年的下半年快年底的时候，openai的open推出之后。

Speaker 1

所以呢，今天的所有的模型，它不是在依赖于单一的所谓的概率，它现在开始表现出有一定的自己的一些逻辑偏好。

Speaker 1

今天reading，我觉得是非常根本性的一件事情。

Speaker 1

那第二个呢，是模型今天它的SIZE其实变大的。

Speaker 1

原来有很大挑战，是你变大之后你训不动或怎么样。

Speaker 1

但今天有各种各样的预训练的改进，所以呢，我们今天在变大的同时，它的模型的可控性变高了。

Speaker 1

所以我们今天看到很多复杂指令的能力越来越强。

Speaker 1

原来我们很多时候会发现要依赖WORKFLOW，因为WORKFLOW它是一个确定性事情。

Speaker 1

为什么要确定性？

Speaker 1

是因为模型有可能会有偏差。

Speaker 1

所以呢，我们需要有关键几个节点控制，甚至让它去交叉验证。

Speaker 1

但今天模型它的指令遵循能力变强，指令理解能力变强，你只要有足够准确的CONTACTS给它，它会根据不同的情况，在泛化性跟准确性之间给到一个平衡点。

Speaker 1

所以我们认为在指令遵循这块，模型其实进步也是非常多的。

Speaker 1

刚刚还讲到关于TO USE工具怎么调用，当然也是因为整个大的环境上面。

Speaker 1

包括像CLOUD SKILLS，还有MCP等等一些标准。

Speaker 1

开始大家慢慢愿意接受，所以今天越来越多的工具被显性化了。

Speaker 1

所以呢，今天模型它就跳脱了原来的输入输出窗口，它开始进入到了更多的不同的生产环节。

Speaker 1

这个环节有可能它不是一个框，它有可能是一个标准的SARS流程，它也有可能是一个硬件的交互的方式。

Speaker 1

这就是一个很大的改变。

Speaker 0

嗯，你刚刚提到了推理能力、指令遵循，就是模型的可控性跟工具调用。

Speaker 0

我觉得第一个跟第三个我可以理解，指令遵循是有什么关键技术让它可控性变得更好了吗？

Speaker 1

我觉得指令遵循跟我们的数据集还是有关系的，可能可以泛泛的讲，所有东西都叫指令遵循。

Speaker 1

也就是今天我们要求一个小朋友把题目做好，可能就是一个指令遵循。

Speaker 1

一个比较聪明或者说理解能力比较强的小朋友，他就会比较精准理解你说的所有的问题，包括你的上下文，基于你的上下文，他会自己做决策。

Speaker 1

所以呢，越复杂的指令它越挑战模型遵循的一个能力。

Speaker 0

嗯，所以这个数据你觉得这是阿里独有的一部分吗？

Speaker 0

就比如说你提到的高质量的数据。

Speaker 1

我觉得这是每个模型公司都去追求的一个方向。

Speaker 1

因为模型训练其实今天已经没有特别多的秘密，就大家不断去精耕细作，能让模型在CORNER CASE里面能回答出更加惊艳的结果。

Speaker 1

那这个更惊艳的结果其实来自于它对于上下文的一个更准确的理解。

Speaker 0

嗯，然后我注意到1月份刚刚有一个CES展嘛，我也去了。

Speaker 0

我发现现在在整个CES上有一个趋势，就是其实所有的产品都想跟AI搭上关系。

Speaker 0

就比如说它如果是一个耳机，它也希望有AI功能；智能眼镜更是一个非常热的趋势，包括像在剪辑跟拍摄上也都会加入AI功能。

Speaker 0

首先是今年有很多的中国客户去CES参展，背后呢也有很多你们自己千问大模型的影子。

Speaker 0

你能不能聊一下，在我们看到的这些AI硬件产品里面，大模型扮演了一个什么样的角色？

Speaker 1

今天其实硬件强调的是一个交互，它是有自己的摄像头、屏幕、麦克风。

Speaker 1

所以呢，它其实在交互上面，大模型结合在一起，它就会得到很多的改变。

Speaker 1

其实模型在硬件这件事情已经不是一个新鲜事情了，在早个十年开始，ASR到CV的模型都跟硬件有关，只不过它没有产生很大的商业价值。

Speaker 1

那这一次的模型跟硬件的结合，我觉得最重要事情是它变得更加拟人，它可以执行更多的任务了。

Speaker 1

过去它只能去识别，今天它是能够去听懂、看懂，能够回答出你想要的一个结果。

Speaker 1

正好是今天上午我们千问APP啊做了个发布，它可以通过千问APP就可以直接订一杯咖啡，或者说定个座位等等。

Speaker 1

如果今天是一个眼镜，如果这个眼镜能够让你通过自然语言就可以完成这些任务，那这个就是跟过去非常大的一个区别。

Speaker 1

这背后基本上都离不开模型，包括了语音的模型、视觉理解的模型和文本的模型。

Speaker 0

所以现在通过眼镜去订咖啡，这个已经实现了吗？

Speaker 1

准确的说的话，早就实现了。

Speaker 1

前文的A P P通过自然语言就可以点杯咖啡，或者说做任何的商业闭环的事情。

Speaker 0

嗯，大家也可以选这个咖啡的口味，加不加糖，包括点哪一家的咖啡要多久送过来，包括完成支付。

Speaker 1

这些都是可以的，是全部在一个基于大模型的架构里面去完成。

Speaker 1

我刚才试了一下，它就会生成很多卡片。

Speaker 1

你可以不断换卡片，当你可以点开就是一个完整的菜单，因为它会根据你的偏好主动推荐。

Speaker 1

如果大模型的操作界面跟原来的APP是完全一样的话，那可能它也会有一些挑战，原因是因为很麻烦。

Speaker 1

因为我今天戴着眼镜，可能就希望这个AI是懂我的，它有我的一定的MEMORY的。

Speaker 1

那这样的话呢，就会更加方便点。

Speaker 1

所以我刚刚看了体验，它是一个卡片推荐的咖啡师，考虑到了你的距离、你的偏好、过去的历史的选择，它就可以推荐了。

Speaker 0

嗯，了解，就是输入的话，相当于这个眼镜它是有摄像头的，可能可以拍到菜单，或者看到我同事在喝什么咖啡。

Speaker 0

输出的话就是它是一个语音的这样的一个闭环。

Speaker 1

输出的话可以直接是一个商业化的结果，就比如说我今天就需要一杯咖啡，你可以理解为就是一个 action 这个 action 就可以跟我们的商业服务打通落地了。

Speaker 0

嗯嗯，ok 我们可以看一下未来这样的应用，它的应用情况。

Speaker 0

嗯，是。

Speaker 0

因为其实今天我们整个的主题啊，也是在想知道大模型它是怎么商业化的。

Speaker 0

所以你能不能整体跟大家介绍一下阿里千问你们是怎么去商业化的？

Speaker 1

首先我觉得做大模型跟做云的时代，最大区别是云它的覆盖率是比较慢的。

Speaker 1

最早是手游慢慢覆盖到像金融啊不同的制造业。

Speaker 1

但大模型这一波的改变是全行业覆盖。

Speaker 1

所以当听到这个问题的时候，我首先先想的是行业诶，好像每个行业都在用，只不过它的渗透率不一。

Speaker 1

所以呢，我们现在换种逻辑，我们可能认为两种方向：第一种方向呢，是模型跟企业结合，那它提升的是企业的生产力，因为一个企业内部有大量的流程，每个流程背后都是不同的角色，那怎么样把这个流程基于结果导向提高效率？

Speaker 1

其实大模型可以做非常多的事情，不管是设计、coding。

Speaker 1

还是做 research sales，其实每个环节都有大量大模型可以做的一些事情。

Speaker 1

所以这是一个大的领域，也就企业内部跟大模型的结合，我们把它叫生产力的提升。

Speaker 1

那还有一块呢，是产品跟大模型结合。

Speaker 1

因为今天有大量的互联网公司，或者说一些硬件，而且刚刚正好讲到一些消费电子硬件，其实这些硬件和 app 天然就是跟用户打交道这么一个渠道，而这些硬件和 app 它经过大模型改造之后呢，它的交互体验就发生很大变化。

Speaker 1

所以我们今天看到绝大部分的硬件产品都叫做 ai，比如 ai phone，ai pc。

Speaker 1

智能座舱等等，因为有了大模型之后，它的体验变化，所以它的整个产品定位都发生了根本性的改变。

Speaker 1

所以我们会跟他们有很多深入的合作，而且这个合作已经越来越深入了。

Speaker 1

原来我们更多的强调的是在云上的合作，今天我们看到像手机和车厂。

Speaker 1

他们因为有大量的低延时和本地化的一些需求，那所以呢我们之前有发了一个模型叫 omni 模型，这个模型是一个4b 的模型，现在很多车厂和手机厂商对类似这样一个模型能够进入到车企和手机都非常感兴趣。

Speaker 0

这是类似于卖一个端模型，对吗？

Speaker 1

是当这个场景可能更多局限于算力比较强的手机厂商和车厂。

Speaker 1

毕竟它里面有大量模型，能不能跑起来、功耗的问题、发热的问题。

Speaker 1

所以呢，这个也是经过了大概两三年的打磨。

Speaker 1

很多车厂和手机厂开始考虑到一个端云结合的一个架构，端侧的模型开始被大家关注，是因为今天需求越来越旺盛，光云的模型可能还不够。

Speaker 1

所以今天我们开始已经进入到一个深水区。

Speaker 1

也就端云模型的结合都开始成为一个大家关心的一个话题了。

Speaker 0

嗯，所以我理解未来从普通消费者的视角来看啊，我们未来每一个手机，甚至是每一辆车，它可能都有跟你智能化交互的能力。

Speaker 0

然后它都会变得很智能。

Speaker 0

对，它一开始就嵌入到手机里面去的。

Speaker 1

对，因为大家知道，就智能设备的话，它其实是每个人贴身的一个入口，所以呢，这里面也会涉及到一些任务，它可能偏隐私性的、高时效性的。

Speaker 1

所以今天在一些硬件厂的规划里面就会考虑到这件事情。

Speaker 0

嗯，然后你刚刚提到了端云结合的这个趋势，就是在端侧我可以理解，相当于我们把这些，比如说阿里的，你刚刚提到 Omni 的这个模型。

Speaker 0

放到一个手机或者是一个车里，我可以理解它有一些任务是在云上处理的，比如说它是会接阿里云，还是会接它自己的云？

Speaker 1

呃，首先因为今天绝大部分的我们国内的企业基本上都在阿里云上面提供这样一个云服务，所以我们现在会有一个推理的平台叫百炼。

Speaker 1

所以今天大量的企业，它是通过百量这样一个mass服务平台直接跟它的设备做交互。

Speaker 1

包括刚才我们说到的消费电子硬件设备，其实都是通过这样一个平台去做交互的。

Speaker 1

那这个平台它核心要求就是高并发、低延时、可观测。

Speaker 1

如果有些企业一些特性，它需要能够去做健全管控。

Speaker 1

那所以这是一个相对完整的一个平台。

Speaker 1

所以今天可以理解为绝大部分企业已经通过这个平台来去跟它的业务去发生连接了。

Speaker 0

嗯，什么样的场景可以直接在端侧处理，什么样的场景要移到云上？

Speaker 0

我大概是想知道大家在做这样的一个合作的时候，它那个端侧跟云它大概会占到一个什么样的比例。

Speaker 1

这是一个动态变化的，因为今天的端侧模型比两年前我们的最大杯的模型效果都要来得好。

Speaker 1

也就是我们当时的模型可能是一个百B以上的模型，现在只要一个四B的模型，它可能就效果翻改变。

Speaker 1

所以呢，我觉得通用类的任务、一些基本的交互任务，包括语音和视觉的理解，基本上都可以通过本地的模型去做识别和交互，可能七成以上都会端侧模型可以比较好的去解决了。

Speaker 0

嗯嗯，你觉得客户在跟阿里合作的时候啊？

Speaker 0

大家最看重或者最关心的问题是什么？

Speaker 1

这是一个变化的过程，最早关心的是效果，因为当时模型效果可能还不是特别好，所以他会提大量的垂直的任务，也会构建评测集。

Speaker 1

最近这半年或者一年，客户开始从效果转变到了性能和成本。

Speaker 1

也是因为我们今天模型的整个体量可能比过去它增长了几十倍，所以客户他开始进入到严肃的生产环节。

Speaker 1

也就是模型效果其实已经基本得到验证了，就我刚刚有提到过的TPS手包的延时，甚至现在很精细化，他们会告诉我们，比如说4K的INPUT和10万的INPUT，它有分别不同的TPS跟手包的要求。

Speaker 1

那还有一些业务，它可能会是一个高并发。

Speaker 1

比如说我们今天看到很多智能外呼，因为大家知道智能外呼它可能一天只有几个小时是最适合做外呼的，它不可能24小时。

Speaker 1

比如说晚上凌晨我再去做外呼，所以呢它有很强的高并发。

Speaker 1

我们希望比如说半个小时之内有十万通电话能够做外呼，这个场景其实跟模型的并发要求就会非常高。

Speaker 1

所以并发性能都是我们今天看到客户很多非常关心的事情。

Speaker 1

那最后就是我刚刚说的成本，因为今天使用量比过去扩了几十倍、上百倍的情况下面，其实成本势必它会进入到一个非常关心的话题。

Speaker 1

我们CALL BACK到就一开始说的视频生成这个模型，这个模型其实目前还是比较贵的。

Speaker 1

那如果今天真的是要批量化生成自动化的广告，那它对成本的诉求要求也会进一步提高。

Speaker 0

嗯，对，我听到你刚刚说他们会关心性能跟成本啊。

Speaker 0

在性能上，从你接触下来看，整体上客户对这个行业的理解已经比较深了，他们大概知道什么样的场景下我可以用一个小模型去解决，什么样的场景下我需要用大一点的模型。

Speaker 0

我自己听到这个叙述，我感觉整个行业商业化的应用它可能已经不是在一个开始了，就是大家已经开始。

Speaker 0

去挑，然后去提出自己的需求，然后对这个行业它的垂直跟细分跟精细的程度是有更多的考量了。

Speaker 1

是那个你刚刚说到的有一点给了也给我启发。

Speaker 1

最近我们这段时间小模型的需求也特别多，重复的任务。

Speaker 1

其实小模型有可能会有比较不错的性价比，因为它没必要去跑一个非常大的模型。

Speaker 1

第二个呢，就是像意图理解、意图的抽取。

Speaker 1

因为很多企业它的chatbot或者说它的agent，它可能第一步就是对用户的理解去做一些判断。

Speaker 1

那在这一步的话，我们也看到很多小模型的需求非常多。

Speaker 1

所以今天小模型或者说中小杯的模型，客户也给我们提了很多post training或者fine tuning的一些需求。

Speaker 1

也就是说，今天我们的平台能不能去给到他们混合一些闭源的数据和基于闭源模型，再去混合他的数据来去训练出一个适合他的一个小模型。

Speaker 1

这个需求也是最近三个月开始越来越多了。

Speaker 0

嗯，很有意思。

Speaker 0

我觉得成本是大家非常关注的一项啊。

Speaker 0

你觉得现在从阿里来看，你们的推理成本降了多少？

Speaker 1

哦，那推理成本我觉得基本上都是按照半年快接近一个量级这样一个下降。

Speaker 1

大家可以理解为一个量级就是10倍，因为大家知道成本下降它有多个因素的影响。

Speaker 1

第一个呢，就是你们模型结构，大家的模型都会变得越来越稀疏化，都会用到混合精度，都会用到MTP这些技术呢，基本上都对模型模型测它就会持续下降。

Speaker 1

那第二个的话呢，就是跟我们的芯片有关，今天模型跟芯片它垂直一体化的设计，它也会带来大量的新的潜在的红利。

Speaker 1

那第三个呢，其实就跟调度有关。

Speaker 1

过去我们其实讲模型的推理成本会考虑它利用率啊，这其实是一个云的概念。

Speaker 1

因为过去我们云的话就会讲利用率，讲库存的管理。

Speaker 1

因为你的利用率只有百分之五十或者比只有百分之三十的时候，其实你的成本就会变得很高。

Speaker 1

如果你的利用率非常高的话，那你的成本就会下降。

Speaker 1

所以呢，我们也是通过比较完整的一个调度，就比如说我不同的模型的切换，我不同时间段针对不同任务的切换。

Speaker 1

夜间通过跑批任务的处理，它都会对利用率的提升带来很大改变。

Speaker 1

所以我觉得刚才是有多个维度都会共同造成推理成本啊，它是在快速下降的过程。

Speaker 1

可以补充个具体案例吧，就是我们在25年年底的时候发了一个模型叫昆山NEXT，这个模型是一个80A3的模型，是我们下个版本的一个预言的版本。

Speaker 1

那这个模型其实就是大家看到系数比很高，就是我们之前还有一个模型是30A3。

Speaker 1

30B 参数3B激活，那这个模型它是80B的参数3B激活，那它系数比很高。

Speaker 1

那在这样一个模型下面，我相信很多开发者已经试过了，它的推理效率，包括它的效果。

Speaker 1

它的速度都得到了非常大的改变。

Speaker 0

嗯，挺有意思的。

Speaker 0

而且刚刚其实你在提到除了这个模型的结构、模型的算法以外，很重要的是一个芯片设计跟它垂直一体化的设计。

Speaker 0

我最近其实还做了一个谷歌TPU的选题啊，大家可能在这期播客前后会听到这样的一个选题。

Speaker 0

其实也是讲为什么谷歌的推理成本在早期的时候我们就看到它是OPENAI甚至是ANTHROPIC的十分之一。

Speaker 0

细究下来也发现它的TPU根据它的这个模型的算法，它是有专门去做设计的这种软硬一体化，对它模型的推理成本的下降是非常有帮助的。

Speaker 1

所以，我们看整个阿里巴巴的科技板块还挺有意思的。

Speaker 1

我们今天有自己的云、有自己的模型，也会有自己的一些芯片的投入，所以它是三位一体，可能会跟谷歌看听上去有点接近啊。

Speaker 1

垂直一体化的好处是非常多的，这其实可能还不仅仅是芯片跟模型，还涉及到云，因为刚刚说到调度，其实都是跟云有关的。

Speaker 0

是的，是的，我注意到你们也是全球最全面的一个开源大模型。

Speaker 0

为什么当时决定要开源？

Speaker 1

我记得印象比较深是在应该是23年的8月份前后，我们那个7B模型得到非常大的市场反馈。

Speaker 1

基于这个模型，帮我们打开了非常大的一个全球的格局。

Speaker 1

大家知道千万的模型包括万在海外社区里面的活跃度非常高。

Speaker 1

有几个非常显而易见的好处。

Speaker 1

第一个好处，其实对于我们的人才的吸引力会大大增加，因为有可能很多非常TOP的那些科研工作者或者说学生，他其实在学校里面就开始在用千文的模型，所以呢，他对千文的很多特性是非常了解的。

Speaker 1

第二个呢，就是看我们得到了社区的大量反馈，越早期的时候非常明显。

Speaker 1

嗯，然后社区里面还包括了很多做推理框架、推理引擎的，甚至端侧部署的一些社区里面的开发者。

Speaker 1

他们是最早就会围绕我们的生态去帮我们做很多建设，包括会提很多甚至一些数据集上的问题或者BAD CASE上问题。

Speaker 1

所以这个对于我们模型的快速迭代的帮助是非常多。

Speaker 1

在开源这块儿，我们应该是投入非常大的。

Speaker 1

今天在国内外，大量企业级内部，就我们自己有大概了解过，绝大部分或者几乎没有开发者可能不知道。

Speaker 1

千问如果在企业级内部的话。

Speaker 1

它或多或少都会用到千文的一些能力，尤其是我们开过很小参数的模型，像1.5B、像3B以下的模型。

Speaker 1

我们可能还有个最甜点的模型是32B，因为32B可以单显卡就可以跑起来。

Speaker 1

那这些模型其实在企业里面有大量的应用。

Speaker 0

嗯，那你开源跟闭源怎么去做商业化平衡啊？

Speaker 0

因为我理解客户他拿到开源的模型就可以免费用了嘛，闭源的模型你跟他其实是可以有商业化的收入在里面的。

Speaker 1

对，这是一个非常好的问题啊。

Speaker 1

首先阿里云是一家云的公司，啊，所以今天我们看到开源对我们整个云的带动也是非常明显的。

Speaker 1

所以我觉得从另外角度来说的话，整个阿里云的基座得到了快速的发展，这是非常好的商业化的一个正循环。

Speaker 1

第二个呢，就是因为开源模型也会存在一个问题，就我开出那一个刹那，它就是一个离线的版本了。

Speaker 1

所以呢，我们有很多问题需要在我们的API版本里面，就所谓的闭源版本里面去做一些修正，在这样一个情况下面。

Speaker 1

其实闭源版本它会有一些能力上的特性的提升，所以今天也有很多开源的生态的用户，他也当然也希望有更简单易用、并发更高的这样的一个环境。

Speaker 1

所以呢，他就也非常乐意直接使用我们的MAX服务。

Speaker 1

那另外呢，我们开源的模型也会考虑到开发者的使用的易用性，所以呢，我们过去开出来的模型相对来说没有那么大。

Speaker 1

其实我们最大的模型千问三MAX没有开源，因为这个模型其实真的要部署起来，那要花费非常大的一个成本。

Speaker 1

我们千问3235B那个模型，大家有些需求没有满足情况下，他也会来选择我们的千问3Max的模型。

Speaker 0

OK了解，在2025年大概是春节前后的时候啊，行业里面最大的一个事情其实是DeepSeek发了他们的开源模型，让整个中美都是眼前一亮。

Speaker 0

你觉得他们的开源模型的发布会对阿里有冲击吗？

展开剩余字幕（还有 335 条）

Speaker 0

包括在商业化上。

Speaker 1

呃，我觉得今天这市场还是属于一个中早期阶段。

Speaker 1

其实更多的模型公司去推动技术进步，这是最重要的事情。

Speaker 1

其实它的论文也写得非常清晰和有参考意义啊。

Speaker 1

其实对于整个行业，我觉得都是挺好的一个推动力。

Speaker 1

坦白说，它开源之后反而带动了整个开源的生态活跃，所以让困的开源得到了进一步的发展。

Speaker 1

所以为什么我们看到困反而在全球范围内有更多人用起来了？

Speaker 1

因为千问的话，从最小的0.5B版本到大一点的235B版本。

Speaker 1

它的跨度非常大，所以企业里面不同场景它都可以用得到。

Speaker 1

而且更新节奏很快，我印象很深，基本上我们一个月总是会发不同的可能3个小版本出来，再过一段时间3个月到半年，它有可能会连续发5个左右的相对大的版本。

Speaker 1

所以呢，我觉得是个相互促进的一个过程。

Speaker 0

嗯，今年大家讨论比较多的是我们怎么去衡量一个应用火不火。

Speaker 0

就是有一种行业内大家公认的方法，就是用它用了多少TOKEN来去量化这个合作的深度。

Speaker 0

你觉得未来大家要怎么去评价大客户或者哪个应用比较火爆？

Speaker 0

TOKEN量是一个很合理的这样的一个评估指标吗？

Speaker 1

我觉得阶段性有它的很好的一个参考意义。

Speaker 1

我们也看到很多公司是以 tokens 来去衡量它的创业估值的。

Speaker 1

但我觉得从长期来说的话，一定会回归到它的收入，不一定是直接的 tokens 带来收入，也有可能 tokens 之上分装出的 agent 收入。

Speaker 1

所以我们内部也会有两个探讨，一个叫做 model as service，一个叫做 agent as service。

Speaker 1

tokens 一定也会有它的一些弊端，比如说最小的模型跟最大的模型，它的成本和收入都会差1000倍都有可能。

Speaker 1

所以呢，它的商业价值其实是会非常大的不一样。

Speaker 1

再比如说多模态，包括语音的模型，它跟文本模型的 tokens 其实有的时候度量衡也没有那么清晰的，每家稍微它的定义也会有些不一样。

Speaker 1

但是不管怎么样，tokens 依然是当下比较好去观察业务使用量的一个情况。

Speaker 1

所以呢，我们今天对 tokens 也相对来说是比较关注一件事情。

Speaker 0

嗯，agent as a service 跟 model as a service 区别是什么？

Speaker 1

Model as service，它强调的是模型的服务能力，就是你能不能时刻推出最新的模型，你的 api 是不是一个应用性足够高。

Speaker 1

我记得之前 openai 的模型应该是 assistant api，它后来改成了 response api。

Speaker 1

包括我们今天看到很多公司在做那个 real time 的 api，那这些都是基于 api 层面，或者说 model as service 它衍生出的很多产品的用法。

Speaker 1

那还有跑批的任务。

Speaker 1

都是跟model as service有关的agent as service。

Speaker 1

其实今天它有可能会分成场景化，也有可能会分成行业化。

Speaker 1

那这两个呢，我觉得是在一个快速变化过程当中。

Speaker 1

agent as service其实简单来说的话，就是它可能会用到多个模型，最后把它分装出一个标准的任务结果，然后直接给客户用。

Speaker 1

其实像deep research，它其实就是一种agent as service的一种能力。

Speaker 0

嗯，了解。

Speaker 0

你觉得现在整个模型进化以及大家在模型上的投入还多吗？

Speaker 0

因为我自己的感受是，现在大家也关注模型，也关注模型的进化，但是它的整个的讨论热度就不如商业化这么热了。

Speaker 1

啊，您说是模型的研发吗？

Speaker 0

啊，对，模型的研发就基础大模型，就是最前线的性能最高的，再把模型推向极限的模型的研发。

Speaker 1

那我觉得这可能是一个小的一个反共识或者误区啊，就从我们在模型工角度来说的话，我觉得模型的研发投入反而变大了。

Speaker 1

就大家如果看今天市场上每家公司都可能说自己不够卡，每个实验室都说自己不够卡，那就意味着今天他们的工作结果是可以被定量衡量的。

Speaker 1

所以这是一个高度竞争的一个过程，只不过它有可能不像过去这么显性。

Speaker 1

比如说我突然出了一个欧文的模型，诶，有推理能力了啊；我突然有个NANA BANANA，它是一个非常显性，可以去做编辑了。

Speaker 1

那今天很多模型开始进入到非常精耕细作阶段，它可能没有说太多的非常极端的范式上的一个改变，但是呢，有大量工程细节值得去不断推敲。

Speaker 1

所以为什么我刚刚说到成本是以一个量级往下降，是因为今天可以做的事情太多了。

Speaker 1

比如说我们今天的一些数据清洗的能力，或者说评价的标准，过去可能是以规则，那现在都可以用模型了。

Speaker 1

那这里面有大量细节工作可以去做，怎么样可以做得更好？

Speaker 0

嗯对你觉得现在模型的研发主要表现在哪些方向？

Speaker 0

其实刚刚我们重点讲了多模态，可能是大家现在关注的一个重点啊，去年像agent的大爆发。

Speaker 0

比如说在 coding agent 的方面，跟 Anthropic 还有硅谷的几家大的模型厂商，它在提升自己的代码方向，它是有放更多的数据配比进去，它有更多的在优化这个方向的。

Speaker 0

那你觉得未来，从你看到的这个行业趋势来看，大家现在模型的研发在拼哪些方向呢？

Speaker 1

笼统讲的话，其实就 agent 的能力，因为 agent 或者 agent 这个词，每个人定义都不一样。

Speaker 1

如果从结果表现上来说的话，我其实比较期待是说一个模型它能够连续运行，比如说两个礼拜它能拿到非常好的结果。

Speaker 1

在这过程当中，它需要跟环境不断交互，它需要不断自己去做思考、判断、自己做假设。

Speaker 1

那这样一个模型它所带来的一个结果一定是非常棒的。

Speaker 1

所以回到我一开始有讲到的就是我们在语言模型方面的一些投入方向。

Speaker 1

其实就是工具调用的能力，上下文的能力，复杂指令的遵循能力，re 认定的能力。

Speaker 1

就这些能力其实不断往前提升，它拼在一起的时候，它就会得到很大的一个实际业务落地的改变。

Speaker 0

嗯，所以它其实主要是精耕细作，而不是在模型的智能上。

Speaker 1

对，这里取决于我们对智能的定义是什么。

Speaker 1

如果质量能打分的话，那其实这些精耕细作都是让智能的分数变得越来越高。

Speaker 0

嗯，讲的特别好，谢谢东哥。

Speaker 1

哎，好的，谢谢红军老师。

Speaker 0

那今天我们也请到了两位在这个模型之上做应用的朋友，来跟我们一起聊一聊。

Speaker 0

一位是语义科技联合创始人兼 ceo 吕英杰，hello 吕总你好。

Speaker 2

洪军老师你好。

Speaker 0

对，还有一位是 Insta 360研究院总监齐鲁教授，hello 齐教授。

Speaker 0

hello hello 你好。

Speaker 0

那齐教授先来讲一下你们 Insta 360的产品是怎么样跟 AI 结合的。

Speaker 3

就我们是作为一家影像公司，就是我们公司的一个使命的话，是让用户更好的记录和分享生活。

Speaker 3

所以这次其实和阿里的合作上，其中比较典型的一个代表就是云端的自动剪辑，我们希望能让用户可能拍了一天，也可能积累了一整年的素材。

Speaker 3

如何把这些零散的片段能够智能的剪成一条？

Speaker 3

拿得出手或者愿意分享的一些视频，是对于我们整个公司的战略是非常关键的一步。

Speaker 0

嗯，齐教授，您可不可以跟大家详细的讲一讲？

Speaker 0

你们是怎么样用到 AI 工具在你的视频剪辑中的？

Speaker 0

其实饮食是一家我非常喜欢的公司，因为你们那个滑雪相机，它可以隐藏那个相机杆，我觉得这个功能特别棒。

Speaker 3

先说一点，其实自动剪辑它本身就是一个特别主观或者玩法比较多的事情。

Speaker 3

因为它真正的难点不是把用户的片段能够拼起来，而是能够去命中用户的一个剪辑意图。

Speaker 3

不同的人他的喜好是不一样的，有的用户是更在意故事的延续性，希望我们剪辑出来的视频是像一部小型的纪录片。

Speaker 3

而有的用户是更想要一些高光的瞬间，这样的话会让整个的影片节奏更快或者更爽。

Speaker 3

当然也有一些用户会特别注重一些氛围和表达，就比如说一些配乐的情绪或者镜头的一些语言，或者我片段与片段之间的一些转场的风格。

Speaker 3

所以在这一方面的话，我们和阿里的合作其实也主要集中在两个方面吧，就一个方面是千万的多模态理解的模型。

Speaker 3

另外一个也是万系列的视频生成的模型，所以前面是更偏重于一些感知和理解，后面会更偏向于一些特效的生成。

Speaker 0

嗯，对。

Speaker 0

然后您刚刚提到AI工具在调用模型的时候，它有两块嘛，一块是对多模态的理解，一块是对视频生成。

Speaker 0

那假设我给AI工具输入一个指令，就是说你剪辑我所有从雪上滑下来失败的瞬间的案例。

Speaker 0

他可能首先要理解我的这个语意，其次他可能要去在视频里面去分析哪些是失败的瞬间。

Speaker 3

对，其实就是说我们的多模态理解这方面是负责去看懂整个用户的一个素材，他首先要理解我们的每个片段里面发生了什么样的事情，进一步做一些更为高光的一些提取，或者人物与事件的一些判断。

Speaker 3

最后我们可能是想要把我们比较多的片段内容如何以一种结构化的形式把它编排起来，让这些素材不再是一个杂乱的片段吧，而是是一个有逻辑、有主线的内容组合。

Speaker 0

嗯，你觉得现在整个模型的能力，它能理解到哪一步？

Speaker 0

它能剪辑到哪一步？

Speaker 3

就现在我们的多模态理解，如果从语义理解的层面上，是能够满足一定需求的。

Speaker 3

我觉得更大的一个问题是我们如何去做一个用户的意图识别，因为用户的意图识别可能和我们的这些素材是没有关系的，更多是一些用户的行为和有用户给定的一些指示词，但是很多时候这些指示词对于用户来讲。

Speaker 3

他可能也不知道我要怎么表达出我想剪辑成什么样的视频。

Speaker 3

这里的话会是一个比较大的一个难点，就是怎么让我们的剪辑算法理解到用户到底我想要剪成什么样的东西。

Speaker 0

嗯，就是用户是不是一个好的甲方，他跟乙方的沟通是不是能够让乙方清楚的理解他的意图是什么？

Speaker 0

然后这个意图只是说说失败的瞬间可能不行，你可能得告诉他说，哎，我从这个雪橇上飞出来了的画面，就是要给他一个更加清晰客观的定义，你觉得是在这一步很难。

Speaker 3

对，如果我们想要让用户给予一个很清晰的一个定义，那其实对于用户的体验来讲也是一个很差的嘛。

Speaker 3

其实我们更多的是希望用户能够用自己很模糊的一些语句，我们就能够理解到他。

Speaker 3

但是就这个是现在模型层面上还是比较难的一个事情。

Speaker 0

嗯，在你们去用AI做影片的时候，那你们推出的一些具体的功能是什么？

Speaker 0

然后它是怎么样去用到多模态的？

Speaker 0

可不可以跟大家讲一讲？

Speaker 3

是这样的。

Speaker 3

首先我们影视其实最核心的一个产品是我们的全景相机嘛，因为全景相机是一直秉承着先拍后剪的一个理念，就是我拍摄的时候会用360度的全角度覆盖，把所有的现场都完整的记录下来。

Speaker 3

接着在剪辑的时候，再从中挑选最好的一个视角，最合适的节奏，把内容真正的讲成一个故事。

Speaker 3

所以在我们的全景素材里面，其实它和我们平常所用的一些广角相机是不太一样的，就相当于我们是一个360度的全景图。

Speaker 3

虽然说现在通用的大模型都会引用到360度的素材作为我们预训练阶段的一些数据，但是更多的时候，这个全景素材的数据量在我们海量的平面素材的数量面前的话，就显得很少。

Speaker 3

所以导致我们的模型其实对360度的全景的素材就会理解的差一点。

Speaker 3

所以这正是影石的一个核心的技术壁垒吧，就是我们会通过自研的一套全景理解的模型，先对全景素材中进行一些更为高光的提取。

Speaker 3

后面我们会接入通用的这些大模型，作为我们平面内容的一些编排等。

Speaker 3

影石这边。

Speaker 3

会分为一些自研，还有可以直接调用 API 的两部分吧。

Speaker 0

哪一部分你们会自研，哪一部分你们会 API 啊？

Speaker 0

然后我补充一句你前面说的。

Speaker 0

我觉得从全景相机中取出可用的素材，这个需求实在是太硬核了。

Speaker 0

因为其实全景素材我们可以理解，在拍的时候，它可能2/3、1/2的素材其实是没有用或者没有动静的。

Speaker 0

你还是有一个主方向吗？

Speaker 3

对，对。

Speaker 3

如果是360度的素材，哪怕我的场景会相对单一，其实你可以加上一些各种各样的运镜的一些玩法，也可以让你的素材变得会更为生动一些。

Speaker 3

我们自研的部分的话，更多的是基于全景的这一套多模态的理解模型吧。

Speaker 3

后面就是我们会更倾向于会用通用的这些大模型来帮助我们对平面素材的一些理解。

Speaker 0

OK，我理解自研部分其实你们涉及到的东西就有一点点类似于世界模型了，对吧？

Speaker 0

360度的全景。

Speaker 0

但现在刚刚其实我们也有提到整个视频模型的进化，即使是视频模型，它也只是多模态，它是一个2D的场景。

Speaker 0

所以这一块儿我们再调用2D的模型是更方便的。

Speaker 0

但是360度的这种类似于超广角，甚至可以说是VR可用的，它就有一点类似于整个世界模型的研发了。

Speaker 3

对对对。

Speaker 0

嗯，挺有意思的。

Speaker 0

那你们现在应用成本呢？

Speaker 3

听起来会很高啊。

Speaker 3

对，这也是我们和阿里在合作的一些事情吧。

Speaker 3

就是说，因为本身也是类似于像这种世界模型，肯定我们是离不开收集大量的一真实数据，并且当我们把数据量的SCALING或者训练的SCALING给提上来的时候，所以我们需要一套能持续迭代的训练方法，或者一些稳定、更可靠、扩展的一些云端算力与工程的一些体系来支撑我们整个世界模型的开发。

Speaker 0

嗯，所以你们现在相当于和第三方合作的大模型，其实也是可以应用到世界模型的研发中的。

Speaker 3

对对对。

Speaker 0

嗯，我在CES上其实有体验你们发布的一款新产品啊，就是你们的VR无人机。

Speaker 0

它跟大疆最大的不一样是它拍到的也是一个全景的照片，这个全景的照片同时我可以拿着VR去观看。

Speaker 0

所以其实这些数据也可以是你们做世界模型的一部分。

Speaker 3

对，当然我们也是需要得到用户的一些许可吧，肯定是在符合合规的一个前提下，就是我们可以把这部分数据进入到我们的模型的开发中。

Speaker 0

嗯，你们让AI帮助用户做视频的理解和生成，甚至是剪辑，这些功能都是已经发布了还是正在研发中啊？

Speaker 3

我们云端的自动剪辑已经上线了。

Speaker 0

嗯嗯，这个是2D 视频还是3D 视频的剪辑？

Speaker 3

也是360度的视频剪辑吧？

Speaker 0

对，然后是用 AI 去剪的。

Speaker 0

对对对对，因为这个可能涉及到商业化的一个部分啊。

Speaker 0

比如说用户他去拍一段 VR 假设啊，他拍了一个3分钟左右的360度的视频的场景，然后你们要用 AI 把最有亮点的环节剪出来。

Speaker 0

它大概会消耗什么样的成本？

Speaker 0

然后卡在哪？

Speaker 0

你觉得这个成本下降，它的核心的驱动力是什么？

Speaker 3

用户的话，剪一段这样的素材可能得需要十几块钱的成本吧？

Speaker 3

其实这个成本还是蛮贵的。

Speaker 3

所以我们也是尽可能地希望能在技术上解决，包括我们对模型的一些输入上做一个更高的信息压缩。

Speaker 3

因为刚刚也介绍了，我们的素材是360度的全景，它的可压缩率是比较高的。

Speaker 3

所以我们更希望结合全景的一些特性，从技术手段上能把整个的TOKEN数量给压下来。

Speaker 0

嗯嗯，我觉得还挺有收获的。

Speaker 0

那接下来我们来聊一聊第二个案例，语义科技，它是怎么样帮很多的大型的零售公司用 AI 来提升业务能力的。

Speaker 0

吕总，我知道有很多大家耳熟能详的，像雀巢、宝洁、泡泡玛特都是你的客户。

Speaker 0

你可不可以先跟大家介绍一下你们主要是做什么的？

Speaker 2

好的好的，我们是一家为国内消费品牌以及跨境的消费品牌提供全域消费者洞察分析这样的一家数据 insight 的分析的 AI ToB 的这样的一家 SaaS 公司。

Speaker 0

要不要你现在分享一下你们是怎么去做 AI 的，然后怎么跟你们的客户去合作的？

Speaker 2

好呀，因为之前中国的消费品的电商企业主要的运营性方式，其实是通过我做一个产品，我去买流量，直接转化成我的客户。

Speaker 2

这个其实就非常吃流量红利嘛，大家都知道到了二三年以后，中国的流量红利来说是比较见顶了嘛。

Speaker 2

所以其实有非常多的头部的消费品企业，大家有一个逐渐的意识，就是我们可能要从流量思维进化成流量加消费者思维。

Speaker 2

这个就诞生出来，他们有大量的对这些消费者调研需求的认知。

Speaker 2

其实企业在电商这个领域里面，有大量的消费者进线跟客服来进行沟通的这部分的数据。

Speaker 2

这部分的数据其实就是我们可以给企业通过AI给他建立不同意图识别的模型，帮助他去了解他们的消费者、不同的用户画像、不同的客户需求等等。

Speaker 2

因为我们很多客户都有通过大模型直接去对这个原始数据进行一个意图理解、意图抽取，变成标签化的一个过程。

Speaker 2

他们自己做的话，他们的准确率其实是连70%都没有办法达到。

Speaker 2

我们其实就是想帮他去解决这个问题。

Speaker 2

我们公司其实从21年、22年开始就有在用GPU跑显卡，就是我们只做了一个非常垂直的，就是不同行业的消费者意图识别的这样的一个小模型。

Speaker 2

客户告诉我们，他们希望对这个原始语料打标。

Speaker 2

方向意图方向你到底是什么？

Speaker 2

我们来帮他搭建意图识别的AGENT。

Speaker 2

我们发现在这个里面，其实大部分客户会有几个需求。

Speaker 2

第一个的话，其实他希望对原始数据可以去打出来他们消费者不同的画像。

Speaker 2

这个画像区别于传统用来做投流的那些画像，那个可能会更加偏向于年龄啊、OFFICE LADY、白领啊。

Speaker 2

但其实跟消费者是不是对你的产品感兴趣，其实并没有特别直接的一个关联。

Speaker 2

以我们的一个非常头部的一个美妆品牌来说，他其实希望的是了解消费者的肤质情况，以及他使用我产品以后的这些产品反馈是否会引起过敏。

Speaker 0

那这些信息要怎么收集到呢？

Speaker 0

我也觉得这些信息挺有用的，就是他对你这个卖出去，而且给他推荐正确的东西。

Speaker 0

因为我现在就经常比如说买护肤品或者化妆品，我就觉得。

Speaker 0

哦，选择太复杂了。

Speaker 0

我要把这个研究清楚都要用好久。

Speaker 2

对对，比如说您这边去买东西，我们会让我们的客户把接待话术上进行买点的改造。

Speaker 2

当客户进线之后，要主动的去跟客户说：‘我是你的护肤美妆的一个顾问，我为了您更好的帮您推荐产品嘛’。

Speaker 2

那么我希望去了解一下您的肤质情况。

Speaker 2

如果你做这样一些买点改造之后，其实消费者提及率就会相对来说高很多。

Speaker 0

OK，你们是相当于帮他们训练他们的这个AGENT中间的一个环节，主要是帮他看这个流程如何能够收集到更对他们有利的数据，通过这些数据再来调整这个模型，让他能够帮客户促进更多的销售。

Speaker 0

这样的一个理解是对的吗？

Speaker 2

是的，这个是一个方向。

Speaker 2

我们帮他在处理的这个过程中，其实我们会发现有几类意图嘛。

Speaker 2

第一类就是消费者画像类的，第二类我们称之为消费者意图，就是消费者对产品、对服务、对物流、营销的一些反馈，不管是正面负面的，那这些我们会帮他去做识别。

Speaker 2

第三类其实就是比较有意思，这个可能就是每个企业里面都会有不同的，我们称之为归因。

Speaker 2

举个例子啊，我们有一个非常 top 的国内的日化品的企业，他们原来团队有6个人，会对消费者的退货他会要人工去登记退货原因是什么，对应到的是哪一个责任部门。

Speaker 2

然后我们需要归因到这个责任部门之后，来对他进行一个奖罚的绩效机制。

Speaker 2

我们帮他们去搭建了这样一套AGENT的归因模型之后，现在只有一个人在复审这个环节哦。

Speaker 2

那这个就会每个企业都会有不一样。

Speaker 0

嗯，我觉得你刚刚讲了，就是你们跟这些企业合作，他们怎么用AI呀？

Speaker 0

就是有好几层的动力，一个是我们最开始讲的AI去做客服中心，直接可以帮他节省成本。

Speaker 0

包括促进销售，还有促进销售的转换，然后以及企业的归因。

Speaker 0

我觉得我们可以一个一个来分析一下，因为我觉得取代客服这可能是大家能想到的最常用的一个 AI 的功能了，你觉得这个效果好吗？

Speaker 2

我们倒不觉得它是一个完完全全替代客服的过程。

Speaker 2

客服的话，其实我们会把它的工作流分成两趴嘛，第一趴是售前接待嘛，第。

Speaker 2

第二趴是售后接待处理嘛，售前接待这个环节里面，传统意义上就客户问一个产品问题，那么我给你解答，像这种单点的一个环节的大模型，我可以说经过知识库训练校准之后，其实它的回答准确率会比人还要好，非常棒。

Speaker 2

但是客户的真实咨询场景里面，他其实会遇到一些比较复杂的场景，比如说他会问你一个优惠券，大模型可能会直接告诉你你这个优惠券是多少多少多少，但是这个客户跟你说，ok，我们在浙江地区能不能参加这个国补？

Speaker 2

大模型可以再调取，你这个国补的政策是怎么怎么样的？

Speaker 2

他会可能问的再复杂。

Speaker 2

我现在买 a 的情况下，你帮我凑单凑 b 的单，能够帮我减多少？

Speaker 2

这么一个延展下去。

Speaker 2

它可能准确率效果来说就没有那么好了。

Speaker 0

嗯，比如说在这样的一个环节，就你们跟这些基础模型是怎么合作的？

Speaker 0

就我们拿千问大模型来举例啊，就是你们是怎么去调用他们的 ai 跟 agent 的？

Speaker 0

他们提供的是哪一部分的能力呢？

Speaker 2

基模能够提供呢，就是消费者提的这个问题，它代表了什么意图吗？

Speaker 0

意图识别。

Speaker 2

对对，其次呢，大家都普遍都在做的，就是会给客户搭建这样的一个 AI 知识库。

Speaker 2

通过大模型，当客户识别出意图之后，进入到下一个工作流，用 rag 的方式去获取这样的一个外挂的知识库。

Speaker 2

除了这个以外，大模型也会对这个知识库会有一个比较大的清洗的帮助。

Speaker 2

就是因为企业里面内部来说，他们的知识并不是大家想象中的好像非常标准化的文档给到，其实会有非常多的复杂的文档，它有时候更复杂是它会给你一张详情页的图。

Speaker 2

再到一些就是一个XMAN的一个工作流，就是这个优惠券的问题，客户问一、二、三你应该分别怎么样等等。

Speaker 2

这么多复杂的知识源，其实都需要通过大模型去梳理到相应的知识库里面去。

Speaker 2

这个其实也是它的一个比较重要的机模能力的一个体现。

Speaker 0

嗯，所以你们在选模型的时候，你们最看重的是什么呢？

Speaker 0

是机模的能力，还是说这个过程中给你们调用的接口？

Speaker 2

因为，我们自己的核心其实还是在帮我们的品牌做消费者意图识别、理解这个上。

Speaker 2

所以我们会非常看重基模在这个能力上的体现，因为我们也不仅是测了一些国内，因为我们也有一些跨境的客户，所以我们也有一些多语言的数据。

Speaker 2

其实我们在多种测试时候确实是发现，阿里的千问其实在电商场域内的消费者意图的理解能力是属于比较强的。

Speaker 0

嗯，对，因为我觉得你们的位置挺有意思的。

Speaker 0

就是你们的上游是基座模型，你们是中间一层，然后下游其实你们还连接着很多想把AI应用到企业中的客户。

Speaker 0

你觉得这些客户他们在应用AI的时候，比如说我们刚刚提到的客服，他是为了节省成本；那我们提到的消费者意图的识别。

Speaker 0

包括企业归因，它可能有一些它也是在促进销售。

Speaker 0

客户在用 AI 他们到底是想省成本，还是想增销量呢？

Speaker 0

就是他做的是一个存量还是一个增量市场？

Speaker 2

这个问题也比较有意思，因为我觉得这是也是个动态发展的。

Speaker 2

从23年开始，国内其实就我们一直在探索如何用 AI 帮助企业。

Speaker 2

那个阶段的时候，大家都是非常关注的，其实就是。

Speaker 2

怎么样降本？

Speaker 2

但是其实在去年后面开始，我们会发现这个市场变化还是比较大的。

Speaker 2

非常多的企业发现你用 AI 去做一些自动化的，节省人工之后，其实这个事情它本身是有上限的。

Speaker 2

就跟我刚刚给大家分享的，我们那个日化客户，其实他原来有6个人在做判责的审判嘛，然后现在比如说 AI 帮助他了，他只需要一个人去复审就可以了。

Speaker 2

这样的话就他省掉5个人，但是企业会发现，其实对我这个体量的企业来说，其实省掉5个人的钱，也就是这么回事。

Speaker 2

也没有说对我带来特别大的公司层面上的效益价值。

Speaker 0

哎，省掉五个人，因为他要买模型，他还要接接口，然后他还要付TOKEN的成本。

Speaker 0

他这账能打平吗？

Speaker 2

完全能在24年后面下半年开始，其实越来越多的企业他们会想去做如何想用AI来帮他增效，他们希望去AI去帮他发现一些更加深度的产品的机会、消费者的需求点，或者是原来老的产品的一些新的场景化的新的点。

Speaker 0

这个是模型带来的吗？

Speaker 2

这个应该不是，说是全是模型带来的啊。

Speaker 2

因为模模型本质上在做的其实是数据清洗、数据处理、加工之后，把它变成一个标签化，再给到企业去看嘛，再做一个AGENT的深度报告给到企业。

Speaker 2

这个我觉得是模型带来的。

Speaker 2

但是这条产品线是否要去做、怎么做、怎么营销，这个可能还是确实是企业自己CEO、CO他们更多要去看的一个事情。

Speaker 0

嗯，所以整体来说是他们结合市场的感知跟模型的这一块深度搜索的能力做出的一个企业的决策。

Speaker 2

对对，是的是的。

Speaker 0

有没有什么您合作的品牌，他们通过跟 AI 的合作，他在销量跟转换的数据上有一个提升的。

Speaker 2

有呀，国内非常 top 的家电品牌，他们的一个品类线的事业部，他们因为主打的是高端的产品线，就是客单价基本上是在2万以上。

Speaker 2

他们就是通过我们帮他们提供的 AI 的 VOC 的消费者的画像识别能力，以及这些不同高端客户对产品的细分反馈。

Speaker 2

他们针对这个客户的这些对产品的功能需求反馈，来做整体的营销的卖点设计，以及接待的，比如说主播的话术，客服接线的话术。

Speaker 2

在应该是合作了一年半以后，他们整体的销量涨幅是23%。

Speaker 2

高端线的产品提高了6%点几的客单价。

Speaker 0

哦，这个还挺有意思的。

Speaker 0

其实涨价了。

Speaker 2

然后销量还提了。

Speaker 2

对对，是的。

Speaker 2

所以这个更多的就是他们发现了一些，在他们的消费者进线以后，有哪些细分的功能需求？

Speaker 2

诶，他觉得这个功能需求可能是企业在设计我的卖点的时候，其实我是没有关注到的，我就可以来进行这样的一些营销卖点的转化。

Speaker 0

所以他们后面有在追加AI这一块的预算吗？

Speaker 2

有呀，这个就跟AI的收费逻辑有关了。

Speaker 2

AI它本身是根据你要处理越多数据，你要跑相应的TOKEN嘛，那么你相应的费用就更高嘛。

Speaker 2

他们的因为销量好了，数据量就本身就变大了，这方面的费用肯定也是上涨的。

Speaker 2

也正是因为我们跟他们这个单一的一个事业部的一个合作，他们觉得是效果非常好的。

Speaker 2

因为我们跟他们最早是24年开始合作的，在25年的时候，他们帮我们推到了整个集团，就是每一个事业部。

Speaker 2

他们都接入了AI识别的模型能力，跟这样的一套SAAS产品和AGENT的能力。

Speaker 0

AI识别你指的是语音识别，还不涉及到多模态的识别能力对吗？

Speaker 2

啊对，还是语义识别哦。

Speaker 0

语义识别对对。

Speaker 2

因为多模态的能力我们自己其实也是在25年下半年才逐渐开始给客户去探索，慢慢逐渐去上线。

Speaker 2

其实在25年的整一年里面，多模态的意图识别的能力其实比基模的能力是加强了特别多。

Speaker 0

嗯，你觉得像你们这样一端连模型，一端连客户的这些中间服务层，你们的核心竞争力是什么？

Speaker 0

是你们对业务的理解深度，还是说你们的技术能力？

Speaker 2

就我们自己企业来说，这个两方面我们都有。

Speaker 2

其实我们自己也会训练我们自己的一个针对不同行业意图识别的模型，就是我们自己的数据飞轮。

Speaker 2

那么因为在客户显性的地方，他们在看到的其实可能就是一些意图识别的标签以及一些成品的agent嘛。

Speaker 2

但是其实对我们来说，我们会留存这些数据来逐步训练我们自己的垂直模型，让它变得在意图识别这个场域里面，它会越来越准越来越准，尤其是对同类目的客户。

Speaker 2

另外一个更重要，客户其实在答应在最终买单呢，其实他还是希望的是一个我们作为不仅是技术供应商，其实他们希望我们作为的是一个场外的一个行业专家的这样的一个身份。

Speaker 2

给他们提供一些更好的行业 knowhow 如何一些头部的企业在应用这些 AI 的产品，怎么样去达到，比如说他们初期可能我们的目标就是降本，就是哪一些工作环节里面的重复性的工作可以通过 AI 来自动化。

Speaker 2

下一步的话就是如何通过 AI 去帮助我们增效，如何发现新的商机，新的机会，如何帮我们老的产品提高它的转化率，降低它的退货率等等更实际的一些业务指标。

Speaker 2

然后我们的整体的公司的，我们叫客户成功团队，CSM 团队上来说，也会配了相应的，给不同行业都会配相应的行业专家。

Speaker 2

给他们去提供。

Speaker 0

嗯，我觉得挺有意思的。

Speaker 0

然后有一个更加未来的问题啊，刚刚你的这个例子中，我能看到确实AI在意图识别以后，它给消费者匹配的商品更加精准，它确实是可以带来很多销量的提升跟转换的。

Speaker 0

那我们也看到越来越多的行业，包括大的品牌，他们其实都在把AI打入到自己的工作流里面。

Speaker 0

甚至是在自己的销售环节都会用 AI 那最终所有的企业都开始用上 AI 了，它会不会最终它的效果会在慢慢变弱，甚至它是追平的？

Speaker 0

只是说现在我们还在这样的一个红利期中。

Speaker 2

这个问题确实比较有意思啊，大家都升级了军火库嘛，原来都是最传统的军火，那如果大家都升级了以后，还有什么竞争力吗？

Speaker 2

我还是说一下我自己的想法吧。

Speaker 2

我。

Speaker 2

我认为AI未来的价值核心还是掌握在人手里的，就是看如何去使用它的人。

Speaker 2

因为它可能在地图识别、可能在方向匹配，然后可能在DEEPER SEARCH的一些报告生成上，可能每个企业最后发现诶，它大的方向上可能诶都会比较偏一致。

Speaker 2

但是最后做出决策的这个人，他如何去看待这些数据呈现出来，如何他能够挖掘出这些AI处理过的数据之后的一些INSIGHT，这个可能就是非常看。

Speaker 2

人的洞察能力了，他做完最后那些东西，肯定还是要人来找到那些洞察的，真正的那些机会点在什么地方。

Speaker 0

嗯，我觉得这个总结特别好，而且我觉得现在是在一个 AI 的红利期。

Speaker 0

越往后归因，可能未来真正的好的产品才是最具竞争力的。

Speaker 2

对，是的。

Speaker 2

所以我认为好的产品经理，好的伙伴肯定永远是有机会的。

Speaker 2

我再提个题外话啊，我觉得 AI 其实对 ToB SaaS 这个行业来说，在客户收费意识教育上是起到了非常好的效果。

Speaker 2

因为之前其实大家会认为中国的TO B企业客户其实是不大愿意付费嘛，或者说付费意愿跟付费的金额可能没有那么高嘛。

Speaker 2

那是因为他们可能认为谁都可以做这个软件嘛，你没有这么特别大的价值。

Speaker 2

但是现在是AI这波还是影响比较大的客户，现在是明确认知到，因为AI是按照TOKEN计费的嘛，那就是我用了多少数据量，你们作为第三方的基模以外的供应商，你们就会有这样的相应的成本。

Speaker 2

我如果不付给你这个钱呢，你没办法给我提供这样的一个服务。

Speaker 2

可能这也是我们在朝美国 to b 市场在跟他们同步。

Speaker 0

嗯，哦，这个观察挺有意思的，对。

Speaker 0

所以现在基本上其实行业里的客户他们也都认可我用 ai 它背后就是会产生 token 它就是会产生成本，大家就按成本计价的形式。

Speaker 0

那大家一般收费的标准是什么呢？

Speaker 0

就比如说美国，我们看到他们的 saas 一般的使用就是。

Speaker 0

你每个月会有一个固定的订阅费，比如说20美元、30美元。

Speaker 0

当然这个我觉得它有可能是 to b 或者 to p，就是 professional 也会有 to b 的。

Speaker 0

那中国现在大家，如果你们是像一个 to b 的企业去营销，当然你们可能还是中间层，还不是一个工具啊。

Speaker 0

就现在大家的付费方式是怎么样的？

Speaker 2

我们其实会提供一个 saas 的一个平台，我们加工完都会在这个地方储存嘛，所以我们首先一定是会提供一个 saas 的版本给到客户，那么客户首先是肯定要根据这个 saas 来计一个 license 的费用。

Speaker 2

因为我们现在帮客户做我刚刚说的人群画像、意图识别、归因的不同的AGENT的应用嘛，这部分的东西收费的逻辑就是根据我们给你们处理的数据量。

Speaker 2

比如我们现在这一年帮你们去跑，因为没有办法跟客户直接按照TOKEN收，所以我们换了一个概念，我们帮你处理了一百万通对话数据、一百万通语音数据、一百万通社媒上的帖子数据，就这样一个概念。

Speaker 2

这个概念对应到我们预估我们的大模型的一个token的一个成本，OK我们换算给客户一个对应的价格。

Speaker 0

嗯了解就是一个license费加上一个数据的使用量的费用。

Speaker 2

对对使用包的这样的一个费用。

Speaker 2

所以我们自己也是比较感谢确实是AI带来的商业化的一个机会，改变点就是中国to B SARS的收费底层逻辑的一个改善。

Speaker 2

比如说我们自己去年的话也完成了百分百的一个增长率，应该在行业内也属于比较高的一个增速。

Speaker 0

嗯特别棒，今天的分享也特别的全面。

Speaker 2

感谢红军老师。

Speaker 2

啊，谢谢齐教授。

Speaker 0

好，谢谢吕总和齐教授。

Speaker 3

嗯，好，谢谢，谢谢。

Speaker 0

好的，那这就是我们今天的节目。

Speaker 0

如果大家喜欢我们的节目，或者你对AI应用有什么样的想法，欢迎在我们的评论区写出你的留言。

Speaker 0

如果大家喜欢我们的节目，欢迎在苹果播客、SPOTIFY还有小宇宙上来收听关注我们。

Speaker 0

当然，如果你希望通过视频版来听播客，也可以在B站还有YOUTUBE上搜索硅谷101播客来找到我们。

Speaker 0

我是红军，感谢大家的收听。

关于 Bayt 播客

Bayt 提供中文+原文双语音频和字幕，帮助你打破语言障碍，轻松听懂全球优质播客。

继续浏览更多播客