EP120 从提示到智能体技能：论Anthropic的野心与大模型应用的终极抽象

本集简介

提示工程真的过时了吗？ Anthropic 用一套看似只是 Markdown 的 Agent Skills，把「如何使用模型」推成了新的行业共识。 MCP 还没消化完，Skills 就已被默认为工程标准—— 这是一次真实的工程进化，还是一场被集体接受的抽象迁移？本期《硬地骇客》，我们从工程、产品和真实实践出发，拆解 Agent Skills / MCP / Tool Calling 的层级关系，聊聊它们到底解决了什么问题，又没解决什么问题。本期你将听到：为什么 Anthropic 能把 Skills 推成行业默认标准 Agent Skills、MCP 和 Tool Calling 的层级关系与作用 Skills 如何改变工程化流程，提升模型复用与管理效率 Podwise 的实践案例：哪些场景适合用 Skills Skills 会不会成为大模型厂商的“开源阳谋” 本 shownotes 由 castwise.ai 制作 Podwise - Podcast Knowledge at 10x Speed! podwise.ai Apple Store 下载👉🏻 apps.apple.com 硬地笔记 Part 1｜概念解析与本质探讨 00:04 Anthropic Agent Skills：工程进化还是概念迁移？ 01:31 Anthropic Agent Skills：通过增加抽象层解决问题 04:31 Agent Skills：从领域知识中抽离业务知识 Part 2｜技术架构与标准定义 06:45 Agent Skills、MCP 和 Function Calling 的关系 10:06 MCP 是 Skill 的一个可选部分 12:59 Skills：描述模型能做的事情 17:31 Anthropic 团队擅长定义标准 19:59 Skills：一种新的低代码开发方式 Part 3｜实践应用与案例分析 22:03 Podwise 如何应用 Skills 25:06 Skills：自动化日常工作 28:24 Skills 的力度：内化了的技能 32:06 Skills 的力度：个人工作流倾向于做大 Part 4｜稳定性、准确率与运行逻辑 34:44 Agent Skills 不解决确定性问题 37:07 Agent SDK 提高准确率和命中率 40:08 Agent 的无规则运行带来更高上限 Part 5｜行业影响与未来展望 42:50 Agent Skills 是大模型厂商的阳谋？ 45:09 Skills 像 APP，提供领域知识 47:55 大模型公司用用户数据训练模型 50:28 Skills 加速行业工程化进程欢迎关注我们知识星球: t.zsxq.com 官网: hardhacker.com 小手册: book.hardhacker.com 用爱发电不容易，请我们喝咖啡☕️: afdian.net 公众号/小红书: 硬地骇客商务合作: hardhackerlabs@gmail.com 另外，现在加入「硬地骇客」会员服务，即可在会员专属的微信群与其他朋友一起畅所欲言，成为会员也是对我们持续更新最大的鼓励！

Prompt 工程真的过时了吗？ Anthropic 用一套看似只是 Markdown 的 Agent Skills，把「怎么用模型」推成了新的行业共识。 MCP 还没消化完，Skills 就已经被默认成工程标准—— 这是一次真实的工程进化，还是一场被集体接受的抽象迁移？本期《硬地骇客》，我们从工程、产品和真实实践出发，拆解 Agent Skills / MCP / Tool Calling 的层级关系，聊聊它们到底解决了什么问题，又没解决什么问题。本期你将听到：为什么 Anthropic 能把 Skills 推成行业默认标准 Agent Skills、MCP 和 Tool Calling 的层级关系与作用 Skills 如何改变工程化流程，提升模型复用与管理效率 Podwise 的实践案例：哪些场景适合用 Skills Skills 会不会成为大模型厂商的“开源阳谋” 本shownotes由 castwise.ai 制作 Podwise - Podcast Knowledge at 10x Speed! podwise.ai Apple Store 下载👉🏻 apps.apple.com 硬地笔记 Part 1｜概念解析与本质探讨 00:04 Anthropic Agent Skills：工程进化还是概念迁移？ 01:31 Anthropic Agent Skills：通过增加抽象层解决问题 04:31 Agent Skills：从领域知识中抽离业务知识 Part 2｜技术架构与标准定义 06:45 Agent Skills、MCP 和 Function Calling 的关系 10:06 MCP 是 Skill 的一个可选部分 12:59 Skills：描述模型能做的事情 17:31 Anthropic 团队擅长定义标准 19:59 Skills：一种新的低代码开发方式 Part 3｜实践应用与案例分析 22:03 Podwise 如何应用 Skills 25:06 Skills：自动化日常工作 28:24 Skills 的力度：内化了的技能 32:06 Skills 的力度：个人工作流倾向于做大 Part 4｜稳定性、准确率与运行逻辑 34:44 Agent Skills 不解决确定性问题 37:07 Agent SDK 提高准确率和命中率 40:08 Agent 的无规则运行带来更高上限 Part 5｜行业影响与未来展望 42:50 Agent Skills 是大模型厂商的阳谋？ 45:09 Skills 像 APP，提供领域知识 47:55 大模型公司用用户数据训练模型 50:28 Skills 加速行业工程化进程欢迎关注我们知识星球:t.zsxq.com 官网: hardhacker.com 小手册: book.hardhacker.com 用爱发电不容易，请我们喝咖啡☕️: afdian.net 公众号/小红书: 硬地骇客商务合作: hardhackerlabs@gmail.com 另外，现在加入「硬地骇客」会员服务，即可在会员专属的微信群与其他朋友一起畅所欲言，成为会员也是对我们持续更新最大的鼓励！

双语字幕

仅展示文本字幕，不包含中文音频；想边听边看，请使用 Bayt 播客 App。

Speaker 2

大家好，欢迎收听一尼海客。

Speaker 2

我是SETTLE，我是易笑。

Speaker 0

我是龟龟。

Speaker 2

本期节目由PODWISE赞助播出。

Speaker 2

PODWISE是一款为播客听众制作的AI学习软件，产品的SLOGAN是READ BEFORE LISTEN。

Speaker 2

PODWISE通过AI对播客内容进行转录、提取、总结、分析等一系列操作。

Speaker 2

帮你掰开了、揉碎了硬核的播客内容，同时与NOTION、READWISE等平台的打通，嵌入知识管理工作流，协助您的其他包括新闻NEWSLETTER、BLOG的内容，帮你打造第二大脑。

Speaker 2

HOTWIS也为本期听众准备了三个五折优惠码，针对本期在小宇宙与我们互动的精选回复，欢迎大家踊跃来玩。

Speaker 2

好的，那开始我们本期的节目吧。

Speaker 2

说到 ANTHROPIC 啊，在编程这个领域，它一直都是王者级的选手啊。

Speaker 2

CLOCK CODE 到今天啊，基本上已经成为行业标杆了。

Speaker 2

但除了把模型做大做强之外，ANTHROPIC 其实还特别擅长另外一件事儿，就是它把怎么用模型这件事儿，能把自己的方法论推成行业共识。

Speaker 2

其实 MCP 我们还没怎么消化完啊，它现在又推出了一个新的叫 AGENT SKILLS。

Speaker 2

现在各大编程的工具已经把它默认成了一个标准啊。

Speaker 2

嗯，好像只要ANSROPIC一开口，大家就默认了说嗯，这个就是正确的抽象啊。

Speaker 2

那我们今天就来认真聊聊这个AGENT SKILLS，它到底是一次工程的进化，还是一次大家集体接受的一次概念迁移？

Speaker 2

我不知道你们怎么看。

Speaker 1

嗯，我觉得提到ANSROPIC，确实这家公司我还是挺佩服他们的哈，在计算机领域其实有一句名言是这样说的哈，就任何问题。

Speaker 1

你都可以通过增加一层抽象来解决。

Speaker 1

当然，除了抽象层数过多这个问题以外，你你都可以通过增加一个抽象层来解决。

Speaker 1

那 ANS RAPIC这家公司其实是深谙此道的哈，就像刚才我们赛头提到的，像什么 MCP 都是一个抽象层，抽象了一个。

Speaker 1

一个标准层，对吧？

Speaker 1

那今天的其实SKILLS这一层，它本质上也是一个抽象层。

Speaker 1

就我们去看SKILLS，其实我第一次去学习SKILLS的时候，其实我是脑子里一下都会闪过其他的一些框架，比如像什么LONG CHINA、LONG GRAPH啊，还有等等其他的一些EDGEL框架，然后就和他们去对比的话，那我自己会认为。

Speaker 1

这是一次工程的进化。

Speaker 1

为什么这么说？

Speaker 1

就skills它不像M C P。

Speaker 1

只是定义了一个标准协议，其实本质上SKILLS它的底层其实是有一个LONG TIME的框架的。

Speaker 1

你可以这样理解，然后在CLOUD它有一个叫AGENT SDK的这样的一个框架、一个工具开发工具集吧。

Speaker 1

那这一层我们可以把它理解成它几乎是等同于像LONG CHINA、LONG GRAPH这些帮你去完成那如何去。

Speaker 1

通过开发，通过代码去构建一个这样的一个框架层。

Speaker 1

说其实他们一定是先有了这样的一个框架层。

Speaker 1

给开发者用的这样的一个框架层，然后才会发现说，诶，除了给开发者用，那我们能不能让一些非开发者，或者说嗯，没那么喜欢写代码的，或者说希望用一种更低的代码的方式、低代码的方式去使用这样的一个AGENT的，对，可以去自定义这样的AGENT能力的方式。

Speaker 1

所以说。

Speaker 1

他就去提出SKILLS这样的一个定义，对吧？

Speaker 1

就是定义一堆文件的方式。

Speaker 1

对，所以说你看到SKILLS，它其实是架构在PRODUCER这样的一个SDK这样的一个框架之上的。

Speaker 1

对，所以说我们可以把AGENT SDK这个框架。

Speaker 1

把它理解成是一个LONG TIME，对，是一个真正的运行时。

Speaker 1

对，就像我们所有的开发语言一样啊，SKILLS这个东西它是一个什么东西？

Speaker 1

它其实就是是一个基于文档的USER INTERFACE。

Speaker 1

对，它其实定义的是一个完全是靠文档来表达的这样的一个用户接口。

Speaker 1

那这样的话，这个门槛其实就会比直接通过代码的方式。

Speaker 1

去调用AGENT去执行AGENT，确实要简单很多很多。

Speaker 1

这个门槛要低很多很多了。

Speaker 1

所以说我觉得这更多的还是一次工程的进化，它不只是说是一个概念，是一个噱头。

Speaker 0

对，我之前看到ANTHROPIC的一个公开说法，好像是说行业不需要再去搞一大堆新的AGENT了啊，而只需要少量的核心AGENT，然后再给他们挂上不同的SKILLS就可以满足需求。

Speaker 0

我去想了一下啊，我理解这样好像确实是更舒服一点。

Speaker 0

因为AGENT本身出现的目的就是为了领域特化嘛，但是AGENT其实它有点重，就是它不光是说我在AGENT里面塞了一些领域业务知识，那以前这些领域业务知识它可能是通过SYSTEM PROMPT对吧塞进去的。

Speaker 0

但除了这些之外，它其实还会有一些比较重的实现，比如说我去跟不同领域的这个MCP。

Speaker 0

对吧，去跟他这个系统的API对接。

Speaker 0

他还不一定是通过MC，他可能是硬编码的。

Speaker 0

然后还有一些说啊，我运行在不同的环境里面啊，或者说我在权限上会有不同的控制啊，包括我的MEMORY的这个结构可能也会不一样之类的。

Speaker 0

他除了领域业务知识之外，他还会有这些乱七八糟的东西。

Speaker 0

那这个时候，实际上你说哎，我要去调整一下领域业务知识，或者说其实别的东西都差不多。

Speaker 0

但是我想要去做一些这个业务领域里面的子的事情的时候，我要去搞这个AGENT，其实是比较麻烦的，但也不好改，也不好维护，也不好复用。

Speaker 0

那这些都是问题。

Speaker 0

但实际上SKILLS这个概念，其实就把领域知识这部分、业务知识这部分单独抽了出来，变成了一个呃比较方便修改和复用的一个能力包。

Speaker 0

就是一笑说的，增加了一层抽象嘛。

Speaker 0

啊，它就是变成了等于说AGENT变成了一个RUNTIME，具体怎么工作就交给了SKILLS。

Speaker 0

SKILLS其实提供了一个工作手册。

Speaker 0

来做这个事情啊，当然以前我们其实是也可以把这个业务知识，比如说SOP什么的写在PROPORT里面去给AGENT让他照着做。

Speaker 0

但SKILLS把这部分就变成了一个稳定可复用的组件，然后基于这个SDK提供的标准，其实它还提供了一些比如说发现呐、动态加载啊、分层渐进加载之类的能力。

Speaker 0

那其实真实使用起来就会比说我每次都要把我的这个业务知识COPY到这个PROPORTAL里面去，就会方便非常多。

Speaker 0

理解这其实也是一种说我在实践中摸索出来的这个方法论，然后发现它确实是有效的，所以沉淀成了一个标准。

Speaker 0

是这么做出来的。

Speaker 2

对。

Speaker 2

嗯，我觉得反正这些实践挺多的啊。

Speaker 2

就他上次搞的那个MCP概念，我还没搞明白呢。

Speaker 2

这突然又来一个AGENT SKILLS，就我想问一下你们，就是AGENT SKILLS跟MCP它是个什么关系？

Speaker 2

还有一个我们以前不是还在讲说CHATGPT它提出了一个东西叫FUNCTION CALLING，对吧？

Speaker 2

还是叫什么TO CALL啊？

Speaker 2

还有一个这玩意儿，就是这个又是个啥关系？

Speaker 2

能不能给我先科普一下这三个到底是啥关系？

Speaker 0

在我的理解里啊，他们三个不能说完全没关系，但是确实是三个层次上的东西。

Speaker 0

就是这个FUNCTION CALL或者说什么TO CALLING的这个东西，它是在最底下的。

Speaker 0

它本身是说我给模型提供了一个调用外部API的能力，然后再往上才有了说MCP。

Speaker 0

那MCP我们可以认为它是一个标准协议，来把一套外部的API暴露给模型去发现，让模型知道说：哎，我有这些API是可以用的，在这个场景下我可以用这个API去获取一些外部的数据。

Speaker 0

啊，或者说去去执行外部的一些代码，然后再往上才是SKILLS。

Speaker 0

那SKILLS的主体它其实是纯业务流程和知识，因为它就是个文档嘛，对吧？

Speaker 0

它是个MARKDOWN，那里面其实描述的是说告诉模型怎么来完成一个完整任务的过程，可能是STEP BY STEP的，说我先干什么，再干什么，或者说我在干一些事情的时候我应该遵循一些什么样的标准。

Speaker 0

它其实是纯业务流程的知识。

Speaker 0

那在这个过程里面，模型去follow这个skills里面给的这个业务知识的时候，它仍然可以去通过MCP去发现API，再通过这个方形call去调用API。

Speaker 0

啊，所以它其实是三个层次的。

Speaker 0

没有SKILLS的话，其实模型也可以自由发挥去完成一个任务。

Speaker 0

你让他去做一件事儿啊，那有SKILLS的时候，他可能会遵循SKILLS的这个流程去做；没有的时候，他就根据自己的理解，他也会去做PLAN，对吧？

Speaker 0

现在的模型他也会去做PLAN，他也会去生成一个计划表TO DO LIST，然后一步一步去做，他也会去。

Speaker 0

做啊，他也会去用MCP。

Speaker 0

但SKILLS就相当于说你手把手教模型应该先干什么、再干什么、怎么干啊。

Speaker 0

那其实我在看那个SKILLS的这个文档一些实现的时候，如果我没理解错的话，实际上一个SKILLS里面也是可以包含MCP的，还可以包含一些别的东西，比如说单独的脚本之类的。

Speaker 0

那这样才能让一个skill是完整的。

Speaker 0

就是我skill要去做什么事的时候，我可以带着一个MCP给到呃模型说：‘啊，那你做这件事情的时候，你就可以用到这个MCP里面的这个API’。

Speaker 1

对对，skills它确实它不简单说就是一个prompt，只是一个MD的文档，然后里面去描述我平时像写prompt这样干这件事情要怎么怎么干。

Speaker 1

但实际上就像刚才各位说的，它确实它可能里面还会加载很多很多的工具脚本儿。

Speaker 1

就你可以在本地写了很多的拜系脚本，是吧？

Speaker 1

写有脚本，那个脚本可能是干什么什么什么事情的。

Speaker 1

那这些东西都可以注入到SKILLS里面，最终去调用。

Speaker 1

对，这样才是一个完整的东西。

Speaker 1

这是SKILLS的一个完整的定义吧？

Speaker 1

对，我总结一下他们三者的关系的话，就是SKILLS的你可以理解就是在最上层，就是一个更大的集合。

Speaker 1

它里面是包含。

Speaker 1

MCP的它可以调用MCP，好，MCP里面的一个子能力可能是TOUR CALLING。

Speaker 1

但MCP还可以干其他的事情，管理一些什么数据啊，乱七八糟的。

Speaker 1

对，所以说就是这样的一个包含关系吧。

Speaker 2

那是不是可以这么理解，在以前没有SKILLS的时候，大家看到那些MCP的那些收录的网站里面收录的很多MCP，它可能是一个SKILLS，可能大家的这个抽象概念，在没有SKILLS的时候，大家没办法，就只能把它所有的东西都变成MCP。

Speaker 2

是这个逻辑吗？

Speaker 0

我觉得严格来说不能这么说啊，就是我可以说MCP它是SKILL的一个可选部分，但SKILL的本体其实还是以前的那些PROMPT啊。

Speaker 0

就它可能比如说我今天分享出来一个我说我这个干一个什么事的非常有效的PROMPT，但是今天我们可以把它抽象成一个SKILLS啊。

Speaker 0

只不过这个SKILLS它其实也是有一些规范的，比如说它有这个FRONTMATTER的这个METADATA。

Speaker 0

啊，他在写这个skills的时候，他需要说按照他的。

Speaker 0

L一L二的结构去写啊，但是本质上它还是一个去指导模型怎么去工作的一个PROMPT啊。

Speaker 0

只不过在这个里面我可以可选的加入一些能够让我这个PROMPT执行下去的一些外部能力啊，就比如说我加了MCP，加了一个可执行脚本啊，加了一些别的子的这个流程。

Speaker 0

的MARKDOWN文件在里面，其实是可以这么加进去的啊。

Speaker 0

所以我我我认为就是说MCB，它可以是它的一个可选部分，但是它主体。

Speaker 0

并不是这个MCP对，嗯。

Speaker 1

那我举一个例子吧，我觉得举一个我们自己的例子。

Speaker 1

比如说像在PORTWIDE里面，假设用PORTWIDE这种假设。

Speaker 1

现在有一期播客节目，就是我们这一期播客节目，我说我需要给他总结一下他的TAKEAWAY或者他的关键点有哪些，就说我可能希望就是有一个SKILLS帮我干这件事儿，就是总结我们这期播客节目。

Speaker 1

但是呢，你会发现总结这期播客节目有一个很大的问题，你得先拿到。

Speaker 1

逐字稿拿到TRANSCRIPT，对吧？

Speaker 1

那这个TRANSCRIPT这件事情它相对来说就比较重。

Speaker 1

可能现在大模型它都搞不定。

Speaker 1

那这个时候我们可能说：诶，我们刚好有一个TRANSCRIPT的服务。

Speaker 1

那我能不能把这个服务给它包装成一个工具，包装成一个需要脚本？

Speaker 1

那个需要脚本本身是把一个播客的链接发送给这个TRANSCRIPT的服务，然后它最后给你返回。

Speaker 1

一堆文字返回这个组织TRANSCRIPT，这个工具就返回了。

Speaker 1

对，好，那然后这个时候这个SKILLS的这个SKILLS的这个PROMPT，它可能诶就可以开始去总结它的关键点了。

Speaker 1

所以我在这里就是需要把转录逐字稿、音频转文字这件事情要给它封装成一个MCP，或者说封装成一个其他的工具。

Speaker 1

对，这个时候SKILLS。

Speaker 1

在完成总结这个任务的过程当中，他会自己去决策。

Speaker 1

诶，我需要去调用这个转录服务的MCP啊，转录完成过后才开始做接下来我们大家都理解的这个总结、take away啊这些这些事情对。

Speaker 1

所以说，它其实是这样的一个一个关系。

Speaker 1

对，所以说你可以理解，有很多很多外部的任务，一些外部的任务，那些任务可能都是比较重的，或者说都是大模型它自己无法、无法完成的一些任务。

Speaker 1

我们可能就通过一些API、通过一些工具集啊这些方式去做这件事儿，大模型自己去使用这些工具就完事儿了。

Speaker 0

我想稍微展开一下，可能让大家比较好理解。

Speaker 0

就是我们确实可以提供一个MCP来直接完成从音频到总结的这么一个过程，对吧？

Speaker 0

因为我出逐字稿，然后我出SUMMARY，然后我去出一些结构化的数据，我是可以直接提供一个MCP来干干这个事儿的。

Speaker 0

但是这个MCP背后其实是一个API，这个API背后有不同的模型一起完成了这件事情。

Speaker 0

但今天我们也可以有一个skills，我把拿逐字稿这件事情通过MCP完成，但是我把总结这件事情在我自己的模型这边完成。

Speaker 0

就是没错，对这个SKILLS其实是去描述你模型能做这些事情的这个过程。

Speaker 0

那以前我从MCP，虽然一个MCP可以是那个力度的，它可以做同一件事情，但是实际上它是把这件事情托管给了MCP背后的那个模型去做。

Speaker 0

啊，你可以说，哎，我这个MCP背后的模型，它可能在API背后也隐藏着一个skill去做这个事情，你是不知道的。

Speaker 0

啊，但是今天skills其实它是让自己的模型做这个事情，你是知道的，它是透明的。

Speaker 0

对，它是描述了一模型能做的事情，所以它确实可以一个skill可以和一个MCP做同样的事情，但是它概念上确实是不一样的。

Speaker 0

对。

Speaker 2

嗯，其实刚才哥哥也提到了一点啊，就是我们最早以前其实没有这些概念的时候啊，其实都是prompt engineering嘛，反正就是大模型加提示词，那提示词到底怎么组织什么东西的，其实可能大家没有概念嘛，对吧？

Speaker 2

那到现在，Anthropic它有了Agent Skills，然后有了MCP，对吧？

Speaker 2

还有之前的ChatGPT的function call，对吧？

Speaker 2

就这些乱七八糟的这些逻辑出来了。

Speaker 2

我看之前就有人吐槽说，说其实这些都是一堆Markdown文件嘛，你搞这么多概念干嘛？

Speaker 2

你们怎么看这种发展趋势？

Speaker 0

嗯，对，其实就像一笑说的，多一层抽象解决一些问题啊。

Speaker 0

那那个对，乍一眼看这个SKILLS的主体，它确实就是一个MARKDOWN文件，但实际上人家是有要求的，对吧？

Speaker 0

人家其实是有标准和规范在里面的。

Speaker 0

那比如说呃，它的这个FRONTMATTER的这个META DATA，它要求你去写DESCRIPTION，这个DESCRIPTION是非常重要的，就是。

Speaker 0

它是能够让CLOUD它的这个AGENT SDK能够去正确的找到，说哎，当你一个自然语言描述进来一个需求的时候，我应该用哪个SKILL去处理。

Speaker 0

那这个就做到了动态加载的能力，就不是说哎，我要把一大堆的这个业务流程通过一个巨大的PROMPT灌进去，对吧？

Speaker 0

嗯，那对于上下文、对于整个这个指令的遵循度来说，其实都是有帮助的，因为你减少了上下文长度嘛，你只是按需的去加载嘛。

Speaker 0

嗯，对。

Speaker 0

所以，所以其实他他会在他的这个TROUBLE SHOOTING里面有提到说，你一定要把这个DESCRIPTION写清楚啊，区分度写高。

Speaker 0

那这个其实是一个非常重要的事情。

Speaker 0

那通过这种抽象的标准，它其实就提供了这个自动发现和动态加载的能力。

Speaker 0

那它就方便管理和复用啊，对吧？

Speaker 0

那它其实还提供了渐进加载的能力啊。

Speaker 0

因为单个SKILL文件夹里面，其实除了这个主要的这个MD文件之外。

Speaker 0

它可以去包含额外的脚本以及资源，或者说一些子的说明文档啊。

Speaker 0

比如说去说明我要去填写的这个FORM的结构是什么啊，或者说我要去做一个子流程的时候，这个子流程应该是STEP BY STEP是怎么做的这些都只会在说我真正要去用到的时候才会读取。

Speaker 0

那这其实也能缓解上下文长度压力，因为我们知道其实很多时候你模型效果不佳，可能就是上下文太长了。

Speaker 0

它可能执行了几个轮回之后，它超过整个上下文窗口了之后，它开始会遗忘嘛。

Speaker 0

那如果你能去缓解这个上下文长度压力，除了解放用户输入PROMPT的这个繁琐动作之外，也能够帮助模型去更好的工作。

Speaker 0

所以它其实本质上去做了一个工具化和标准化的一个事情，然后工具化和标准化我觉得是提高生产效率的一个必然方式，对吧？

Speaker 0

你工业化其实就是要去去做标准化。

Speaker 0

才能够让整个大家的效率，不管是协作也好，还是他跑的这个效率也好，去提高嘛。

Speaker 0

啊，那做标准化，你肯定需要一个概念去承接嘛。

Speaker 0

至于它叫SKILLS还是叫其他名字，其实都不重要，只要它能让模型干活更高效、产出质量更高、让人的负担更小啊，让人去更少的介入，那我觉得就是一个好东西。

Speaker 0

今天。

Speaker 0

来看的话，skill确实是。

Speaker 0

反正目前从概念上，因为我们其实还没有深度的去使用它，它出来也没太太久嘛。

Speaker 0

对，但是我们从这个理解上，我觉得它确实是能够做到这些事情的。

Speaker 0

对，是一个比较好的抽象。

Speaker 0

嗯。

Speaker 1

对我想先聊另外一个点，就是聊吐槽这个点哈。

Speaker 1

其实真的确实有挺多工程师啊或者开发者看到这种概念就就喜欢吐槽，哎，觉得这个东西可能就是一堆markdown的文档。

Speaker 1

但是我今天的看法就觉得啥呢？

Speaker 1

我觉得这种他能提出SKILLS啊，提出MCP啊这些概念，我们就当它是一个概念哈。

Speaker 1

能提出这些概念的团队或者人，我觉得他们真的是除了会做工程以外，他们是真的会做产品的。

Speaker 1

大家能理解这个东西吗？

Speaker 1

就是能定义这些东西的那些团队，他们是真的会做产品，他们可能是真的在思考产品这件事情，而不只是一个技术性的问题。

Speaker 1

其实放到我们中国团队，其实不太擅长干这件事儿。

Speaker 1

我们不太擅长命名这件事儿，不太擅长去定义一个标准。

Speaker 1

对你可能做了一件很牛逼的技术，但是你最终放出来的还是那个技术本身。

Speaker 1

对，其实我们不太会去思考说这个技术能不能往上面再稍微走一步，那一步可能刚好是一个一个概念层、一个封装层。

Speaker 1

就可以让在市场上那种出圈呐、跨界啊，或者说被更多的人知道、接受，就会更好的。

Speaker 1

我觉得这一点其实是一个很重要的一个、一个、一个东西。

Speaker 1

对，其实国外的那很多公司他们都非常擅长这些定标准呐，这些乱七八糟的。

Speaker 1

对，这个让我想起其实啥呢？

Speaker 1

比如说像 DOCKER 这件事情，在很多年前，其实阿里我们在阿里的时候，在 DOCKER 没出来之前，其实大家都在搞容器化技术这件事儿了，已经都搞得。

Speaker 1

风生水起啊，并且都搞到生产环境。

Speaker 1

对，但是呢，大家没有去定义这个标准，没有去定义那个时候。

Speaker 1

其实在阿里都已经在做了IMAGE，就是DOCKER镜像这件事儿，只是说不是用这种标准化的方式去做，而是自己随便写一段代码，比较土的方式能做做出镜像。

Speaker 1

对，但是没有想到过这个东西它可以标准化，可以抽象成一个可以。

Speaker 1

发布出来让所有的公司人都可以用的东西，你知道吧？

Speaker 1

就是说大家其实在技术层面都实现了，都是那样实现的。

Speaker 1

嗯，我觉得这次确实是中国公司和海外的很多很多的团队在思考这种产品呢，层面是这特别就是技术型的产品层面是有很大的差距的。

Speaker 1

对，那回到这个问题本身哈，普通用户可能去接触到的就是一对MARK当文档，但我想说的是这就是。

Speaker 1

那个ANSWER PICT团队想要达成的目的啊，他就是想让普通用户就是只接触到一堆文档。

Speaker 1

那可能人家设计的意图就是说我交给用户的接口就是以文档的方式来驱动的这种接口，因为它本质是先有了一套技术对吧？

Speaker 1

我们前面介绍过，那SKILLS它本身底层在驱动的是有一个框架层对吧？

Speaker 1

可能人家有CLOUDY AGENT SDK这样的框架层，这个是给开发者用的。

Speaker 1

那他们就向前面走了一步，觉得说光给开发者用可能还不够友好，是吧？

Speaker 1

我们最好定义另外的一套用户的接口来给普通的用户去使用。

Speaker 1

对，所以说才有了靠文档的方式来驱动的SKILLS的这个这个概念的出来。

Speaker 1

对，所以说我们要看到的是它不单纯真的只是一堆文件。

Speaker 1

那因为那个CLOUDY AGENT SDK，那它里面其实要做很多很多的事情，对吧？

Speaker 1

要做整个的推理、规划、执行，里面要涉及到很多MCP啊或者其他的。

Speaker 1

普洱的调用的管理等等等等，那这些东西其实都是已经在框架层，在long time层已经。

Speaker 1

实现完了，对。

Speaker 1

所以所以说我想说的是，嗯，对普通用户来说，单纯靠自己去写PROMPT要能够完成整个过程，自己不去开发这样的一个框架型的代码，我觉得还是真的是玩不转这样的一个东西的。

Speaker 1

对，我觉得SKILL的这个提出来，我看到的，我觉得是另外一个很好的一个趋势。

Speaker 1

这个东西感觉真的是在AI这种智能时代过后，它是一种新的这种无代码。

Speaker 1

和这种低代码的开发的方式，我觉得至少今天我看到的，在这种轻应用的方向，用SKILL的这种开发确实达成了低代码嘛。

Speaker 1

也不说无代码，我觉得这也算是一种很低的代码。

Speaker 1

但是因为里面可能有时候还会去写个封装、一个简单的脚本啊之类的。

Speaker 1

但我觉得这种开发方式，我会把它称为是这个时代的低代码开发平台。

Speaker 1

对。

Speaker 2

嗯，确实现在用WEB CODING的AGENT然后去做工具，你一次成型的概率其实还蛮高的。

Speaker 2

如果你只是一个简单工具啊，如果你是复杂工具的话，其实你自己WEB个几天也能出得来。

Speaker 2

对，确实你把它叫做无代码、低代码，其实也是OK的，就甚至你都不需要干什么，你让他帮你干都可以。

Speaker 2

对你甚至不需要有那个工具，他也能帮你干得出来。

Speaker 2

这个确实是一个挺挺大的一个变化。

Speaker 2

对，那我们回过头来聊聊自己吧。

Speaker 2

就是对于Podwise来说，因为我们其实也是从Prompt Engineer过来的嘛，对吧？

Speaker 2

就是我们也是各种各样的Prompt去组织、去抽象出来的。

Speaker 2

对，那现在的这个Skills这个概念出来之后，就它这个抽象对于我们的工程化有没有什么帮助？

Speaker 2

我们可以从自己的实践来给大家分享一下。

Speaker 1

对，这确实是我一直在思考的一个问题啊。

Speaker 1

我觉得Prowise今天其实在设计这个产品的时候，它有一个哲学，就是极度的简单。

Speaker 1

它的核心功能其实是没有人机交互的，就人其实是不需要参与播客总结的过程的，对我们只需要获取结果。

Speaker 1

对，所以说这种无人机交互其实它是就没有人的个性化在里面，就不需要去处理用户的意图。

Speaker 1

所以说其实整个产品简单，其实相对来说它的流程也是偏简单的。

Speaker 1

对，所以今天的PORTAL的这种核心的主流程，其实WORKFLOW加PROMPT目前就是我们的最优解，就从可控性呐。

Speaker 1

成本呢，就这些方面去综合的话。

Speaker 1

但是其实我们在某些方面可以做得更好，对，比如说我觉得。

Speaker 1

我们之前就就在思考的，有我们可以将不同种类的播客的节目，能不能用不同的背景知识的方式去总结它？

Speaker 1

对，比如搞医疗的，对吧？

Speaker 1

那和AI科技的，那我相信他们在领域上是有非常非常大的差别的。

Speaker 1

我们完全不需要用一种模板去总结所有的播客的节目。

Speaker 1

那在这个情况下呢，我们就可以哎，比如针对医疗类的播客的节目，我们可以给它封装一个skill。

Speaker 1

这个skill里面其实是专门用来处理这一类的节目。

Speaker 1

那这个skill它就可可以去加载很多医疗相关的背景的一些知识，当然可能不需要，因为是总结嘛，可能它也不需要那么丰富复杂的知识，可能只是把这个领域的一些关键点呐这些。

Speaker 1

一些关键名词啊，这些可能就会让总结的会更好一点。

Speaker 1

一些关键人物啊之类的，对对啊。

Speaker 1

那这样的话，那我们最后再去执行的时候，就可以做到让不同的博客用使用不同的skill去做这件事情。

Speaker 1

对啊，我觉得这反正是一个可以去提升、可以去探索的一个方向。

Speaker 1

对，但是呢，这个方向其实可以看得出来它的那种。

Speaker 1

真正要发挥一个skill，很复杂的动作。

Speaker 1

比如说我要开可以处理很多很多外部的操作，这些其实都是没有的。

Speaker 1

所以说它其实相对来说还是一个比较简单的skill。

Speaker 1

在putwise上，我觉得还有另外一个方向，不单纯是说是产品的业务、业务流程。

Speaker 1

那比如说今今天我们其实因为我们是小团队，那我们每个人其实都要去处理问题啊，要去运营那运维。

Speaker 1

一个PORTWISE，对。

Speaker 1

那其实我最近就在想，我每天可能有时候看到哪儿出了个错，我可能就要去查问题。

Speaker 1

那我查问题的流程是怎么样的？

Speaker 1

我可能要要到服务器上看一下日志，然后又到数据库里面去看一下那条数据的原数据长什么样子，然后又在那些代码上去去找一下。

Speaker 1

大概就是这三个方向、三个地方，你可能都要去人肉去拔一下，对。

Speaker 1

那其实如果我有能用SKILL这种方式去定义一个我自己的AGENT的话，那它就变成啥样子啊？

Speaker 1

我会把如何去数据库里面去查找原数据封装成一个工具，能够去日志文件里面去GRAB，如何去查看日志也给它封装成一个工具。

Speaker 1

对，然后把整个流程写成一个SKILL。

Speaker 1

我遇到什么问题，我能不能把这个问题就。

Speaker 1

描述给他，他就根据我指导的流程，然后去巴拉巴拉把数据库查看一遍，把日志查看一遍。

Speaker 1

根据这些数据，然后最后再到代码里面去看一遍。

Speaker 1

哎呀，说不定就定位到大概你是是什么问题，或者给我解释一下这个出现这个原因是怎么怎么样的。

Speaker 1

我觉得这就能够极大的其实解放。

Speaker 1

个人的经历了，这就是完全是一个全自动化的一个流程。

Speaker 1

所以我觉得这个是特别好的，我觉得很多团队。

Speaker 1

都需要，特别是大型团队呀，或者说一些更复杂的项目的团队。

Speaker 1

还有另外一个点，其实你会发现，就是我们能用SKILL来实践的，都是不断的去想办法把我们日常工作里面手工反复做的那些事情给它自动化掉。

Speaker 1

那我其实平时还有一个手工在PORT外上，还有一个很手工的问题，就是不可能过段时间就会发现说在某个播客呀，在某些节目上的总结效果达不到我自己一眼看它的质量就很差，就达不到那个那种效果，我就会拿着那个播客的数据。

Speaker 1

然后去调。

Speaker 1

某个环节的PROMPT，首先拿到那个数据，然后再拿到那个PROMPT，然后不断的去调试啊。

Speaker 1

这个过程本身就是一个很繁琐的事情，对？

Speaker 1

要去组织数据，自己手工去组织数据的格式，然后最终再去把PROMPT。

Speaker 1

比较可能我给他粘到就没来的AI STUDY里面，在那里面去反复去调试、调试、调试好了再把PROMPT复制回来。

Speaker 1

其实这个过程它也也挺麻烦的。

Speaker 1

那我如果也可以用一个skill去封装的话，哎，我可以让这个skill经常去去拿到某个播客的数据，它就自动的能够去帮我去完成这个过程。

Speaker 1

我会指导他说你要这样去调试，那prompt是什么什么什么东西，你最后给我输出一个哎，看上去是不是更好的prompt给我。

Speaker 1

对，我觉得这些流程。

Speaker 1

都是值得去提升的。

Speaker 1

那当然，其实我想说的一个更关键点是啥呢？

Speaker 1

我觉得特别是对于小团队，如果团队里的每个人围绕自己团队的这些手动、自动化的工作，大家都能够今天借用这些SKILLS也好啊，或者其他的一些AI工具，让它完全的AI化，达到真正的自动化。

Speaker 1

那我觉得真的团队是可以做到。

Speaker 1

真正的以一顶十啊，甚至顶白的这种战斗力的团队的。

Speaker 1

对。

Speaker 2

嗯，我觉得一笑刚才有讲一个，如果podice去利用skills的话会怎么用啊？

Speaker 2

他有讲说把博客节目按照不同的类型，然后去做总结，做skills啊。

Speaker 2

当然这是一种抽象方式嘛。

Speaker 2

那我今天我我其实也想跟大家聊一下，就是一个比较艺术的问题啊，一个skills到底应该有多大？

Speaker 2

因为ASPECTIVE其实给了一些事例啊，我自己体感上感觉都是中等力度啊。

Speaker 2

但是其实也没有标准嘛，而且可能也总结不出来到底这个中等力度是一个什么力度，什么力度应该是合适的力度。

Speaker 2

这这个问题就非常的艺术。

Speaker 2

如果我们不谈这个很艺术的问题，我们就当下去聊POD WISE。

Speaker 2

就是你们觉得说呃POD WISE如果去应用SKILLS的话，它应该怎么切分比较合适？

Speaker 2

我们拿自己开个刀给大家举个例嘛。

Speaker 2

啊，当然我们现在也没有应用过。

Speaker 2

我们只是说如果我们要应用的话，我们可能会怎么办？

Speaker 0

我看到过一个说法啊，那其实包括这个ANTHROPIC他自己的指导思想，嗯，他是肯定不建议你这个SKILLS太细的。

Speaker 0

那我看那个说法是怎么说呢？

Speaker 0

他就说这件事你能叫出来名字啊，但是你要让别人去干的时候，他如果是个新人，你可能得给培训他一下午。

Speaker 0

啊，就他不能是说哎，我一句话就能讲清楚。

Speaker 0

即使你没干过，你也能干。

Speaker 0

但是呢，我一句话能告诉你，然后你知道说哦，这个事情要这么这么干，是因为我给你培训过，你才能干。

Speaker 0

他确实是个技能，但是呢，当这个人掌握了这个技能之后，我只要很简单的跟他说一句话，他就能做。

Speaker 0

这就是一个比较合理的SKILLS。

Speaker 0

那它确实我觉得挺匹配这个名字的，就是它是一个被内化了的技能。

Speaker 0

然后呢，你能很简单的描述它，但是呢，它确实是有复杂度的，你需要去教人家。

Speaker 0

比如说那TROPIK他自己举的这个几个例子，它内化的一些都是办公的嘛，对吧？

Speaker 0

PPT。

Speaker 0

WORD啊，PDF它的那几个SKILLS都是这个。

Speaker 0

那你如果去拿它这个去套的话，就是诶，你把这个什么什么东西做成一个PDF啊，做成一个PPT，或者说你去分析一下这个EXCEL里面的数据。

Speaker 0

这是一句话呃，但是背后说到底怎么去做这个PPT，你对这个PPT有什么要求，或者说这个EXCEL怎么去分析数据是合理的，你可能是需要去交给那个人啊，你或者说他更小白一点，你甚至连怎么打开它、怎么编辑它都要去教他。

展开剩余字幕（还有 259 条）

Speaker 0

啊，那它就是一个合适的skill。

Speaker 0

它就通过这个skill变成了，说我只需要跟大模型说一句话，我不需要把详细的我也我对它的要求啊，我对它的这个规范啊，对它步骤的一步步的都交给他，我就只需要去说一句话，然后他就可以把它做掉了啊。

Speaker 0

那这就是一个合理的skill的力度。

Speaker 0

那如果说从这个力度来看，我认为portwise中对整个逐字稿的结构化其实都可以是一个skill。

Speaker 0

啊，当然你说我把单独的抽出来，每一个环节做一个skill可不可以？

Speaker 0

啊，我觉得也可以，但是不一定有必要。

Speaker 0

我自己的理解是不一定有必要。

Speaker 0

你你去想象一下，它就变成说我对这个大模型说，哎。

Speaker 0

你把这个节目用总结的skill去总结一下，那我对它的期望，它就是会产出我所有要求的summary也好、outline也好、map也好，它就都会产出出来，而且符合我的期望。

Speaker 0

因为我通过skill教过它，嗯啊对，所以整个结构化我觉得可以就可以是一个skill，然后包括说翻译也可以是一个skill啊，你就告诉大模型说把这个已经做好的。

Speaker 0

通过翻译SKILL去翻译一下，那我也期望他给出我的结果是对照的翻译。

Speaker 0

就是原结构是怎么样的，那新结构就是怎么样。

Speaker 0

因为我在SKILL里面教过他，你翻译不能只去翻译文本，你要产出一个这样的结构，那它就可以是一个SKILL。

Speaker 0

对，所以我理解就是这种比较大力度的业务，其实做SKILL是合适的。

Speaker 0

对。

Speaker 1

嗯嗯，我今天去写SKILL的话，比如像个人本地的工作流。

Speaker 1

我自己会倾向做得大一些，要做一件非常完整的事情。

Speaker 1

对，那比如就是我前面提到的，我要去运维整个PORTAL，就是整个运维工作，它可能就是一个SKILL。

Speaker 1

其实这个工作是非常大的，就并且它是一个你自己事先是无规则的，根本不知道会发生什么事情。

Speaker 1

对，因为我觉得运维工作这件事情特别合适。

Speaker 1

用今天的AIAGENT，对，因为是线上可能会发生任何事情，有任何的用户问题。

Speaker 1

这个东西是完全是我们想象不到的。

Speaker 1

对，就这件整个事情，我觉得是写一个大的SKILL，是我觉得非常非常的合适。

Speaker 1

就针对我们PORTWISE这种产品的规模的力度来说，对。

Speaker 1

但是呢，如果是像PORTWISE的整个AI生成的工作流程。

Speaker 1

那我会倾向于把它做小一点，对我会先还是倾向于保持现在。

Speaker 1

比如说它是一个完整的WORKFLOW，对这件事情是绝对可控的，并且是能控制成本的，是一个完全的WORKFLOW。

Speaker 1

然后比如我要去总结MINDMAP这样的一个力度，会说的做一个翻译这样的一个事情，一个单节点的事情。

Speaker 1

诶，那我可能会倾向于把它写成一个SKILL。

Speaker 1

但是整个WORKFLOW，我不会倾向于说把PUTAWAYS的整个WORKFLOW用一个SKILL给它包含完。

Speaker 1

因为我知道这里面的稳定性一定会超乎我们的想象，就一定会有那种来来回回达不成很多的标准，然后他不断的在那儿推理、做新的规划，然后再去尝试，就里面有一个非常大的一个循环。

Speaker 1

这个循环跑去跑来跑的，反正就是TOKEN嘛。

Speaker 1

对，一定是要烧很多很多的TOKEN在里面的。

Speaker 1

对，就像我们平时在本地写代码一样，你看他，你告诉他一个问题，他可能要找很多很多轮，要循环很多很多很多很多次。

Speaker 1

哎，最终可能出来的结果还不一定对，但是有可能是对的。

Speaker 1

对，所以说这件事情是不可控的。

Speaker 1

对。

Speaker 1

所以说，这是为什么我觉得说产品流程。

Speaker 1

如果你是一个确定性的产品流程，当然这个东西还是比如像PORTWISE的AI的那个产品流程，它因为今天是一个高度确认性的产品流程，是没有人参与的啊。

Speaker 1

但是PORTWISE的运维工作，它是一个高度不确定性的产品流程，完全是靠人驱动的。

Speaker 1

今天这个用户会遇到这样的一个问题，我们自己可能也会发现碰到这样奇奇怪怪的问题。

Speaker 1

所以这两种形态，我觉得今天做AI产品，它的那种实践方法可能是不太一样的。

Speaker 1

当然如果你要追求稳定性、性价比的话。

Speaker 2

对对，我觉得一笑提到了一点，就是稳定性跟性价比。

Speaker 2

如果我们要谈稳定性跟性价比的话，其实我们还要引入另外一个概念，就是我们今天讲AGENT还有WORKFLOW对吧？

Speaker 2

因为AGENT其实是我们是要跟它去做交互的嘛，那WORKFLOW其实刚才一笑有提到说，其实WORKFLOW是追求极致的稳定性的。

Speaker 2

对吧，因为AGENT其实并不能保证说百分百的稳定性。

Speaker 2

它可能会有一定的失败率，可能会不断的循环烧TOKEN，性价比可能会有问题啊等等之类的。

Speaker 2

我觉得这一点就是我们去讲WORKFLOW跟AGENT本身的一个对比。

Speaker 2

我们之前其实也有讨论过，那刚才其实在去聊POD WISE怎么去做AGENT，就是怎么怎么做AGENT SKILL化的时候，其实大家的力度你可以看到也不太一样。

Speaker 2

但我自己刚才我们在起这个问题的时候，其实也有聊过说，其实这个事情是一个蛮艺术的问题。

Speaker 2

就跟我们最早以前去做业务啊，去做微服务是一样的啊。

Speaker 2

八个人有八种微服务的做法，对吧？

Speaker 2

对。

Speaker 2

所以说我觉得这种相同公司的，比如说都是电商的项目，相同公司的不同的团队，他们抽象出来的电商的那些微服务的力度大小之类的可能也都会不一样。

Speaker 2

因为这个是一个仁者见仁、智者见智的事情，甚至我们在最早以前做微服务的时候，大家的参考。

Speaker 2

书记就是DDD，但是你说真正有多少个人了解DDD啊？

Speaker 2

反正我也不知道。

Speaker 2

虽然大家看的都是DDD，那为什么做出来的服务不一样呢？

Speaker 2

对吧？

Speaker 2

就是这个事儿是一个挺艺术的问题。

Speaker 2

对，那我们既然都聊到AGENT SKILLS了，刚才一笑也提到WORKFLOW了，那我就顺道再提一嘴啊。

Speaker 2

就是你看WORKFLOW现在好像就包括DEFI啊，包括扣子啊。

Speaker 2

好像自从AGENT SKILL出来之后，甚至再往前倒一点，他们声量好像都变小了一点。

Speaker 2

但是我理解啊，SKILLS其实还是不解决这个确定性的问题的嘛？

Speaker 2

就就它本身其实只是一种抽象形式嘛。

Speaker 2

然后如果说我的SKILLS多了之后，它的调用成功率其实可能还是会下降的，跟以前一样，跟以前不管我用MCP也好，做DO CALLING也好，它可能都会有调用成功率的问题。

Speaker 2

但是假如我的观察是没问题的，也就是说现在像DEFI、像COZ它们的声量都稍微小了一些。

Speaker 2

是不是其实是意味着说是大模型的进步导致了大家用agent这种形式上升了，而不是说哎我因为有了skills，然后我就不用workflow了，其实跟这个是没关系的，是不是这样？

Speaker 0

怎么说呢？

Speaker 0

我觉得WORKFLOW它是一个比较重的东西，你要去把这个WORKFLOW用好，它其实还挺难的。

Speaker 0

你要去学它，但是你像SKILLS这样的，它就是一个MARKDOWN，你要去写一写，相对来说其实门槛是要低很多。

Speaker 0

但是以前我们没办法，我们必须去用WORKFLOW，是因为我的纯粹的一个PROMPT可能它就是准确率上是不够的，而且我要去做一些外部。

Speaker 0

呃，模型的调用的时候，你从MCP也好。

Speaker 0

是一些什么别的方式也好，其实它的稳定性也是很差的。

Speaker 0

但是WORKFLOW我可以非常明确的去产出这个这个过程。

Speaker 0

那今天SKILLS，你说它是不是纯粹是大模型的进步导致的这个准确率的上升？

Speaker 0

我觉得也不尽然。

Speaker 0

就是那个AGENT SDK的存在，然后包括这个SKILLS它自己的这个规范，其实是能够去提高这个准确率和命中率的。

Speaker 0

举个例子来说，就是SKILLS的它这个FRONT META的这个DESCRIPTION，是会被那个AGENT SDK去预加载的嘛？

Speaker 0

那这个东西其实就是去保证它的命中率、匹配度的一个首要的一个条件。

Speaker 0

那其实我们去看AGENT SKILLS的文档中的TROUBLESHOOTING的部分的时候，会发现有两个问题提到的。

Speaker 0

一个是SKILL NOT TRACKING，就是它没有被触发；还有一个是说MULTIPLE SKILLS CONFLICTED，冲突了。

Speaker 0

那它本质上其实都是我的DESCRIPTION可能没有写清楚，没有保证足够的区分度。

Speaker 0

那在这种情况下，其实像你提到说，唉，我SKILLS多了之后是不是会命中率会下降？

Speaker 0

确实是有可能的。

Speaker 0

但是他其实还提供了一些别的方式，比如说我在自然语言中明确的点名说：哎，我就是要用哪个名字的skill去做这件事情。

Speaker 0

啊，然后或者说我干脆用斜杠skill name来显示的去去调用也是可以的。

Speaker 0

啊，那其实这两种方式就是提供了两种使用场景。

Speaker 0

我觉得一个是对这个SKILLS的存在不知情的这一类终端用户啊，就是你可能说你封装了一个产品，在你背后用了很多SKILLS，但是真正用你的这个用户的时候，他在自然语言去跟你的这个呃APP去交流的时候，他是不知道这个SKILLS的。

Speaker 0

那你通过把DESCRIPTION去组织好。

Speaker 0

你就可以去服务这些终端用户。

Speaker 0

但是呢，如果说我们自己去用的时候，我其实对这个环境里面的。

Speaker 0

存在的SKILLS是非常了解的啊，每个SKILLS能干什么事情、适合什么场景去使用是非常了解的。

Speaker 0

那我也完全可以用显示的方式去把这个命中率提高到我不知道能不能到百分之一百啊，但是我觉得应该是能提高到一个比较高的程度的。

Speaker 0

对，但是这其实不能完全的解决掉说我的WORKFLOW这个层层面的准确性，因为你的SKILLS终究它是一个PROMOTE。

Speaker 0

你不能确保说他的这promoter你step by step的去描述完了之后，他一定能够做到像work flow那样的一步一步精准的执行，这个我觉得也不一定对。

Speaker 1

嗯，今天回到聊AGENT啦。

Speaker 1

就SKILLS，其实它本身是个AGENT，对它本身就说是AGENT的方式在运行，它不是WORKFLOW的方式在运行。

Speaker 1

所以当我们去讨论AGENT的时候，其实我更倾向的它肯定是无规则的，就是完全是无规则运行。

Speaker 1

就不像WORKFLOW，WORKFLOW是强规则运行嘛，是完全是靠我人定义的。

Speaker 1

你今天第一步干啥？

Speaker 1

第二步干啥？

Speaker 1

第三步干啥？

Speaker 1

对对对。

Speaker 1

所以说对AGENT来说，我其实一定是要让它变成无规则运行，能够让AI智能自己去决策如何运行。

Speaker 1

那这肯定才能够去突破AI智能的那个上限，就因为WORKFLOW的那个智能上限是有限的嘛。

Speaker 1

我们经常嗯会。

Speaker 1

会觉得这件事情对，但是AGENT的那个智能的上限是要更高，特别是随着模型升级，可能那个智能上限会越来越高。

Speaker 1

对，所以说回到写SKILLS，像刚才呃龟龟提到的那种写SKILLS啊，其实虽然说SKILLS它可能提供了一些写死的规则，说指定这种场景用TOUR啊或者工具怎么执行的方式方法，我觉得这是一种兜底的方式，但它其实和本质。

Speaker 1

AGENT驱动的方向可能就不是那真正大家鼓励的方向了，已经对它其实也引入了规则了。

Speaker 1

已经对这儿，我其实单纯只是聊一下AGENT的这个无规则能带来更高的上限这件事情，可能是所有做AGENT的人在意识里面更需要去注意的一个方向。

Speaker 1

那我回到这个问题的话。

Speaker 1

就说这一次关于这种进步，是不是模型智能在进步？

Speaker 1

那我我自己是肯定非常倾向于模型在进步的。

Speaker 1

对，当然刚才龟龟讲了很多，比如去如何去写PROPT，如何去写SCALE，把它们写的很清楚啊。

Speaker 1

这些东西都是最佳实践，这些最佳实践可以让模型执行得更好。

Speaker 1

对，这些是完全是没问题的。

Speaker 1

对，但是本质上我们去看这一次AI智能的进步，它其实本质上，特别是在AGENT智能上的进步。

Speaker 1

肯定是模型有巨大的关系的。

Speaker 1

那比如说像我们常用的模型，像JULIE，那今天我如果用JULIE2.

Speaker 1

0，特别是当你用2.

Speaker 1

0FLASH啊这样的模型去驱动AGENT的时候。

Speaker 1

你会发现可能驱动不动了，可能就会发现就会有巨大的问题。

Speaker 1

对你必须要上到JIM来三，甚至是三PRO呀之类的模型。

Speaker 1

我们今天用的很多，特别是Q顶的A镜头用的很爽的原因，其实就是因为跑的都是顶级模型的。

Speaker 1

嗯，就所以说这个是一定的。

Speaker 1

对，没有这些现在的顶级模型。

Speaker 1

我觉得今天这种完全无规则的，把所有的能够真正去驱动一个用户的意图的这样的一个AGENT，就是用户可以提出任何问题，然后最终都能够给他出跑出一个还不错的结果的这样的AGENT。

Speaker 1

呃，我觉得没有顶级的模型。

Speaker 1

今天可能很难很难对，然后我们也可以看到最近其实这些模型的优化方向真的在转向了。

Speaker 1

可能在去年大家还在做很多的比如CHATBOT的方向，如何让生成的文本的质量更高啊，然后后面又开始走了一波推理的模型的方向，然后最近这些模型又开始在在推理上主打。

Speaker 1

AGENT的方向，比如像KIMBO前一段时间发的K2、DEEPSEC前段时间发的V3.

Speaker 1

2这些，其实他们的优化的重点都是在如何让AGENT的整个规划、推理、执行这条链路上更稳定、做得更好。

Speaker 2

对对，确实我们看到最近这些模型的方向可能主打都是AGENT的这个方向了。

Speaker 2

但我自己也在想一个问题，就是这个AGENT SKILLS会不会是这些大模型厂商的一个阳谋啊？

Speaker 2

我发布了这个SKILLS之后，然后我利用开源社区，然后我让大家一起贡献这些专业的领域知识啊。

Speaker 2

然后我再把合适的内容放到后期的LM的这个发布中来啊。

Speaker 2

举个例子啊，比如说以前所有的大模型可能都不能生成PDF啊，那你现在贡献了一个PDF的一个SKILLS，然后我我就把这个PDF然后拉到我的这个里面来。

Speaker 2

那下次你再用我LMCHATBOT然后再聊的时候，你可以说：诶，帮我把这段文字生成一个新的PDF啊，然后你可能就下载下来了。

Speaker 2

啊，这这是我举的一个例子啊。

Speaker 2

对，然后我就想类比什么事情呢？

Speaker 2

呃，有点像LINUX操作系统。

Speaker 2

对，但LINUX操作系统其实它分成两个部分嘛，嗯，有内核还有用户态嘛。

Speaker 2

对，那其实FM的CHATBOT它其实就可能相当于说我一个裸的内核，然后上面加一个SHELL。

Speaker 2

这个SHELL就是你跟它沟通的嘛，但是这个SHELL里边没有工具啊，就是只有说你能够跟这个操作系统沟通，比如说你去对话，你跟它聊。

Speaker 2

假如说未来它自己发布的这个大模型的这个产品，添加了很多很多的SKILLS。

Speaker 2

那这个SKILLS可能你可以把它理解成为它是一个UBUNTU或者一个MACOS或者一个WINDOWS十一啊，但可能不会有WINDOWS十一那么大。

Speaker 2

但反正就类似于，如果我未来是发布这种产品，而不是发布一个裸的内核的话，就是我不是LINUX，LINUX只管发布内核对吧？

Speaker 2

其实我是我是发布产品的。

Speaker 2

对，那我里面可能就会带这些GNU以前的那些产品，比如说什么BASH呀、LS啊、MV啊、CP啊等等这些工具。

Speaker 2

可能未来都会集成到这个大模型里面去。

Speaker 2

对，会不会未来变成这样子？

Speaker 2

就是其实大家贡献了一波，因为都是开源的嘛。

Speaker 2

然后可能举个例子，可能还都是MIT协议的，然后这些大模型厂商可能全部都拉进来了，我自己筛选一下啊，我用这些这些这些这几个SKILLS，然后帮我封装成一个操作系统，然后我来发布。

Speaker 2

对，我为什么会有这个想法？

Speaker 2

是因为呃，CHATGPT前两天啊就不是推出了一个健康版本，就叫CHATGPT HEALTH。

Speaker 2

啊，我估计它未来可能还会有很多，比如说它会推出CHATGPT律师版、CHATGPT历史版啊等等之类的。

Speaker 2

当然这里边肯定它既然能推出健康版，我相信它里边肯定会有一些健康的专业知识，是从它大模型里面特化出来的。

Speaker 2

对，我不知道这件事儿你们怎么看。

Speaker 0

嗯，我在想这个事儿。

Speaker 0

你这个例子就是因为像BATCH也好，S也好，其实它本质上是一个虽然是个命令行工具，但它其实本质上也是一个APP。

Speaker 0

我其实是可以装的，虽然有一些是内化在里面，但实际上我是可以装的，对吧？

Speaker 0

我我觉得这个LS不好，我也可以去装一个新的LS。

Speaker 0

所以我会觉得说它SILL其实有点像一个APP，它是专门去做一个事情的APP。

Speaker 0

那你把那个大模型比作那个操作系统，我觉得可以把SKILLS去比下，比作一个APP。

Speaker 0

那它不一定要被内化到一个大模型里面，因为我觉得就SKILL它提供的是领域知识、是业务知识，然后它其实是有个性化的。

Speaker 0

就是我的这个大模型可以去拥有一些常识，拥有一些科学知识，对吧？

Speaker 0

拥有一些大家都认为没有问题的客观的知识，但是业务知识它其实和这些不一样。

Speaker 0

它是会持续的去、去迭代、去优化的，包括不同的用户他会有他自己的习惯。

Speaker 0

嗯，对吧？

Speaker 0

就同样去做一件事情，哎，我觉得我自己的这个工作的流程。

Speaker 0

效率更高，准确度更高。

Speaker 0

那我去做ANTHROPIC，他自己的那个做PDF的那个不好啊，我就自己去写了一个SKILL去做PDF，我觉得这自己这个更好。

Speaker 0

所以他其实是需要被个性化的，对？

Speaker 0

所以它可能可以被内化到里面，但是它可能更多的还是说我有一个大的生态。

Speaker 0

啊，大家可以说我去做一个大的嗯skill的一个marketplace，然后你愿意分享也好，或者说你自己去做了你自己的skill也好，就把它灌到这个模型里面去用。

Speaker 0

在我理解里面，它会是一个这样的东西，因为skill它其实更多还是在。

Speaker 0

在现在的PROMPT这个层面上的一个事情，它是用来控制规范LM的行为的。

Speaker 0

它是给LM定标准的那部分，呃，这个层次的一个抽象。

Speaker 0

对，所以它能很大程度上去解决这个PROMPT难写、难维护的问题，然后让LM更好用。

Speaker 0

我理解它也可以让我们去在上层封装产品也更容易，最终也能够去汇集到普通的这个终端用户。

Speaker 0

啊，那这个对LM整体就是一个好事。

Speaker 0

然后我觉得现在就是看竞争对手们去怎么跟进这个东西了。

Speaker 1

嗯，对我们确实太阴谋论了哈。

Speaker 1

可能就是说，虽然这个逻辑看上去是成立的哈，对每个人都在提供专业知识，好像大模型是不是就可以把这一波专业知识给学一遍？

Speaker 1

对吧？

Speaker 1

至少大模型可以发现，哎，这哥们儿的写的这个skill的这个专业知识，好像产出来的结果就是要更好一些。

Speaker 1

那我是不是把它给内化掉了？

Speaker 1

对，那就是如果大模型要做这件事儿，从我的认知的角度，它肯定是可以做到的。

Speaker 1

对。

Speaker 1

就像龟龟说的，他会不会去做这件事儿，那是另外一件事情了。

Speaker 1

对这个可能对我们来说可能太阴谋论了，对。

Speaker 1

但是总的来说怎么说呢？

Speaker 1

大模型公司用他的用户产生的数据，比如就是用他的prompt，然后最后生成的结果，然后拿去再继续训练大模型。

Speaker 1

那这件事情肯定在在过去是。

Speaker 1

是一个共识，比如就像JOM来就是公开这样说的，对吧？

Speaker 1

你如果不是付费用户，是免费用户，那我们就是会用你的整个对话数据、整个过程数据，然后去继续去训练他们的下一代模型啊。

Speaker 1

这些对，那其实SKILL这儿本质用归归刚才介绍的本质就是PROMPT嘛，那它本质也就是一些输入输出的整个过程数据。

Speaker 1

对，那这个数据它会不会拿去用来训训练它的后面的模型呢？

Speaker 1

其实我们也是根本就不会知道这件事儿的，对，哪怕就像。

Speaker 1

啊，像就未来那样承诺你付费用户我就不会训练了。

Speaker 1

那其实谁知道呢？

Speaker 1

对吧？

Speaker 1

对，反正我们也不知道。

Speaker 1

对我，所以说我觉得这个问题其实不重要，但只是说从逻辑上来说，它是它也是可行的。

Speaker 1

对，但这个不是刚才赛德不是提到那个CHATGPT不是推出了一个健康版嘛，一个黑二色的版本，今天刚好就不就看到了那个OPENAI CHATGPT。

Speaker 1

收购了一个叫TOUCH的APP的团队。

Speaker 1

那个TOUCH的团队只干了六个月，好像只他们只干了六个月，产品还没出来，还在BETA。

Speaker 1

然后四个人干了六个月，这个就是一个做HEALTH的。

Speaker 1

对，所以说他们为什么收购它？

Speaker 1

我觉得可能可能也不单纯说CHATGPT推出HEALTH就只是因为他自己嗯模型训练了HEALTH，所以说他就可以做出一个HEALTH的产品。

Speaker 1

那他看看出来他今天还是。

Speaker 1

通过收购一些外部团队的专业团队的方式来去达成它的整个的这样的一个布局的一个战略的生态吧。

Speaker 1

对，这个TAR就是专门做HERS的，对，嗯，然后四个人干了六个月，现在用一亿美金给他买走了，对，就是然后产品还没上线呢，还在贝塔，可能就对对对。

Speaker 1

所以说其实我想说可能对于这些公司来说。

Speaker 1

大家去做skill也好，还有一种方式是你的skill做得很好很好，你的那个skill产品在他的生态里面跑得很好很好，说不定模型公司要把你收了也是有可能的。

Speaker 1

他不一定说就是把你给内化掉，把你给吃掉了，对吧？

Speaker 1

嗯，对我们可能想的好一点就是这个样子的，对，嗯，对对对对对，是的。

Speaker 2

对，我觉得今天我们讨论的这个SKILLS，我们也不是说给大家一个终极解决方案。

Speaker 2

就是你的SKILLS就应该用什么样的力度，然后去怎么去写，写成什么样子。

Speaker 2

对，因为这个东西在提出来之后，我觉得ANTHROPIC它也不能说把每一个业务领域里边这个AGENT SKILLS它应该是什么力度给大家讲明白。

Speaker 2

这个事儿可能都是你自己探索出来的，而且如果你自己有业务领域知识的话，可能你能分出来更好的。

Speaker 2

SKILL对吧？

Speaker 2

但是也不一定，你可能还需要有一些软件工程领域的知识，然后你去交叉一下，对吧？

Speaker 2

你才能够可能做出来一个比较工程加业务啊都比较好的一种方式。

Speaker 2

但是我是觉得说SKILLS确实提供了一种新的组织AI的方式，它其实解决的是怎么描述问题嘛，但它其实解决不了说怎么能够保证这个效果更好。

Speaker 2

那这个东西还可能还是要去你去TICK模型啊，去搞你的PROMPT，对吧？

Speaker 2

还是要把这个事儿还要去搞起来，对。

Speaker 2

然后真正这个AGENT SKILL，为什么这套东西能够起来？

Speaker 2

我觉得本身可能还是模型能力的提升嘛。

Speaker 2

包括我用GEMINI三PRO，包括我用CLOUD最新的这个模型，其实效果上面确实差距很大。

Speaker 2

你在OPEN CODE里边，你用CLOUD去做TYPE CODING，跟你用什么MINIMAX的模型啊，然后那个质朴的模型啊，那它效果就是有巨大的差异。

Speaker 2

对，那这个大家得承认这件事儿嘛？

Speaker 2

对吧。

Speaker 2

至于说SKILLS这个事儿会不会成为LM厂商的一个开源阳谋啊？

Speaker 2

就是比如说让社区贡献知识，然后最后反哺模型啊。

Speaker 2

当然可能性是存在的。

Speaker 2

我们讲说刚才有阴谋论的部分嘛？

Speaker 2

对，但是有没有可能？

Speaker 2

比如说MINUS现在他在做的一个事儿，就是其实它算是一个OFFICE，对吧？

Speaker 2

我有LINUX，然后我有OFFICE，对吧？

Speaker 2

那会不会未来其实大模型的这个聊天端它可能就变成了一个OFFICE？

Speaker 2

对吧，就大家可能把什么做PPT啊，然后什么做做EXCEL啊，这些东西可能默认都放到了CHATBOT里，对吧？

Speaker 2

可能把MANAGE的一部分东西内化成了SKILLS，对吧？

Speaker 2

我感觉可能性也是存在的。

Speaker 2

对，那我们今天只是讨论这个可能性嘛。

Speaker 2

我觉得就是SKILLS这个事儿，你换个角度看，它其实是能加速整个行业工程化进程的。

Speaker 2

你未来的AI应用可以更规范、更高效。

Speaker 2

我觉得这也是一个挺好的一个事儿。

Speaker 2

那我们本期节目就先到这里吧。

Speaker 2

啊，欢迎大家在评论区下方给我们留言讨论。

Speaker 2

那我们下期再见吧，拜拜。

Speaker 1

好，拜拜。

Speaker 2

以上就是我们本期播客的全部内容，感谢大家收听，也欢迎大家踊跃留言。

Speaker 2

如果你喜欢我们，欢迎点赞并分享给感兴趣的朋友。

Speaker 2

如果你在用苹果播客收听，也希望你花几秒钟给我们一个好评，这会让更多的人了解到我们。

Speaker 2

要是能再点击一下订阅，那就再好不过了。

Speaker 2

我们下周见。

关于 Bayt 播客

Bayt 提供中文+原文双语音频和字幕，帮助你打破语言障碍，轻松听懂全球优质播客。

继续浏览更多播客

英語で雑談！Kevin’s English Room Podcast

EP120 从提示到智能体技能：论Anthropic的野心与大模型应用的终极抽象

EP120 从 Prompt 到 Agent Skills，论 Anthropic 的野心与大模型应用的终极抽象

本集简介

双语字幕

关于 Bayt 播客

继续浏览更多播客