
TLDR:
The Bitter lesson 依然生效,新一代Agent Model的"规划"和"工具调用"能力的提升,取代了过去大量基于规则的工作流编排等外围工程。
隐性知识的获取是一个Agent的核心挑战,尤其在2B领域。
Context,即隐性知识和业务逻辑的好坏决定了大模型如何能够在实际落地中完成任务,是否真正实现"可生产可交付"的价值。
Workflow跟自主编排Agent各有用武之地,会长期并行。但价值重心很明显正在逐步向后者迁移。
通用Agent的留存与付费转化偏弱,新客多、留存低成为常态,更务实的做法是从"通用"转向"垂直深耕"。即便在"通用"赛道,也先聚焦特定场景。
长期来看,真正的护城河在于几个核心能力:深度的环境理解与操作能力、持续的学习记忆闭环、针对特定场景的模型优化,以及多Agent间的协作标准。
超 12000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

最新、最值得关注的 AI 新品资讯;
不定期赠送热门新品的邀请码、会员码;
最精准的AI产品曝光渠道
01
热潮背后:
创业实践的教训、挑战与调整
今年Agent真正从"目标"变成了"手段"——过去大家谈论Agent更多是在描绘一个理想状态,现在则是在用它解决具体问题。随着底层模型能力加速进化,嘉宾们分享了痛苦的教训、面临的主要挑战以及相应的重心调整。
执行能力:让 Agent 在真实界面、终端与移动端进行 Computer Use。 业务连接:把企业系统、数据与权限工具化、可调度化。 上下文载体:承载领域术语、企业知识与使用习惯等关键信息。
02
创业者的抉择:
技术和商业化路线
03
通用Agent的灵魂拷问
作为头部通用Agent,Manus做得很出色。它是第一个出圈的通用Agent,营销做得非常好。它的产品Demo很炫酷,特别是AI操作电脑和浏览器过程的可视化,以强烈的科幻感激发了用户对AI的无限想象,从而吸引了大量用户并显著提升了品牌效应。
这类通用Agent的一个问题,是大家使用久了以后发现,实际体验往往难以达到预期。最大卡点在于"面面俱到,却难以做到最好",在具体场景的深度与质量上普遍"只到60分"。用户在实际使用中,往往会转向更专业的工具——做网站用专门生成器,写代码用编程助手,做调研用研究助手……导致通用Agent的留存与付费转化偏弱,新客多、留存低成为常态。
聚焦垂直的价值——以PPT Agent为例
对资源有限的创业公司而言,更务实的做法是从"通用"转向"垂直深耕"。即便在"通用"赛道,也先聚焦特定场景,在规划自动化的基础上引入专用模型与专业工具链,围绕具体任务做深做透。
这里以一位头部PPT Agent负责人所分享的经验为例:
如果用一个粗略的评分标准做参照:普通人做的PPT大概60分(刚及格),专业高手能到80分,乔布斯苹果发布会那样的顶级路演是100分;而目前通用大模型PPT 能力多在四五十分,只能“搭个架子”。
如何提升Agent的PPT 能力,让大模型跨过这几十分的差距?
拆解下来,PPT制作主要有三个环节:
内容生成: 这是第一步,也是基础。用户通常会给出指令,要求Agent收集相关信息。内容的质量、丰富度和准确性至关重要。如果内容本身就不好,后面的环节都会受影响。这部分核心考验的是Agent的强检索与综述能力,决定了PPT上限。
排版与视觉设计: 收集到内容后,如何将其合理排版并呈现出良好的视觉效果,这是PPT区别于普通文档的关键。
数据图表可视化: PPT中经常需要展示数据。原始数据多是文字或数字,需要将其恰当地转化为曲线图、柱状图、流程图等可视化形式。
现阶段,AI生成PPT的普遍做法是“模板 + 大模型适配”,并用代码生成完成排版和视觉设计。但这种方法容易出现一些系统性瑕疵(宽高比不对、元素重叠、比例失调等),因为代码生成的视觉和排版设计沿用了网页生成的逻辑,缺乏针对PPT场景的优化。
这位嘉宾所在团队围绕PPT场景做了深入优化:在内容检索与排版视觉这两个环节分别训练了专用模型,通过纠错与蒸馏提升模型在 PPT 领域的表现;同时补齐多样工作流(从“只美化现有 PPT”到“按既定大纲排版与制图”)、对接个人历史素材与企业知识库、遵循组织模板与品牌规范等等。
结果也验证了这条路径的有效性:其产品生成PPT的质量显著优于通用Agent。通用 Agent 的用户留存率普遍只有约10%,而该PPT Agent可达到20%以上,在竞争中形成了清晰差异化。
04
重新思考:人与Agent的交互
05
大模型与Agent
大模型会淹没Agent吗?
随着大模型公司纷纷推出Agent产品,"Agent是否会被大模型淹没"再次成为萦绕在创业者心头最大的疑问。一个具有代表性的对照案例,便是 Coding Agent 赛道中的 Cursor 与 Claude Code。
Claude Code代表了“大模型上探”的产品路径:把“规划—执行—复盘”内生到模型,强化长程规划与连续Tool Use的能力,尽可能以一次对话承载更多自治工作。依托模型厂商的数据闭环与算力优势,强调“模型即Agent”的一体化体验。
Cursor代表了“Agent下沉到环境”的路径:通过IDE这一真实执行环境,提供高质量的上下文供给、工具与权限治理、成本与合规控制,强调把智能稳定落在生产一线。
短期内,两种路线会并行发展,但长期来看,真正的护城河在于几个核心能力:深度的环境理解与操作能力、持续的学习记忆闭环、针对特定场景的模型优化,以及多Agent间的协作标准。
创业者要提前关注模型哪些能力的提升?
面对大模型公司可能的降维打击,Agent创业者需要提前布局/关注那些可能改变游戏规则的技术拐点。我们认为,大模型在如下四个领域的能力进展尤其值得创业者关注:
长期规划与连续行动能力提升:以Claude Code为代表的一方Agent产品(大模型公司推出的Agent产品),能够积累许多真实场景下的高质量人机协作数据,而一旦下一代的大模型训练从这些数据中学会长任务策略,可能就意味着“模型即Agent”时代的到来,也意味着那些以复杂工作流编排为核心竞争力的Agent产品可能会遭遇降维打击。
多模态深度融合:如果图像、语音、自然语言深度整合到同一个模型中,AI能真正像人一样同时"看、听、说"时,交互方式将发生根本性变化。特别是在老人、儿童和跨语言场景中,这种突破意味着技术普惠的真正实现,创造出巨大机会。谁能率先在这些细分场景做出差异化产品,就能建立先发优势。
界面自动生成:随着模型意图理解和视觉生成能力的提升,未来可能不再有标准化的界面设计。甚至可以想象,AI可以根据用户当下的任务、心情甚至时间,实时生成最适合的界面布局。这将彻底改变人们对软件产品的认知,也是重新定义软件产品的机会。创业者可以围绕动态界面的设计理念和实现方案建立新的产品品类。
更成熟的Context Engineering与记忆机制:围绕企业知识、规则与偏好,构建可持续沉淀与演进的上下文体系。企业级的上下文管理将成为新的竞争高地,这是大模型公司难以直接切入的专业化领域。
未来会是一个还是多个模型?
在实践中,创业者们越来越清晰地感受到:不同模型在能力侧重、风格取向与行为倾向上存在系统性差异,且这些差异并非简单的“强弱”维度,而是“偏好-能力”的多轴分布。
嘉宾们分享的经验:
不同大模型的能力侧重不同。ChatGPT在战略思考与架构抽象上,更凝练、结构清晰、思考更深;Gemini覆盖面广但偏铺陈、信息密度一般,更适合承接架构做详细设计;Claude规划能力最强,通用Agent的自主规划基本都用它做,它的代码能力也最强。
做成Agent后,各模型的“行动冲动”也有所不同:有的模型遇到模糊意图时会立刻尝试执行,容易越权或忽视成本约束;有的则倾向先追问、再确认。
基于此,比起追求一个“无所不包、可瞬时切换人格”的超级模型,现阶段更务实的做法是多模型分工与编排。利用这些大模型间的差异,把它们纳入产品的不同流程,让Agent在真实场景中更高效、可控且成本更低。
06
下一个突破口:记忆和学习
学习能力是关键
从人与Agent的交互到多Agent协作,核心挑战都指向了同一个方向:AI的学习能力。Agent需要在与用户的交互过程中不断学习用户的偏好、工作习惯、决策模式,更要掌握业务流程中那些没有明文规定的隐性规则。
这种学习远不是简单的参数微调,而是对特定场景下上下文的深度理解和长期记忆。就好像一个优秀秘书的价值在于比老板更懂老板的需求——知道什么时候该打断会议,什么邮件需要优先处理,哪些"紧急"任务其实可以缓一缓。Agent要达到这个水平,必须建立起基于场景的记忆和学习机制。
然而,当我们深入探讨这种学习机制的具体实现时,会发现Agent的学习困难不仅仅是技术实现问题,要真正解决Agent的学习能力问题,我们需要回到最基础的认知科学层面,重新审视记忆的本质结构。
记忆的底层瓶颈
从认知科学角度看,人脑的记忆分为三种类型:Semantic Memory(概念记忆,存放“是什么”的知识与概念关系)、Episodic Memory(情景/场景记忆,按时间线记录“在什么情境下、经历了哪些步骤、做过哪些尝试、得到了什么反馈”的具体经历),以及 Procedural Memory(程序记忆,类似“肌肉记忆”,用于稳定复现已掌握的技能动作,需要从情景记忆中反复提炼才能形成)。
当前AI系统在Semantic Memory方面已经做得不错,但在Episodic Memory方面几乎是空白。这也解释了为什么AI在编程领域表现突出、但在多数行业落地困难:代码本身记录了完整的"如何做"的过程,包括版本控制、失败案例、调试过程等,为AI提供了丰富的Episodic Memory。而在其他领域,这种过程性数据极度稀缺,web语料说的是"什么“,是结果。企业很少公开分享失败经验,即便分享也往往经过美化。销售如何失败?项目为何延期?决策如何出错?这些宝贵的学习素材很难在公开语料中找到。没有持续学习与情景记忆,Agent很难快速适应复杂上下文,仅靠抽象规则难以维持稳定表现。
Procedural Memory类似人的肌肉记忆。一个网球运动员在球打过来的时候,他的动作不是经过思考的,是他在长期训练过程中提炼的。所以他能够重复低成本、可靠地复制。AI如何将知识沉淀下来、如何把经验真正变成程序记忆,目前还很遥远。
情景记忆的探索方向
很遗憾,大模型在记忆和学习方面一直进展缓慢。情景记忆是提升学习能力很好的切入点,可能需要几个方向的探索。
首先是过程数据的主动收集。传统AI系统往往只关注最终结果,但情景记忆的核心在于记录完整的决策链条。这意味着Agent在执行任务时,需要详细记录每一步的决策逻辑、遇到的障碍、尝试的解决方案,以及用户的实时反馈。比如Cursor记录的用户行为(对Agent的建议是接受、修改还是拒绝等具体场景)对它的产品持续优化就很有价值。
其次是人机协作轨迹的深度学习。最有价值的学习往往来自高质量的人机协作案例。当用户纠正Agent的错误、调整执行策略或提供关键补充信息时,这些互动轨迹蕴含着丰富的隐性知识。Agent需要从这些协作模式中提取可复用的决策框架,而不是简单地记住表面的操作步骤。
第三个方向是场景化学习机制的建立。不同情境下的最优策略往往截然不同,Agent需要具备根据当前场景快速调用相关经验的能力。这要求系统能够识别场景的关键特征,并建立场景与策略之间的动态映射关系。
最后是可持续的上下文演进能力。记忆不应该是静态的存储,而应该是一个随着使用而不断优化的动态系统。Agent需要能够识别哪些经验在新情境下仍然适用,哪些需要调整,哪些已经过时需要淘汰。

转载原创文章请添加微信:founderparker
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢