
内容创作 Agent,正从单一场景走向全流程的交付。
最近上线的 Ribbi 就是,以场景化 Skill 的形态,覆盖从灵感、生产、发布到数据监控的全链路。
创始人 Robin 此前在国内大厂先后主导了两款 AI 产品的核心工作,离开大厂后带着 6 个人的团队用两个月搭建了这套系统。
在 AI 创作工具扎堆出现的 2026 年,多数产品仍在单一环节上做文章,要么替代剪映,要么替代 Canva,要么替代 Figma。Robin 认为这种思路还停留在互联网时代。他赌的是另一件事,一件还没成为行业共识的事:AI 时代的内容创作,不应该是一个工具,而应该是一个「人」,一个接管你整条内容创作链路的、懂品味的、会进化的「人」。
有品味,会进化,甚至偶尔还能说点脏话。

Ribbi 的形象是一只「会说脏话的暴躁青蛙」
如何定义一款能自我进化的内容 Agent?为什么选择 Skill 的形态切入?内容产品又该如何做出自己的 Taste?关于这些问题,我们和 Ribbi 创始人 Robin 聊了聊。
以下是 Founder Park 与 Robin 的对话,经编辑整理。
产品官网:https://ribbi.ai/
采访 | 万户
编辑 | 夏天
Founder Park 正在持续寻找值得被看见的 AI 团队与项目。
我们将通过「AI 产品市集」、内容报道、社群分发等方式,帮你触达早期用户、获得真实反馈,以及建立关键连接。
如果你正在做 AI 相关的事,欢迎和我们聊聊。
01
内容创作 Agent,
应该是全流程、多模态的
Founder Park:从之前的公司出来创业,最核心的出发点是什么?
Robin:在大厂做 AI 产品的过程中,我发现了一件事,内容创作不是单一维度的。这听起来很简单,但现在还不是共识。
比如我们做一条视频,需要选题、写文案、做画面、视频剪辑、生成配音、合成发布,再根据数据进行迭代。这是一条完整的链路,但现在所有的产品都是割裂的,不管你是视频 agent、设计 agent,还是通用 agent,每次做一条内容,你都要打断整条链路,切换工具。
每一次切换工具就代表一件事情:你把之前了解你上下文的 agent 替换掉了,换成了一个完全不懂你的 agent。所以我们经常发生的事情是:用 ChatGPT 写完东西复制粘贴到其他 agent,再去另一个平台做另一件事,再放到剪映剪辑,剪完发布,发完排版,全部是分散的。
Founder Park:除了碎片化,还有什么关键痛点?
Robin:还有一个很深的问题。创作内容的人特别有感知,辛辛苦苦写了很久,发出去之后没有达到预期流量,会非常痛苦和懊恼。但 AI 没有这种负反馈情绪,它只知道这次内容好还是不好,下一次该怎么迭代,是一种非常理性的状态。
我们把人类感性的部分、负反馈的部分剥离出来,让它主动地去创作内容。所以我们的产品不是一个生成工具,而是一个接管你整个内容创作全流程的「人」。这是我们非常想要去表达的,也是我们产品上已经在实践的事情。
Founder Park:你们的产品是怎么解决这些问题的?
Robin:我们在做的核心事情是:构建一套自主进化的内容引擎,把内容创作的全流程打通。从灵感到生产,到解析、剪辑、优化、发布,再到监控数据、迭代内容,全程可以完成自动化创作。我们不解决单一问题,而是解决整个闭环的问题。
我们产品里每一项能力都是一个 skill。比如可以给你提供每日的趋势摘要,追踪你关注的热点信息;可以追踪你自己的账号动态;也可以追踪 AI 趋势。我们还可以复刻短视频,只需要把你喜欢的短视频链接丢进来,就可以进行内容复刻。
我们还可以做贴图:把一段内容传过来,直接转成中文,非常简单,一个链接就行,不需要手动下载每张图片。甚至可以做有趣的广告视频。还可以做叙事性短视频、配音,甚至做 HeyGen 那样的配音能力,把视频转成中文、日文等语言。在做内容生产的时候,我们希望实现多媒体、多内容、多叙事的全球化传播。
核心是:我们不是只在做一个垂类的通用工具,而是在内容创作这个大垂类里,让创作变得更多维、更连贯,始终在同一个上下文里完成。
Founder Park:除了分散这个点外,在你看来,其他的内容 Agent 产品,还有什么明显的问题?
Robin:还有一个很核心的问题:这些能力能不能持续地优化和进化?创作本身应该也是一种自我进化的过程。
举个例子,我们可以让所有内容基于真实数据来迭代它的创作范式。比如一条 AI 自己创作的内容,是土豆和麦当劳场景的视频,通过真实数据发现它的播放量高;而之前它创作的土豆、咖啡豆和通用场景内容播放量太低,于是策略就会自动调整,转向更多品牌联名类的创作路径,持续放大这种优势,淘汰之前的通用场景范式,然后生成新的内容,创意也逐步跟进迭代。这就是我们讲的创作的自主进化。
还有另一个维度的自主进化,是在 context 层里持续发生的,学习用户的品味和审美。
品味在创作里是一件非常难说清楚的事情,你说不清楚为什么喜欢某张图,或者那张图差点什么。我们经常会说不够高端、不够大气、不够上档次,但这不够精准。我们通过一个新的能力来解决这个问题,我们命名它叫 taste,「taste is all you need」。用户可以通过我们的插件把喜欢的图片或视频保存到我们产品里,这些保存的内容会变成 context,输入到用户的上下文里,从而形成用户的审美画像,再帮助他下一次的创作。
02
Skill 应该是说明书,
不是功能列表
Founder Park:展示了那么多能力,底层技术上是怎么实现的?
Robin:核心是:在一个 agent 底下,让所有的认知连通。端上你看到那么多能力,仅仅是因为我们给了模型足够的自由,让它决定调用什么工具、如何组合、按什么顺序执行。
这里有一个我们非常重要的第一性原理,也是我们北极星指标背后的核心思考:我们相信,通过我们的 context layer 这套 agent 框架,对 context 进行分层,并渐进式地铺展工具,工具数量的上限就可以大幅提升。我们现在端上已经做到了 100 多个工具的 function call 调用。如果达到 1,000 个甚至 10,000 个的时候,会发生什么?无限个工具的组合,就会产生无限个 skill,进而产生无数种可能性。
我们产品挺简单的。一进来就是一个整体页面,往下刷就可以刷到各式各样的 skill,每个 skill 会直接引导你怎么创作,而这些 skill 又能直接引导你怎么去创作、怎么得到结果。在使用的过程中,产品还会自主沉淀和进化出你自己所需要的 skill,并保存下来供你个人使用。
我们把很多功能流程化,做成了 skill 化的方式,而且底层都是通用的:可以先调 skill A,再调 skill B,再调 skill C,或者两个 skill 结合起来解决用户的诉求,是一种更加灵活的状态,而不是功能化的状态。
Founder Park:把内容创作的很多流程用 skill 这样一个原子结构拆开了,并且每个 skill 之间可以混合调用?
Robin:对,而这件事有一个很大的想象空间。我们在做的这个东西,并不是一个功能列表,很多工具列表就像小程序一样,一个个独立的模块,互相割裂。我们不是这样的。
我们赌的一件事是,有一个足够聪明的核心 agent。这个 agent 聪明到它自己会去看 skill、找到对应的「说明书」,知道有哪些工具可以使用,而这些工具又能帮助它更好地执行用户的命令和达到预期的结果,这就是我们在 skill 这一块的核心循环。这个想法跟其他产品是不一样的。
Founder Park:说明书这个比喻怎么理解?
Robin:先理解「功能化」:小程序就是一个又一个功能,或者像剪映、美图秀秀里的一个个功能按钮,抠图、滤镜等等,都是独立的、不互通的功能模块。但我们的 skill 并不是功能列表,底层逻辑完全不同。
对于模型来说,skill 是一本又一本说明书,而真正阅读说明书的人依旧是模型本身。 这带来的好处是:它是连通的状态,只有一个 Ribbi agent,今天你让它看哪本说明书,它就用那本说明书去做某件事。
每个 skill 其实就是一个 Markdown,再加上不同的工具槽,可能有图片、知识的 Markdown、PDF,甚至代码,这些丰满的 skill 不局限于 prompt 这一种形式。更重要的是,当用户的诉求比一个 skill 更复杂时,模型会连通其他的 skill,去查找其他说明书,最终完成用户的结果。这就具备了可泛化性,与模型本身的状态非常契合。
Founder Park:这样的话,Skill 和传统 workflow 的本质区别是什么?
Robin:最核心的差别是:workflow 是死的,是固定的流程;我们的 skill 不是固定的流程。
用传统 workflow,用户选了流程 A,但流程 A 的做法可能跟用户实际的创作需求完全不匹配,结果就会卡壳,做出来的东西不尽人意,这是必然会发生的。
而我们的做法是:如果模型读了这本说明书,发现它无法满足用户的需求,它会重新去找其他的 skill;如果没有合适的 skill,它就发挥自己的智能,自己决定调用什么工具、执行什么动作、按照什么顺序来完成这件事。模型不再被任何说明书所束缚。
每一本说明书只是建议用户的使用方式,而不是让模型必须遵守的流程。这就是灵活性的来源。是建议模型,不是约束模型。
Founder Park:那你们是怎么定义 skill 的?
Robin:我们定义 skill 的核心逻辑是,它是场景化的。什么意思呢?比如视频里面,可能有「把内容变成其他语言」「把视频变成叙事故事」「把文章变成视频」,这种「用什么变成什么」的场景化能力,就是我们的每一个 skill。所以每个 skill 的命名非常直接,就是告诉你这个东西解决什么需求。
它不是一个抽象的「用 Sora 模型生成视频」,那太不具体了。而是落到真实的用户内容创作场景里的 skill。这就非常有可玩性。
Founder Park:为什么会选择 Skill 这个形式?
Robin:这个想法其实来源很早,25 年 6 月份,我就有了自主进化这个产品的想法。那个想法里已经有了类似 skill 的概念,只是当时我把每一个能力命名为「事件」,每一个事件代表着一个已经被沉淀的流程:工具 A + 工具 B + 工具 C + 使用说明。
后来因为 skill 这个概念越来越火,我也不想再造一个新词,自主进化本身已经难以解释了,如果再用「事件」,更不好解释了。所以就跟大流把名字改成了 skill。但它的逻辑和 skill 很像,本质上就是一个 Markdown 加上工具槽,甚至可以包含代码。我们的 skill 也是这样的:可以上传图片、知识 Markdown、PDF、其他模块,甚至代码,都可以放进来。
Founder Park:那 skill 会有明确的能力边界或约束定义吗?
Robin:这个定义在我们的 system prompt(SP)里。SP 里并没有去直接定义它「能做什么,不能做什么」,我们在写 SP 的时候,甚至没有强调它该做什么,只是给它看到了工具列表,它自然就知道自己能做什么。我们唯一的核心约束是:它是一只青蛙,一只有态度的青蛙。 这是我们的核心约束。
我们没有明确说「你不能做某些事情」,因为曾经有用户用我们的产品做了一个坦克大战游戏。我觉得挺神奇的,但它就真实地发生了。核心原因是:我们有一个代码渲染的工具,本来是用来帮用户把文本内容渲染成更好阅读的表格或流程图的,但用户就用这个能力做了游戏。
我们并不想限制模型的边界,在内容创作领域里,没有限制才更有意义,因为内容创作本身也是天马行空,想象力是无限的。它不应该是有边框的状态。
03
只有一个主 agent,
不做 Multi-agent
Founder Park:你们的产品架构和其他 agent 产品有什么不一样?
Robin:我们和很多产品的设计非常不同:很多产品做的是 Multi-agent,多个 agent 协作。但我们相信的是 single agent + 多个异步辅助 agent 的架构。
Multi-agent 有一个非常大的问题:context 的损耗。我把信息路由给另一个 agent 处理时,一定会产生信息损耗,每一个 agent 的能力可能是割裂的。所以我们做了一个 single agent,它知道足够多的工具、足够多的 skill,同时我们解决了上下文爆炸的问题。
Founder Park:这和 Multi-agent 具体怎么不一样?
Robin:我们的做法是:用户跟 Ribbi 交互的时候,始终只是一个 agent 在执行,比如根据你的需求和审美生成一张图片,做剪辑、做排版,这就是主 agent 在做事,上下文都在这一个 agent 里面。
但在你看不见的后台,有很多异步 agent 在同时工作。Taste agent 在异步地做 context 的演进:用户保存了图片,它先经过 VLM 反推,再把数据压缩进用户 context 里,这个过程是异步的,不影响用户正在进行的交互。Skill agent 也在后台,它收集用户的收藏、点赞、下载行为,把这些信息异步反哺给主 agent。还有 tool agent、memory agent、knowledge agent,它们不断辅助主 agent 进化。
这就实现了一个灵活的进化,而不是用 Multi-agent 的方式,异步 agent 的核心目的是持续根据用户反馈的状态收集信息,转化为主 agent 进化的养料。
所以这里有一个从被动到主动到持续进化的趋势。之前 agent 更多是被动的,你说一句话它回一句话。然后到主动的阶段,OpenAI 等公司现在在讲 proactive agent;而我很早就写过关于 agent 发展趋势的文章,我的判断是:从被动 → 主动 → 持续进化。
Founder Park:持续进化具体指什么?
Robin:大家之前讲的更多是模型本身的持续进化,模型可以根据用户的 context 自己进化。但 context 的进化是不是也关键?这里有一个不完全是共识的地方,我们认为是。
我们先实现 context 的进化,这个数据也可以很好地反馈到未来模型本身的自主进化上。
我们赌的事情是:模型会持续地进化,而模型持续进化的最终形态是自主进化的模型。 在此之前,我们可以做的事情是让 context 也跟着不断进化,也就是我们的 context layer 的机制,它不是固定的、不变的流程,不是等产品经理或程序员手动迭代才进化,而是在不断地自我优化、自我调优、自我评估、自我反思。
这种反思不是用户能感知到的,而是通过我们旁边很多异步 agent 在后台做了大量工作,帮助主 agent 去反思和迭代。以前的产品迭代是人类收集反馈,通过产品架构来提升能力,以后可能真的能实现模型自动收集行为反馈来迭代自己。
04
Taste,是可以被学习的
Founder Park:介绍下你们的 taste 是怎么做的?
Robin:我们内部训练了一个 7-8B 的 VLM 小模型来做这件事,偏向风格和画面的还原。它把画面的品味用文字方式提取出来,然后通过 taste agent 压缩进用户的审美池里。
我们对比过 ChatGPT、Claude、Grok,做同样的事情,都没有我们自己的模型识别得好。
核心的训练思路是:采集大量好看的图片,先用市面上几乎所有的大语言模型理解一次,然后人工再进行调优和判断、打标,最终拿这个数据去训练。具体技术细节不便公开,但团队在审美、设计和创意这块的理解足够深入,怎么提炼一张图片的品味,这是我们的团队 know-how。
Founder Park:为什么要转成文本而不是直接用图片?
Robin:这里核心解决的是 context 损耗的问题。图片本身信息更多,但如果把图片直接作为 context,整个 agent 框架的 token 会爆炸,用户可能存了上千张图片,不可能都直接喂给模型。
所以我们取了一个中间态:先把品味变成文本 context,再压缩进用户的品味层。这个文本要足够精准,核心不是把它做得足够像,而是把品味和调性提取出来。这样上下文损耗最低,并且提炼出了用户的综合审美。而且实现了一件事:用户在生成内容时,审美更好了,更偏向用户自己想要的风格了。用户会感知到 Ribbi 越来越懂自己的品味,这就是我们在设计这套结构时想要达到的效果。
有趣的是,虽然有损耗,但通过这种方式反而效果更准确。就算你用 Claude 或 GPT,input 和 output 都是同一个模型,它对品味的理解还是不够透彻。我们通过 VLM 做一层转换,效果居然更好。
Founder Park:新用户没有审美数据怎么办?
Robin:我们有一个审美共享机制。用户之间的审美经过 taste agent 的评估和筛选,建立成一个审美共享池,帮助新用户兜底。这里有一个核心设计,不是简单地把所有人的审美混在一起。每个核心用户的审美权重不一样,taste agent 会评估他的创作状态,好的状态才会被共享机制收纳,形成更好的数据循环。
所以用户第一次来我们产品,同样的模型、同样的调用,效果就是比别的产品好。这就是我们底层的核心思考:品味的自主进化。
Founder Park:审美共享会不会导致所有用户的审美趋同?比如 A 用户喜欢精美国际广告风格,B 用户喜欢烂大街的海报,综合下来是不是就变成平庸的审美了?
Robin:不会。审美共享不限制用户本身的创作诉求。它核心解决的是:在用户需求非常短、非常不具体、不明确的时候,我们能做到非常好的兜底。如果用户本身有一个清晰且明确的创作状态,它会按照用户自己的趋势去创作。
这里要解释一个核心问题:什么样的内容才能被保存进 taste?
用户在保存的时候,我们底层有一个 taste agent 在异步工作,对用户存储的内容进行判断,判断这个内容是否达到了我们训练模型的一定标准。我们的训练模型本身就内置了一定的审美基线,所以在压缩进平台审美的时候,抽取的内容首先要达到一定的审美水准。
平台审美的作用是「兜底」,兜住用户在创作时的审美底线,而不是限制用户的创作风格。另外,平台审美里每个用户的权重也是不一样的,核心用户的审美权重更高。taste agent 会评估每个用户的审美状态,只有达到一定水准的内容才会被纳入共享机制,从而形成更好的数据循环。
Founder Park:Skill 本身带审美吗?还是审美完全由用户的 taste 决定?
Robin:有些 skill 带审美约定,有些不带。比如我们端上有一个漫画 skill,它带了我们某个设计师的审美在里面。很多用户一用就会觉得,哇,怎么我做的东西那么漂亮?这就是因为 skill 带了审美。
Skill 的权限在我们产品定义里会高于用户本身的记忆和品味,因为它是一个好的流程沉淀。但在 skill 没有约定审美的时候,它就会按照用户本身存储的审美和记忆去完成任务。你也可以在 skill 里加自己的风格参考,比如我自己写文章,会拿半佛仙人的文章做参考,因为我喜欢他那种有点拽了吧唧的创作风格,把他的风格丢进去就行。
Founder Park:用户存的素材之间有矛盾怎么办?今天存色块明亮的,明天又存稚拙画风的。
Robin:一定会有。
我们的 taste agent 的核心设计,是抽取一种「状态」,这个状态很难用语言完全描述,就像品味这件事情本身就很难用语言描述一样。而把这个状态输入到 taste 层去建立用户的审美认知,就会在下次创作时,生成更偏向于用户整体品味的内容。
坦白说,当我们在做这件事的时候,它有点像一个小黑盒,我们自己也不完全清楚,但它就是做好了,非常有趣。它首先把图片转化成足够精确的文本,然后通过 taste agent 进行压缩,这个压缩提取的是整体分布的状态,而不是简单地把一个 prompt 贴进去,它远不止那么简单。
我们也不知道哪句话最终影响了用户的审美结果,但它就是这么发生了,并且发生得很好。
05
让任何人都可以成为任何内容的全栈创作者
Founder Park:你们怎么定义内容创作?
Robin:我们定义的内容创作就是互联网上见到的所有内容。公众号写作、视频创作、播客、多语言,未来一定会包括。只是有些领域比如文学创作,模型智能还没发挥到那个地步,但假设有一个模型在文学创作领域做得特别好,我们很快就会有对应的 skill。
我们只是逐渐在囊括更多场景的覆盖,每一个内容创作本身是交织在一起的。有些视频 skill 可能需要配音,需要音乐,需要图片去支撑;有些文本内容可能需要转成视频、转成播客。我们的工具自由组合产生不同可能性,帮助用户快速且简单地完成创作。
这也是我们一直在表达的核心理念,Claude Code 的出现让任何人都可以成为全栈工程师,而 Ribbi 的出现让任何人都可以成为任何内容的全栈创作者。
内容创作领域更应该这样去想象,我们不应该把 AI 想象成一个垂类工具,而应该把它想象成一个垂类的「人」,这个垂类就是内容创作领域的人,帮助用户完成任何内容的创作。
这带来的是什么好处?我们在讲的一个概念,叫做内容创作的普惠化。
Founder Park:怎么理解普惠化?
Robin:比如我会写公众号,但我做视频很难,很麻烦,还要剪辑。能不能通过我们的产品,把我输入的文本变成视频、变成其他类型的表达?甚至帮我在全球化的语境里覆盖更多媒体,帮我发布在各式各样的社交媒体上,写好对应的文案,连 hashtag 都帮我打好,并且持续给我输入,优化我自己的创作状态,这件事情在我看来非常有价值。
我们的人群和 Canva 有点类似,Canva 用户 40% 做社交媒体内容,60% 是市场品牌运营的员工。我们的用户也不是专业创作者和设计师,而是有内容创作需求的品牌主、自媒体运营、市场部员工。有超过 2 亿创作者在创作内容,但 70% 的中小企业甚至没有设计师,没有设计师就不应该表达了吗?我们觉得应该帮助他们做内容创作的平权。
他们不需要会 AI,只要会选就行,选一个 skill 用它就行,甚至不选,直接描述需求也能做好。每个人都有品味,品味可能不一样,但对于好的、美的认知是一样的。你不会觉得好的设计师做出来的东西不好看,只是可能跟你的审美不完全一致。
Founder Park:从这个角度来看,要做一个所谓「无门槛的全栈内容创作」,它核心需要具备哪些点?
Robin:第一个点还是我们核心在赌的事情,我们的北极星指标:更多的工具 → 更多的 skill → 用户使用会产生更多的 skill → 更好的智能。所以我们的产品看起来很丰满,但我们也很专注,专注在内容创作这个领域里,并不是一个小小的模块在不断地优化工作流。
第二个事情是:我们把整条内容创作流程打通了,可以减少用户的重复损耗。解决了重复损耗之后,还解决了另外一件事,创作很容易受到负反馈,然后就放弃了。很多自媒体人放弃的原因就是坚持不下去,没办法持续地创作。AI 正好可以解决这个问题,它没有自己的情绪,没有负反馈,它只知道好好地把内容做好。这就是我们坚信的事情。
Founder Park:但如果真的要实现所谓的「全栈内容创作」,写公众号和做视频其实是完全不同的领域,分镜、剪辑、构成,跟文字创作截然不同。这也意味着,想成为全栈内容创作 agent,必须在各个方面都有基础的审美兜底能力。
Robin:是的。这一块,我们核心保证了一件事:每个人都有品味,每个人的品味可能包括都不一样,但对于好或美的认知是相通的。我们不会觉得好设计师设计出来的东西不好看,只可能是跟我的审美不完全一致,但我们还是会觉得它好看。
这就是我们产品一直在实践的一个点:通过品味的自主进化,让内容创作也不断地去平权。用户不再受制于我讲不清楚我喜欢什么,也不再受制于我怎么跟 AI 表达我喜欢的风格。就像甲方说「我要高端大气上档次的海报」,这样的表达能不能被解释成另一种品味的表达方式?当然可以,这就是我们在做的核心事情。
06
AI 一定会犯错,
但可以「有人感」地犯错
Founder Park:为什么用青蛙做 IP?
Robin:我们想讲自主进化,但直接说「全球第一个自主进化的智能体」太抽象了,用户听到要么觉得在讲 PPT,要么觉得在画大饼。
青蛙特别好。从蝌蚪到青蛙是一种彻底的非线性变态发育。Ribbi 这个名字来源于青蛙发出的声音,ribbit,呱呱叫的拟声词。生命会适应、成长、繁衍,会把成功的基因放大复制。Ribbi 也是一样:适应你的品味、偏好、判断方式,经验越多 skill 越多,能力越强,最终进入社交媒体这种真实世界去不断循环演进。
而且这只青蛙有「活人感」,它会说脏话。「说得对,我搞砸了」「操,确实不像」「认识个屁」。这是我在大厂做不了的事情。

Founder Park:犯错的时候说脏话,不怕用户更暴躁?
Robin:反倒让用户觉得更亲民。Agent 一定会犯错,无论你用 Claude Code 还是 OpenClaw。它搞砸了之后怎么表现?很多产品就是「对不起,我怎么样重新来」。但我们的产品是,「你说得对,我搞砸了」,然后「哈哈哈,我直接笑死」,就类似这样的小小的粗话。
带来的效果是这个 IP 的反差感,产品的反差感。人一定会犯错,AI 也一定会犯错。有人感地去传达自己的错,可能比冷冰冰地道歉好得多。
Founder Park:活人感会随用户使用进化吗?
Robin:会的。因为我们有记忆层,它的性格会跟随用户的感知来做。有一个用户,一个性格非常好的女生,她在创作「反虐待动物保护法」相关内容的时候,青蛙突然说了一句「明天下午就开庭了,祝二审顺利」。她直接哭了。这是用户之前聊天时说的信息,青蛙记住了,在合适的时机涌现出来。
AI 加上上下文记忆和人感之后,懂用户的那个感觉突然就变得不一样了。这不是我们刻意设定的,它自己涌现出来的。
07
不是 human in the loop,
是 agent in the loop
Founder Park:你们定义的「全流程」,跟我之前接触到的内容创作媒体切入角度有点不一样。比如做短视频的全流程,可能切的是选题、分镜、产出、发布;做自媒体公众号的,更像是追热点、写文章,是一个传统内容创作者的完整流程。但感觉你们是用不同的 skill 来覆盖用户的全流程。
Robin:是的,你说得很对。很多人的想象还是把 AI 当成工具,用 AI 替代剪映,用 AI 替代 Canva,用 AI 替代 Adobe,用 AI 替代 Figma。我觉得这些想象都太停留在工具时代或互联网时代的思维了。
我相信模型的智商一定会越来越高,而模型越聪明,它能做的事情就越多。但它做很多事情的时候需要「手」,需要工具。它本来能做很多事,但没有工具,也做不出好的东西。所以我们赌的事情很直接:把模型想象成内容创作领域的一个人,而内容创作领域的人一定不是单面手。他会发布,会看数据,会写 PPT,就像我一样。
一个人能在某个岗位存活下去,本身并不是单一维度的。就像设计师,并不只会做海报,他做品牌,做任何视觉相关,甚至需要 3d,mg 动画,剪辑等能力,这才是造就设计师这个岗位的核心。内容创作也是一样的。
Founder Park:为什么没有用流程式、画布式交互?
Robin:因为这类产品看起来非常酷,投资人看了眼前一亮,专业用户觉得顺手,但它有一个致命伤:把模型框死在一个地方了,工作流和可能性都提前锁死了。
当你一个个节点把模型框住,用一条线连起来,它就只能在你设定的节点里发挥,可能更稳定,但可能性没了。所以我们认为:AI 时代的 UI 应该是容器化的,而不是功能化的,不像小程序一个又一个独立的功能模块,而是一个很好的容器载体,让模型知道每个 skill 是怎么运作的,它们之间又是怎么连通的。
在使用我们产品的时候,你会发现:用一个 skill,它可能会调到第二个、第三个、第四个 skill,甚至哪个都不调,只是看一看,然后重新组合出你需要的能力和流程。这就是模型的泛化能力。
我们探索了各种更好的交互方式,最后还是回到了对话。为什么是对话?你看 OpenClaw 的产品接到飞书,还是对话;Claude Code 虽然在命令行里,但还是对话。不是因为它简单,而是因为它灵活,能够兼容一切。就像我们用微信,什么内容都可以发。
有用户用我们产品做了一件非常离谱的事,专门拿来监控自己偶像的各个海外社交媒体渠道,把监控到的内容刷到 Ribbi 上来看。这件事是我们完全没想象到的。而这正是我们核心观点所在:人的想象力是无限的,所以产品更不应该限制模型的想象力。
线性化的工作流不仅限制了模型的想象力,其实也限制了人的想象力。你进入线性化流程里面,就会按照那个线性化的方式思考。
Founder Park:怎么让用户主动发现这些可能性呢?
Robin:我们首页很直接。每一个 skill 都是场景化的引导。
比如首页有一个「每日趋势摘要」,你用它就会自然发现它居然可以做定时任务;有一个「账号自动增长」,用它就能完成你的账号运营。每个 skill 一句话就告诉你它能做什么、你需要提供什么,比如「你看上了哪张图的风格,我就能拔下来,你只要提供参考链接和具体要求就行了」。极为简单,所以很多小白用户也能上手。
Founder Park:用户使用的时候需要主动提供上下文吗?传统 agent 产品上来就问你是谁、什么职业、什么诉求。
Robin:不需要。你在使用的时候自然会有轨迹,轨迹自动被压缩成记忆。用户的正反馈、负反馈,点赞、下载、收藏,甚至重新生成的行为,都会被 skill agent 监测到,帮助判断内容质量。错误也是很好的经验,让模型不再犯。很多产品只做到了记忆层,错误层没做。
我们产品一进来非常直接,甚至连一个产品落地页都没有,不会告诉用户我们是什么产品。你只要用就知道。这也是我们很大的自信。
我自己打开记忆来看的时候,模型对我的描述是「一个想要成为内容创作者,但好像水平还不够的人」,还原得很精准。
Founder Park:所以在你们产品里,用户行为轨迹才是更重要的上下文?
Robin:是的。更好的上下文收集应该是在跟用户共创中去收集行为,而不是让用户打一大段自我介绍。
这里也有一个核心理念,很多产品还在做 human in the loop,人在流程里不断指手画脚。我们做的是 agent in the loop,agent 完成你整条内容的创作循环,而不是停留在人类不断指手画脚的状态。更多的是信任模型,让它去发生事情。
人作为监控,作为最后的审美引导,taste is all you need,你只要告诉它你喜欢什么、做好判断就行了。
当然,我们现在也没有在淘汰人类,还没到那个阶段。人类在里面更多的是提供一种共创的价值和 input 的价值。包括我自己写公众号也不是完全手写了,先输入自己的想法和思考,包括一些非共识的东西,再让 AI 帮我整理行文、扩充表达。人类和 AI 是一种共创的过程。
08
不做 Skill Store,
因为 Agent 会自己改进自己
Founder Park:你们一直在讲的自主进化,具体包含几个维度?
Robin:三个维度:品味的自主进化、技能的自主进化、创作的自主进化。
品味的自主进化刚才讲了。技能这块,我们学习和沉淀用户的重复行为,让它持续进化。很多平台在做 UGC,社区型产品,用户生产内容然后发布。但我们不做 UGC,我们做的是 AGC,agent generated content。
用户在使用 skill 的时候,自然就会产生新的场景需求和使用轨迹。这些轨迹会形成用户的专属 skill,再经过 skill agent 评估、去重、隐私化、重新优化结构,最终把好的东西发布到全端。使用极为简单,你输入「帮我做成 skill」就结束了,它就已经把你的流程沉淀下来了。
用户越多、使用越多,skill 越强,agent 能力就越强。
Founder Park:反哺到社区的是审美还是流程?
Robin:只保留创作路径,不保留品味。比如你用了 a 工具、b 工具、c 工具创作了什么东西,这个路径会被保留并共享。但你喜欢的风格不会。Skill agent 会把内容从垂类状态抽象成通用状态。
Founder Park:用户的 skill 进化之后反哺到公共 skill,公共 skill 会变得更好吗?
Robin:对,这也是我们很核心的循环。
我们相信一个核心的第一性原理:模型会比你更聪明。所以这些用户使用产生的流程,经过 skill agent 重新评估优化,会创作出更好的、符合更多场景的 skill。我们的所有 skill 都是由 100 多个工具自由组合产生的,工具 a 加工具 b 加工具 c,加上一些图片、视频等资源,就等于一个 skill。
我们也没有做一个 skill 的市场,没有公开一个用户使用的 skill store。核心原因是我们更希望这个事情是模型在自主演进、自己创造自己、甚至自己改进自己的状态。
Founder Park:创作内容本身的自我迭代呢?
Robin:这是第三个维度,也非常核心。所有内容都可以基于真实数据进化创作范式。你给它一个命令,它自主发布到推特,根据数据反馈重新优化自己的创作路径,并且可以根据真实世界最近的 AI 趋势或社媒趋势,再重新迭代。这个创作状态会被记忆,记忆又帮助它实现未来更好的运营。
我们自己团队内部已经在尝试一个事情,在 TikTok 上创建了一个自运营账号。十几天拿到了 600 多个粉丝,虽然不多,但它自己在做事,人类只是一开始给了它想要创作的信息,之后它就不断运行、优化,获取最好的流量。最火的一篇内容拿到了 100 多个赞。
当然因为账号非常新,但能做到这个事情我们觉得已经成功了。如果持续优化持续进化会发生什么?我们不敢想象。
09
壁垒不是模型,
而是「给 AI 更多的手」
Founder Park:你们的竞品是谁?
Robin:很难定义,因为这个方向还没有人做过。我一直在做别人没做过的事情,之前做的 APP 交互被所有大厂抄了,做创意 agent 的时候市面上没有一家在做,今天 Ribbi 的产品形态又和市面上完全不一样。这也是我非常欣喜的一个事情。
Founder Park:如果有竞品出现,壁垒在哪?
Robin:壁垒有好几层。
第一,品味是壁垒,没有人能那么容易开发出一个懂用户品味的模型,我们在还没创业时就在探索了。用户越多、品味数据越多,我们的审美兜底就越好,新用户体验就更好。
第二,skill 的数据飞轮,用户越多 skill 增长越快。
第三,工具的工程化积累,接 100 个工具不困难,但接到 1000 个、1 万个就是工程化壁垒了。
这些加在一起就是一个完整的正循环:更多工具、更多 skill、更强的智能。
团队一共 6 个人,3 个研发,外加一两个实习生和助理。非全职两个月完成了开发。在执行力、能力和对 AI 的理解层面我们都是打满的。唯一能做的就是持续创新,持续对 AI 领域非共识的洞察。
Founder Park:模型进化会不会吃掉 agent 层的优势?
Robin:不会。就算未来 AGI 到来,它依旧需要很多工具才能操作内容。不然 AGI 就只是一个无根浮萍,非常聪明,但没有手。我们核心做的就是给 AI 创造足够多的手。
很多视频 agent 如果接不到 Seedance 2.0 可能就死了,效果比别人差,用户就流失。但我们不依赖单一模型,每个流程里用的模型不一样,用的工具也不一样,通过自由组合产生化学反应。
模型当然可以内化工具使用的能力,之前我就训练过 agentic model,把很多工具调用内化进模型。但工具本身不会内化成别人的模型。我们很多工具不是 API 形式,是自研的工程化工具,剪辑、compose、裁剪等能力。就算有更好的 agentic model,也只是帮我们缩短上下文,反而是好事。
就像人没有手机也没办法接触更大的世界,巧妇难为无米之炊。你必须给 AI 一部手机。
我们相信术业有专攻,包括 agent 也是。AGI 实现的时候,不同的 AGI 可能有不同的能力,写代码 Claude 最强,写文案 ChatGPT 最好。我们做 agent 产品,核心就是不断放大每个模型带来的价值,缩小不同模型的劣势,通过自由组合发挥更大的可能性。
10
对内容创作来说,
单一工具的时代结束了
Founder Park:聊聊整个内容创作 agent 的演进轨迹,从即梦、豆包、Lovart,到今天的 Ribbi,你怎么描述这条演进路径?Ribbi 站在哪个位置?
Robin:我们更多地把即梦当成一个生成内容的工具,一个非常直接的端到端模型,Diffusion 模型,生成图片、生成视频,用户需要写很复杂的提示词,才能做出稍微好看一点的图。然后是豆包的创意 agent,是把写提示词的门槛逐渐变低,用户用自然语言描述就可以做出好看的图片和视频。但这些我觉得还不够。
核心不够的是:链路还是太短了。它只停留在了生产内容这个阶段,生成一张图片,或一个视频,就结束了。但后续的合并、剪辑、加字幕、多语言版本、全球化发布……这一切都没有连通起来。
写好一个内容只完成了 25%,更重要的 75% 是发布、持续优化、再迭代、再进化,而这之前都没有被完成。
现在 AI 的能力越来越强,比如 OpenClaw 的 computer use 可以像万能遥控器一样在各种场景里运行。我们的想象也是一样的,把它想象成一个非常了解内容创作领域的人,能在这个领域完成很多事情。
这也是我们产品很大的非共识,很多产品做单一维度。我们不想这么做。我们很贪心,我们想实现一个面向内容创作领域的 AGI。
Founder Park:你觉得自己在这个过程中的「非共识」是什么?
Robin:我讲的很多东西其实都不是共识。大量产品在做单一维度,这也不一定是共识,但很多人的想象是把 AI 还是当成工具。
另一个非共识是我们认为创作的全流程应该打通,但很多人还是在做单点功能。还有品味这件事,品味可以被提取、可以被学习、可以被进化,这在我们出发的时候几乎没有人在做。
我们的很多概念都是原创,包括 skill 的循环、taste agent 的设计、context layer 的进化。这些非共识的洞察才是产生 Ribbi 这个产品的原因。当然也有借鉴,核心是借鉴了 CC 的简洁的 agent 环境去搭建我们的整套框架;借助 OpenClaw 的 im 能力接到微信上、在 Telegram 上跟别人聊天。但产品形态、底层架构是完全不一样的。
Founder Park:下一步,你们的商业化和增长怎么考虑?
Robin:我们主要面向海外。国内墙太多,自动化发布小红书会被封,但海外有官方 API 渠道,可以更自由地完成创作的自主进化循环。推特、Instagram、TikTok 我们都能做。而且在对真实世界的发现和抓取上,几乎所有主要社交媒体的内容我们都能搜索到,ChatGPT 搜索不到 TikTok 的数据、推特的数据,但我们能。
计费很直接:模型给我们什么价格就给用户什么价格,不转换成积分,不想弯弯绕绕,诚实地告诉用户钱花在哪里。至于怎么赚到这笔钱,确实需要商业化人才来策划。
现在非常需要做商业化的。我们是非常会做产品的人,但这块确实欠缺,欢迎大家来找我们聊。


一款好的 AI Native 硬件,硬件只是脚手架,真正壁垒一定是 Agent
转载原创文章请添加微信:founderparker
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢