Sora 发布后非常短的时间里,收获了数百万用户,全球刷屏。

然后很快,热闹的人群散去。和 Sam Altman 合影不值得天天往朋友圈里发。

一个月之后,我们发现了一些变化。在各大视频平台上,出现了大量带有 Sora 水印的短视频。

百万播放,数万点赞转发的爆款视频,刷都刷不完。如果常看,甚至可以在竖屏信息流里,每 10 条就刷到三四条 Sora 生成的视频。

这是一个正在快速扩散的、用户真正喜欢的产品。只是喜欢它的用户,并不是最初讨论它的那群人。

国内有一家创业公司,捏 Ta,在 Sora 诞生之前两年,就在做类似的产品形态,一键 Remix 创作同款内容——只不过他们做的是二次元和 OC 人群。

巧合的是,OpenAI 数月前刚走马上任的 Application 业务 CEO Fidji Simo,是捏 Ta 创始人胡修涵在 Facebook 做社交视频探索的直属领导。Sora 团队中也有不少前 Facebook 团队的成员——The Information 甚至以此为选题报道「OpenAI 进入 Facebook 时代」。

当我们问胡修涵 Sora 可以类比为怎样的产品时,他说:如果始终用旧的框架去分析它,可能会错过提前看到新事物的机会。

捏 Ta 创始人胡修涵,创业之前,他在 Facebook(Meta)、阿里巴巴和特赞有丰富的技术与内容的交叉工作。凭借对内容平台的深刻理解,胡修涵在创业早期就获得了多位互联网平台的前辈注资。

捏 Ta 是一个 AIOC 平台,用 AI 生成原创角色,再以角色为核心创作更多的内容。平台现在有上百万用户,核心高粘性创作者 10 万,每月创作 60 万条内容。

胡修涵在 Vibe Coding 刚开始火的时候曾跟我们说过,Vibe Coding,值得关注的是 vibe,大家为什么突然想要去 coding, 为什么想要创造?

最近 a16z 合伙人 Justine Moore 的推文回答了这个问题。她在解释 Suno 1.5 亿美金 ARR 的时候说:「对很多用户来说,AI 创作已经成为一种爱好/娱乐形式。(问谁在给这些工具花钱,)就像在问人们为什么花钱看电视、演出或者体育比赛一样。他们只是为了好玩。」

一些 Bullet Points

  • 把 Sora 比作 AI 抖音等产品,是一种思维惯性,始终在盲人摸象,无法真正概括 Sora 满足的需求。它是一种完全不同以往的新的产品形态,还在探索的过程中。如果始终用旧的框架去分析它,可能会错过提前看到新事物的机会。

  • Remix 的乐趣,就在于寻找两个看似遥远事情之间的潜在联系。关系很远的东西经过 AI 的合理化处理之后,会出现格外有趣的化学反应,一种不言自明的张力。

  • 生成式 AI 可以生成文字、图片、视频和互动内容,也就可以统一小说、漫画、电影和游戏等娱乐体验。

  • 如果用户没有真实的表达和输入,就不会有新一批创作者的诞生,也不会有新内容品类的出现。产品很可能只会变成对老内容的一种复刻,最终沦为一个工具管道,用户做好的内容会永远搬回到老的内容平台上。那将是一场注定失败的战役。

  • AI 原生一代的核心需求是创造「意义感」,而不是被动消费。这个时代,年轻人被剥夺最多的就是意义感。

  • Coding 可用来做 PPT agent,也可以做出 AI 手办。同样一个技术,它在内容层面的表达力,所对应的实际需求映射可以完全不同。

  • 做社区最大的忌讳之一,就是自己下场教用户怎么玩。社区的运营者要有一颗打辅助的心,而不是总想着 carry。

  • 社区之所以很难加速发展,就是因为创意很多时候是涌现出来的,我们只能在早期创作者中去发掘真正的潜力。

  • 数据驱动不是万能的。我们在 Facebook 的时候,有两种归因方向。一种叫这个方向很 promising,但是我们投入不够,所以表现不好。第二种是这个方向压根没有希望,投入再多也没用。这两种归因只看数据是无法区分的。

  • 每一代 C 端产品的集大成者,都提供了一种对新的美好生活方式的向往。我们最终要问用户的问题是:你想不想在一个拥有多重身份的虚拟生活中,在有限的时间里,体验无穷的人生?如果想,那捏 Ta 就有价值。

采访&编辑 | Nico

以下是访谈内容,经 Founder Park 编辑整理。


超 15000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群: 
图片
进群后,你有机会得到:
  • 最新、最值得关注的 AI 新品资讯; 

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道



01 

用老眼光看问题啊,

会错过看见新事物的机会

Founder Park:Sora 发布之后,你看起来挺兴奋的。Sora 激发了你怎样的思考?

胡修涵:之前我们一直苦恼的一个问题,捏 Ta 在做的事,缺少一个市场上可以定义赛道的标杆性产品,解释这种用户需求,对大家来说也比较抽象,有点难理解。

Sora 一发布,大家立刻开始讨论 remix 的价值,探讨生成的乐趣和消遣娱乐之间的关系。

在这之前,很多人都将生成的过程看作纯粹工具化的行为,一个手段,而不是目的。但我一直觉得,生成式 AI 的能力,统一了很多过去相对分散的视觉幻想玩法。

就像乐高,它统一了所有积木的玩法。传统积木包括七巧板、榫卯玩具等等各种类型。同样的,你想,生成式 AI 能够生成文字、图片、视频、互动内容,它其实就统一了电影、漫画、小说、游戏等多种内容形态,实现了一种从被动消费转向主动创作的体验。这是一种整合性质的能力,能够覆盖非常广泛的需求。Sora 的出现,向所有人直观展示了这种能力的价值。

乐高与 IP 的联名积木

Founder Park:乐高统一了积木玩法,它背后是一种怎样的需求?

胡修涵:概括来说,是一种搭建类的娱乐玩法。很多手工类制作都属于这类,参照图纸拼搭,实现可视化想象的体验。其实织毛衣也算啊。用户进行手工搭建并最终实现某个成果的过程中,他们会获得强烈的满足感,那些成果也可以作为他们向外分享展示的对象,这个体验中的满足感和分享欲,对很多人是共同的。

Founder Park:Remix 玩法统一了什么需求?

胡修涵:在做的过程中,统一了 YY,看动画、漫画时的幻想,玩模拟类游戏的心流,甚至去景区拍照打卡,玩 Cosplay,参与跑团、沉浸式剧本杀等活动,这些本质上都是幻想类的视觉化体验,用户需要「参与」进去,用一个身份投入其中,完成一个幻想体验,丰富自己的体验人生。种类其实很多,也非常散,单点看起来可能并不大,但生成式 AI 带来了把它们统合起来的机会。

Founder Park:「参与」听起来是以本人为主体。

胡修涵:其实不一定。看网文的时候读者会代入主角,玩游戏的时候会把操作的角色当做自己,你依然在体验那个世界那段经历,因为你清楚地知道,那段经历是映射在你个人身上的。

「代入感」其实就是一种参与的体验。AI 带来的区别就是强化了体验中的「参与」。当内容的生成成为消费的一部分时,好的「代理」(Agent)当然可以给你代入感和参与感。

Founder Park:很多人说 Sora 是 AI 抖音,你怎么看?

胡修涵:我觉得大家有些急了。首先不应该从传统内容平台的角度去理解这款产品,其次,如果说它是社交,我觉得这也不是它现在产品形态的设计目的。Sora 目前还在定义自己真正的需求,在我看来,这个需求还没有被定义清楚。

Founder Park:涉及内容的消费和创作,一般就两类平台,一种是超级消费型,比如抖音,一种是社区型,比如 B 站小红书。你的理解更偏向于社区?

胡修涵:社区属性更强一些,但还不能说是社交。

这种类比,对于外界用户或许能更好地理解产品能怎么用,但如果在行业里,这样想可能只是思维惯性。

你可以说它长得像个抖音,社交属性像 Ins 小红书,我也可以把它类比成一些网络游戏。

你会发现这样类比始终在盲人摸象,无法真正概括 Sora 满足的需求。它是一种完全不同以往的新的产品形态,还在探索的过程中。如果大家始终用旧的框架去分析它,可能会错过提前看到新事物的机会。



02 

Remix 会创造抽象,

抽象会带来创意

Founder Park:从产品角度,你觉得 Sora app 做得怎么样?

胡修涵:干净、简洁。Sora 产品的交互链路设计得非常干净简洁,进去之后,很容易就能发现「做同款」和「从零开始创作」这两种模式,用 Sam Altman 客串的玩法也很好上手,因此你会发现,很多用户非常轻松地,就可以把自己的形象、朋友或者名人的形象映射进去,参与到幻想创作中。

刚开始的时候内容还是会有些单调,但慢慢的,通过角色和不同场景的排列组合,会涌现出很多新的刺激,不断激发用户的想象力。

很多视频的 remix 链条很长,哪怕是同一个模式,也会有很多完全不同的创作。比如我印象最深的,一个角色超速驾驶被交警拦下来的场景,很多人可能都刷到过,那个 remix 链条非常长。最开始是 Sam Altman 被拦下,然后变成猫猫狗狗被拦下,就已经有了更大范围的传播,后来还有乒乓球、篮球被拦下,甚至还有麦当劳叔叔和肯德基爷爷被拦下,非常离谱。我当时就用我们社区里比较火的「电蚊拍」形象去做了一个。

这是一个激发想象的过程,我自然而然地想用个人比较熟悉的东西代入进去,参与进去。

Sora 上的超速停车视频

Founder Park:从猫猫狗狗开始,这很像捏 Ta 的虚拟角色 remix。

胡修涵:是的。其实角色越来越抽象化的时候,乐趣就会愈发明显。Remix 的乐趣,就在于寻找两个看似遥远事情之间的潜在联系。两个本身关系很近的主体,矛盾感就不强,反而是关系很远的东西,经过 AI 的合理化处理之后,会出现格外有趣的化学反应,一种不言自明的张力。回顾以往互联网平台上 viral 的内容,很多都是这样诞生的。

Founder Park:把没有关系的两个东西放在一起,会让人觉得很有新意。

胡修涵:抽象就是一种创新。绕远路、detour、摸索出表面之下的潜在关联,很多创新都是这样诞生的。iPhone、原神,都是通过不同形式的整合实现创新。在内容领域,给到用户和内容消费者的感受,就是「有创意」。这种创意也并不仅仅是网络文化中的抽象、玩梗,远距离的连接和组合,也有可能创造出很多有意义、有持续性的内容。

在 Sora 限制了版权内容之后,你会发现有很多用户开始做游行示威的视频,大家举着牌子叫 Free Sora,这就是在做有意义的表达。

Founder Park:现在 Sora 已经发布了快一个月,我们每天都能在各种平台上刷到 Sora 做的视频。一度会出现每 10 条视频里有三四条是 Sora 的情况。你怎么看 Sora 视频的传播潜力?

胡修涵:现在比较火的都是玩梗类的视频,它是 Sora 的 Content Market Fit 的第一步,高一致性和叙事能力释放了用户在玩梗时的创作欲望。

但我们跳脱出玩梗这一层,它还要去找「相邻」的内容,除了最火的梗以外,相邻的话题是什么?可能是时事,可能是某个大众幻想品类,也有可能是 Sam 自己说的日式 IP 等等。你会发现,每次网络上有个热点事件,都会有很多人拿 Sora 做视频。比如最近有英雄联盟的电竞赛事,跟选手和战队有关的 Sora 视频就非常非常多,而且播放量相当高。

TVC 风格的电竞选手玩梗视频,BV1CYWYzGENr

再进一步,如果它能够模拟内容在幻想中跟上时间的进展,从一个短平快的瞬间,到一个可以回味的小故事,或者一个小小的剧情演绎,那么它还能往前再走一步。在这个方向上,捏 Ta 也做了一些探索,我们对这个方向有明确的信心。

Founder Park:时间维度上的推进,怎么理解?

胡修涵:现在我们社区里已经涌现了很多话题和社团,这些是用户自发组成的「圈子」。要让一个角色有更丰富和更长时间可体验的世界,靠官方设计频道之类的方式是很难做到的,还是需要用户自发的行动。

在国庆假期期间,捏 Ta 上有四五十个不同的主体社团互相串联活动,主体涵盖奇幻、玄幻等等。用户在这些社团里围绕自己的角色,持续构筑故事或者做一些互动小游戏,这逐渐形成了更加可持续的角色培养和内容生产路径。

我们社区里有很多 hashtag,点进去你会发现,它就像一个小世界一样,很多 hashtag 有完整的世界观,有连在的内容,有角色之间互动的设定。通过这种方式构建的网络结构比之前要丰富很多。

Founder Park:官方在这里做了哪些工作?

胡修涵:在产品设计上,我们会更深入地运营话题。一个社区向兴趣属性转变的时候,每个话题的私域属性和讨论热度都会更强。我们在话题里加入了头图、世界观设定等模块,都会影响用户在其中的互动深度。用户的序列化创作,更多是基于主题和话题来构建的。

Founder Park:就像小美小帅讲电影,三集连载。

胡修涵:对,那是通过叙事连续性来串联多集内容的一种形式,但只是其中一种。有些是有叙事顺序的,有些则没有。

Founder Park:它给社区带来了怎样的变化?

胡修涵:它能让消费和创作两端都深入下去。创作者会形成自己的垂类主题,这让他们能够找准自己的定位,否则一个创作者在社区里可能什么都做,对于内容发布出来的期望并不高,并不期望自己被一群怎样的人听到和看到。

知道有一群人愿意听自己说话看自己的作品时,创作者的创作欲望也会提升。



03

和 Fidji Simo 一起,

Facebook 时期的视频探索

Founder Park:Sora 发布之后,很短的时间内,大家发现这个产品的女性用户非常少。通常的分析是,它核心病毒传播的功能 Cameo 功能生成的视频「不好看」,当然可能也只有一部分男性用户觉得跟 Sam Altman 合影很有意思。你怎么看?

胡修涵:攻击性有点强了。我觉得不好看只是原因之一。

首先,很多女生并不会喜欢拿自己玩梗和恶搞,这块的 content market fit 是不存在的。B 站早期全是鬼畜玩梗内容,你看那时候它女性用户多吗?

第二,美观问题,这个当然可以用技术解决,但无法解决的问题是「出镜焦虑」。今天网红和自媒体非常火,但很多人就是没办法成为自媒体创作者。公开表达和出镜,并不只是好不好看的问题。

第三,它的用户规模还很小很小,虽然下载量增长很快,但一开始有邀请码的人不多,Sam Altman 到现在为止也只有 7 万粉丝,它的用户总量不会超过这个数量级太多。这意味着产品在科技圈本身也还没有完全渗透。

在产品启动时期,用户量少,内容匮乏,它会形成恶性循环,女性用户会觉得,闺蜜不玩我也不玩。

但非女性社区也不是没有往前走的例子,比如某站,只不过难走一点,商业价值的问题大一点。

但 Sora 的内容交界,我相信还是能找到的。我并不担心它能不能找到更多类型的有意思的内容。哪怕顺着男性兴趣的内容延展,也一定会找到大量的女性用户,然后进一步打开用户人群。

Founder Park:现在 Sora 上也有很多二次元内容,这部分内容的用户是否会与捏 Ta 重合?

胡修涵:肯定会有比较高的重合度,但这不可能是他们主流的内容方向。国内外肯定会有人往这个方向去探索,但是怎么做社区,怎么识别内容的潜力,以及创作者的积累,捏 Ta 已经做了很久了,这件事没有想象中那么容易,可能还是需要花一些时间的。

硬要说的话,如果 Elon Musk 做了个类似的产品那另说(笑)。Fidji 不会。

ex-Facebook VP、ex-Instacart CEO,Fidji Simo 在 2025 年夏天加入 OpenAI

Founder Park:你和 Fidji(Fidji Simo,OpenAI 应用部门 CEO)在 Facebook 时期协作过,她现在还挺大权在握的。你们在 Facebook 做过哪些事?

胡修涵:Fidji 最早在 Facebook 负责 Feed Ads(信息流广告),做 Go-to-market,PMM 出身(product marketing manager),做得非常好,成长很快。我在 Facebook 前两三次升职都是 Fidji 给我 promote 的。

她是一个对用户和创作者生态有非常深刻认知的人,特别注重内容侧的产品体验。

我们在 FB 内部很早就开始讨论 Watch Party(一起看)或者 Social Video 这样的概念,多人参与的视频体验。直到今天,除了直播有 co-watch 的感受,视频的体验依然很少有多人化的,更多是 personal 的消费模式,社交属性并不强。

所以 Sora 出来让我想起以前在 FB 探索这个的经历,你会发现 AI 提供的共创体验,重新激活了视频等多媒体内容的多人参与可能性。不过难点在于,AI 原生一代的需求与传统社交网络的需求有很大不同,在这个过程中,需要关注的用户核心需求可能发生了偏移。颠覆式创新总是出现在边缘场景,这也是我们信心的来源。

Founder Park:除了多人观看视频以外,她在 FB 还探索了什么?

胡修涵:最早我们做过网红挖掘的项目,对标 YouTube 上创作者的崛起,后来关注过游戏直播,对标 Twitch。2016 - 2018 年期间,还做过短剧平台 Facebook Shows,那是一个非常超前的想法和决策。当时就是想解决内容序列性很多的典型问题。

Facebook 的内容连续性非常差,早期充斥着各种可爱的猫狗视频。但你看现在的抖音,很多猫狗有自己的特点和设定,你能记住是哪一只,比如听到日语就龇牙叫的柴犬(账号:有只柴柴叫旺财)。

Founder Park:FB 上的内容更多是 go viral 的内容,像早期的微博和 QQ 空间?

胡修涵:对,这些视频很火,但都是单点的。做 Feed 推荐的难度更大,重复性和话题性的包容度都比较差。我们当时是主战略团队,这些探索没在 FB 产品里成功,但在 Ins 和 Reels 上解决了,这些也是我们做的一部分。Facebook 到今天也没有真正地解决这个问题。

Ins 其实更像微博,上面沉淀了很多网红,有明星,所以它反而能找到这类内容的可以持续的消费价值。

后来,我们就觉得 Facebook 是一个以社交为主的平台,所以回到了如何通过「Watch Party」或社交属性的播放器,在视频消费过程中制造有社交意义的行为。弹幕其实就是一种很有意义的社交行为,但在当时的技术条件下,其他形式并不太支持。

Founder Park:Facebook Shows 短剧听起来是个 PGC 的事情?

胡修涵:内容是 PGC 采购。

Founder Park:那你们产研团队做什么?

胡修涵:Facebook 有运营吗?所有内容的流、产品的设计,播放体验的串联,都是我们产品和技术团队直接做的,分集播放的体验是我写的代码。

不过回过头看,整个海外生态,对人工运营的重视程度远远不如字节这样的国内公司,这也是导致项目不那么成功的原因之一。

Founder Park:Fidji 做 Sora 这个产品之前,对于内容平台其实有很深度的研究。

胡修涵:对,整体的内容生态,Fidji 她们都非常成熟,与美国的创作者生态联系紧密。

The Information 头条文章,重点报道了以 Fidji 为首的前 Meta 员工对 OpenAI 的影响

Founder Park:从你对 Fidji 和 OpenAI 的了解来看,Sora 对他们是一个怎样的产品?

胡修涵:肯定是一个有尝试价值的产品,但更多难搞的还是 OpenAI 的角色本身。

五千亿美金估值,创业公司,研究机构,内容平台,你看关于 OpenAI 的几个词放在一起,本身就很别扭。做东西肯定要经过尝试,但是 OpenAI 一上来拥有的资源和背负的压力,对他们去做尝试其实是一种掣肘。

Founder Park:掣肘怎么说?

胡修涵:C 端类型的创业公司,其实都是一步一个台阶地做事情,一个融资阶段做一个融资阶段的事。

当你已经有那么多钱的情况下,你很难克制住。比如铺开资源做产品矩阵,找 20 个不一样的产品经理做尝试,这种可能还有些胜率。

但如果 OpenAI 不这么做,希望设计一个完美的、能解决所有问题的产品架构,这对任何团队都很难实现预期。



04 

一个视频模型公司,

永远不可能做出来捏 Ta

Founder Park:回到捏 Ta,你们是什么时候开始将视频功能接入产品的?

胡修涵:去年年中,我们就点状地接入了视频模型,并与像智谱等公司进行了一些官方合作,做了我们称之为「导演请就位」的首次 Agentic Workflow 尝试。就是通过语言模型加上视频模型,一键生成多镜头内容。这应该比大多数其他做视频的产品要早。

Founder Park:但直到现在,你们并没有把视频作为主要的内容模态。

胡修涵:对。在这个过程中,我们坚定的认知,不是视频,因为视频太贵了,而是 Agentic Workflow 非常重要。

我们这一年里做得最正确的事,就是更笃定地研究用户需求,并有节制地将 Agentic Workflow 落地,而不是把专业的 ComfyUI 工作流直接开放给用户。

通过 Agentic Workflow,我们打开了内容的丰富度。原有的创作者也能跟上,他们原来可能只擅长写图像的提示词,不一定能写好完整的视频提示词,但借助 Agentic Workflow,他们仍然可以通过写提示词的方式,将一个完整的作品做得更好。

所以,与其说他们是传统意义上的编导,不如说他们是 AI 原生幻想世界的架构师。他们把世界架构好,让角色在里面自己表演,摄像头只是跟拍而已。

Founder Park:「架构师」这个词准确吗?架构涉及到对框架的理解和设计能力。

胡修涵:其中一部分人可以做完整的架构,另一部分人则是在其中添砖加瓦。

Founder Park:什么样的人在构建整体框架,什么样的人在填充内容?

胡修涵:我前面提到,有一类用户已经开始组织社团和话题。在这些话题里,他们会写下非常长的背景设定,比如构建一个拥有五个国家的幻想世界,并设定主角和她哥哥的角色关系。这类用户就属于能够搭建起架构的人。

而另一些人,则是将自己的角色带入这个世界里玩耍,或者投放一些别的内容,他们也在为这个空间添砖加瓦,但可能不具备全局谋划的能力。

Founder Park:P 岗 M 岗么这不是?

胡修涵:你倒是可以这么说。

Founder Park:这种能力是天生的?

胡修涵:很多人是从 P 岗升到 M 岗的。

Founder Park:行。

胡修涵:但哪些人具备更强的素质,可能与 ta 的综合背景、想象力、逻辑架构能力以及持续的表达欲望都有关系。

Founder Park:反过来说,在设计产品时,就必须允许这些用户去发挥他们更大的价值。

胡修涵:是的。你永远需要在「为顶尖用户提高上限」和「让新手用户轻松入门」之间摇摆。过去一年,我们其实主要在提高上限。新手入门这件事解决得还不够好。

Founder Park:回顾「捏 Ta」创业这两年多,你会如何划分它的阶段和关键里程碑?

胡修涵:第一阶段,我们主要在做技术探索和积累,更多是理解图像生成和模型。我们在小程序上积累了大量关于人群审美的认知,坚定了对这类内容市场契合度的判断。简单来说,是找到了内容与市场的契合点(Content-Market Fit)。

第二阶段是社区功能性的构建。虽然还没有形成真正的氛围,但我们发明了围绕角色进行内容分享的核心交互形式,比如通过 @ 角色在评论区互动,以及基于话题进行讨论。

第三阶段,也就是从去年年底到现在,是创作者的积累阶段,现在可以算告一段落。我们现在有底气说,核心创作者会随着我们一起成长。因为随着我们引入新技术和「捏捏」这样的新玩法,他们的角色依然是他们的角色,但他们围绕角色展开话题的兴趣反而越来越大了。

他们不再是孤立地与图片互动,而是形成了与其他人一同建设社区的欲望。到目前为止,捏 Ta 上有 10 万左右极强粘性的创作者,这个根基已经建设得相当牢固。

Founder Park:第二阶段和第三阶段的分水岭是什么?

胡修涵:Agent 引导多模态创作的部分,没有更丰富的创作,我们也很难判断用户是否能持续跟随我们展开更复杂的互动。如果只是图片的集合,很难看出用户组织的牢固性。

本质上,创作的循环从「给角色拍很多照片」变成了「让角色体验一段经历」,并将角色一点点培养好。这件事就变得有积累性了。

Founder Park:所以基于视频生成的技术来做类似的产品,是没办法构成捏 Ta 的体验的。

胡修涵:从需求视角来分析,做单一模态是毫不合理的。即便是传统的 OC 玩家,他们约稿画画,也不是因为只想画画,而是因为过去只有画画的供给,他们也想把自己的角色做成游戏。

Founder Park:为技术做产品 vs 为用户做产品。

胡修涵:是的。对于一类需求,既要能抓住它的普适性,又不嫌弃它当前看起来很小众。在技术应用上,则不能盲目地用最新的技术去服务这个需求。

Founder Park:但实际上捏 Ta 也一直能把最新的技术落地到产品里,甚至能找到一些独特的玩法和场景。你们是怎么评估和 leverage 新技术的?

胡修涵:一方面,对技术的实验要非常快。去年开始,我们就是对 DeepSeek 使用最多的国内应用。我们很早就建立了产研的测试思路和 Pipeline,因为我们的场景和市面上大多数产品不一样,所以能够发现一些模型在我们这类场景下的特殊优势。这时候我们就可以去关注模型和产品落地之间的时间 gap,大致推算出时间成本。同时用开源社区的能力,比如 ComfyUI,我们贡献自定义的节点,和开源社区互动,这样就能把技术落地产品的 lead time 缩短到几小时之内。

另一方面,在将技术落地到产品时,又要非常有节制和懂得筛选。如果你把所有新技术用排列组合的方式全部呈现给用户,而这些技术对 ta 的需求满足度又不够,用户就会对整个产品产生不信任感。



05 

做社区要有一颗打辅助的心,

别总想着 Carry

Founder Park:我最近在体验你们新发布的功能「捏捏」。说实话,自从做了一个自己的角色以后,捏捏里面的每一个可以生成的东西,我都想给我的角色做一个试试。很神奇,就很想要她的手办,摇一摇的小玩具,或者在 798 园区里面拍个打卡照。

胡修涵:在新奇感和好玩的维度上,「捏捏」确实打穿了一层新的体验,这也是我们高度认可 Agentic Workflow 和结合代码生成能力的原因,它就像将多模态能力组合起来的技术积木。

捏捏玩法,用 Coding 能力创作手办、海报等更丰富的内容

我们很早就想到了「捏捏」的玩法,但一直等到模型技术成熟才引入多模态。「捏捏」的核心价值在于:

第一,它提供了一种更清晰的用户参与感。过去用户用角色生成图片,这种参与感需要解释,但「捏捏」让用户一目了然地知道「我正用这个角色去参与一段体验」,比如角色环游世界、穿越到现实世界等模式都变得更顺畅,并能产出更丰富的内容。

第二,它引入了双人或多人角色的互动玩法。有些用户天然更关注角色间的关系,过去他们只能在评论区通过文字互动,现在则可以在对战或相亲等玩法中实现。这样,用户之间也借由角色发生了关系,引入了基于角色的社交性,从而彻底改变了产品的用户属性和感受。

Founder Park:用传统的生图或生视频方式,难道做不到两个角色在一起的画面吗?

胡修涵:在这一代多参考输入的生成技术(NanoBanana 等)成熟之前,这是不存在的。而且,即便技术能实现,要做得好,也不仅仅是把两个角色摆在一起那么简单,还需要构思他们之间会发生什么冲突,这就要依靠 Agent 来完成了。简单地生成一张两人并排的合影,其实是很无聊的。两个角色的冲突,要么靠用户构思,要么就得靠 Agent 基于两个角色的设定来编排。

Founder Park:Agent 编排,是指它自己创作吗?

胡修涵:是指 Agent 基于两个角色的特点,去构思和模拟他们之间可能发生的故事。这也是一种 Remix。

三宫格捏捏模版

用户的创作

Founder Park:在捏 Ta 内部,Agent 的探索和多模态积木的构建,是怎样一个过程?

胡修涵:我们大概从去年 9 月开始,将技术重心转向 Agent 的实验性探索,但说实话,早期并没有特别好的感受。我们当时做的「奇遇」功能,就是一种 Agent 玩法,希望用语言模型扮演剧本杀主持人的角色,但当时的能力和产品还不足以支撑。

直到今年 2 月、3 月,随着 DeepSeek、新版 Claude 以及 Moonshot 的相继发布和爆火,这一代模型才真正成熟,能够支撑起对多个工具的结构化顺畅调用,并稳定输出。同时,DeepSeek 也大大降低了成本。而真正让这项技术在国内能够很好地应用,豆包 1.6 Pro 的贡献很大,它让国内的 Agentic Workflow 上了一个台阶。在此之前,国内模型基本只能做角色聊天。

Founder Park:很有意思。同样的技术,但捏 Ta 做出的产品形态,完全不是我们过去大半年里看到很多遍的 AI 产品,比如生成前端网页、PPT 和排版之类的。

胡修涵:因为我们始终比较关注实际用户在特定场景下的长线需求。你提到的那些 Agent 应用方向,我们很早就观察到了。我们共同的发现是,Coding 是能串联多模态的胶水。通用的 Agent 用这个胶水来做 PPT,很多 PPT 的产品是基于 Coding 网页的能力来实现。但我们发现,在我们的场景下,它更像 Flash 动画。

Founder Park:因为你的用户更需要一个 Flash。

胡修涵:是的。同样一个技术,它在内容层面的表达力,所对应的实际需求映射可以完全不同。

Founder Park:「捏捏」背后调用的工具 Tool Use 是统一的吗?

胡修涵:是统一的工具集,大概有十几种到二十种左右的工具。

Founder Park:现在看到的「捏捏」模板,是用户创作的,还是你们自己制作的?

胡修涵:我们找了一批内测用户,他们可以从零到一做出最原始的第一个「捏捏」,后续的创作则都是基于「做同款」的逻辑来扩散的。几乎所有的玩法都源于用户的创意,我们没有想出来啥东西。

Founder Park:《我们没有想出来啥东西》。

胡修涵:(笑)我们是一个很清楚自己没什么创意的团队。

做社区有一个很大的忌讳,就是如果你自己是一个单点玩法创新能力很强的人,你会忍不住下场指导用户怎么玩,忍不住想打造一个你认为最强的玩法模式,然后让所有用户都来玩这一种。

而这恰恰与做内容社区和平台的理念是相悖的。我们很早就意识到,做这件事,需要把自己放在「团委老师」的位置上。团委老师从来不下场亲自去做最好的那个社团。

Founder Park:有强烈的创作欲望,就会变成 producer 或导演,而不是平台或社区的构建者。

胡修涵:我们的用户的创意表达能力都很强。社区之所以很难被加速,就是因为创意很多时候是涌现出来的,我们只能在早期的创作者中去发掘真正的潜力。

Founder Park:很多大平台的运营人员,都不是那种主体性或表达欲很强的人。

胡修涵:是的,都要有一颗打辅助的心,而不是 carry 的心。



06

Sense 的问题,

数据分析不出来

Founder Park:「捏捏」对于「捏 Ta」扮演着怎样的角色?你怎么定义这款产品?

胡修涵:你可能会注意到,我们的内容消费体验也在跟着创作格式一同切换。

我们的核心主题始终是围绕用户以角色为代言,在虚拟世界中进行幻想。这个过程最早可能是回合制的,后来逐渐半即时化,将来可能会变成在实时生成的过程中进行干预。消费的感受和操作感也完全不同。我们一直通过实验,试图在当前的技术局限性下,找到最适合 UGC 的形态。

「捏捏」就是我们现阶段找到的平衡点。UGC 形态需要平衡好「易上手」和「表达空间大」这两个方面。我们现在的模式,既能一键完成,也允许用户进行单步干预。同时,它也在平衡 Vibe 和 Agent 的便利性。有些用户被创作氛围所吸引,想要亲手输入和调整;有些用户则纯粹被 Agent 的便利性吸引。

如果产品过于工具化,用户可能不会留下真实的表达;如果要求用户每一步都手动输入,那又会变成少数人的产品。随着 AI 生成速度越来越快、成本越来越低,输入和交互的方式会不断变化。但我们会用一种新的方式,来牵引整个产品的创作体验统一到一个格式上。

Founder Park:你们如何判断它达到了平衡?

胡修涵:当你发现,用户既能做出自己满意的内容,又能做出许多类型各异的表达时,就说明达到了一个比较好的平衡。这件事情很难通过理想化的设计来构造,只能在实验中「面多了加水,水多了加面」。

我们最早也尝试过设计一个完美的「一键生成漫画」功能,但它最终既不能一键生成令人满意的结果,也不能让用户在每一步输入时感到愉悦。

Founder Park:尝试过,但发现是错的。

胡修涵:我们一直在尝试定义,只是在不同的技术周期,那个定义的平衡点会停在一个相对的局部最优解上。模型继续发展,这个平衡点还会变化。但因为我们清晰地锚定了一群用户的需求,所以创作者的积累一直比较顺利。

Founder Park:过程中的指标是什么?留存?

胡修涵:其实不是数据,更多是内容的有趣性和表达的多样性。如果靠数据分析就能解决这个平衡问题,那字节跳动应该能做出所有社区产品。

很多时候,你只能通过看具体的内容来判断它是否达到了「易上手」和「高表达上限」的平衡。第一版产品的数据往往不具备参考性,因为体验可能很差,即使它长期有很高的天花板。

Founder Park:通过数据很难判断具体哪里有问题。

胡修涵:数据驱动不是万能的。我们在 Facebook 的时候,有两种归因方向。一种叫这个方向很 promising,但是我们投入不够,所以表现不好。第二种是这个方向压根没有希望,投入再多也没用。这两种归因只看数据层面是无法区分的。

Founder Park:为什么一定要用户留下真实的表达和输入?它的价值是什么?

胡修涵:如果用户没有真实的表达和输入,就不会有新一批创作者的诞生,也不会有新内容品类的出现。产品很可能只会变成对老内容的一种复刻,最终沦为一个工具管道,用户做好的内容会永远搬回到老的内容平台上。那将是一场注定失败的战役。

非常早期的时候,当时还只有图片生成,我们曾经做过一个决策,在 Feed 里更多鼓励带花字/字幕的图片,而不鼓励那些生成很好看图片的帖子。原因就在于,带文字的图片,哪怕很丑,也是用户真实的表达,而没有文字的好看图片,这个用户可能只是来捏 Ta 生成一张壁纸,他们不会留在这个社区里。



07 

绝对不能给用户直接打钱

Founder Park:「千面计划」是最近「捏 Ta」一个比较重要的活动,它背后的想法是什么?

胡修涵:我们虽然要克制自己下场的冲动,但偶尔也需要推动一部分用户给其他人打样。

「千面计划」就是我们推着站内六七个核心创作者,组织的一次面向全站的暑期选秀活动。最初大概有 13000 多个角色参与,经过持续的共创,最终浮现出了头部的明星角色。这种明星效应的显现,让其他用户觉得这件事长期有盼头,产生向往,开始互相竞争和模仿。对于平台的商业价值而言,形成头部的 IP,对我们未来的发展也很有帮助。

Founder Park:整体介绍一下「千面计划」吧。

胡修涵:「千面计划」的英文名叫「PersonaX」,Persona 既是用户画像的英文,也是面具的拉丁语,这是一个双关。

它设定在一个反乌托邦的背景下,讲述了一个通过全站选秀选出偶像来拯救人性的乌托邦故事。普通用户通过参与一个「捏捏」活动,就进入了竞赛场。在每一期中,大家比拼热度和内容,活动的主理人会进行点评和推荐。经过四五轮的周期,故事逐渐推进,真相一步步揭开。最终,在近乎共识的形成下,一个叫「宙茜」的叛逆版初音未来的角色脱颖而出。活动结束时,有超过六千名用户为她进行了共创。

很多用户说,这个暑假是他们过得最有意义的一个暑假。通过这件事,我们才成功地将这群原本社恐的用户吸引到了线下。我们在静安大悦城外面的大屏上让角色「出道」,很多用户都在现场为角色「应援」。

Founder Park:它参考的是选秀节目吗?

胡修涵:我们当时参考的一个重点项目是插画网站 Pixiv 上的「Pixiv Fantasia」活动,它其中跑出来的一个明星项目,就是《明日方舟》(明日方舟的原始角色之一凯尔希,最初就诞生在 Pixiv Fantasia)。这非常符合我们对 AI 时代共创型 IP 的设想模式。

Founder Park:这类一次性的活动,对社区有什么价值?

胡修涵:它很高效地扩大了创作人口,也带来了社区内很积极的变化。你还记得我前面提到的社团吗?用户看到「千面计划」之后,没玩够,开始自发组织玩法,这时候官方已经不用下场了。

Founder Park:如果是鼓励创作,直接搞个创作激励,给用户打钱不就行了?

胡修涵:那不行。绝对不能直接打钱。打钱其实是对早期社区极大的伤害,那很明显是一个字节会干的事。

一旦用金钱来度量绩效,社区里为爱发电的属性就会被削弱,用户会出现很多自己去收图、去做变现的冲动,一发不可收拾。所以,哪怕是花同样的钱,我也宁愿去线下为他们包一个大屏,而不是直接把钱给他们。大家都知道送红包是一种很敷衍的礼物,过节直接转账,他不是真的爱你。



08 

比增长更重要的是什么?

Founder Park:你对社区类产品的设计和运营有很强的 sense,但过去好像没有相关的从业经验?

胡修涵:我本人是社区类产品的高强度用户。从人人网开始,我就是活跃的社区用户。

在北大时,我的第一次「伪创业」实践就是给学校做社团管理平台,那个平台就相当于是个学校版的校内。当时也自己创办过社团,现在我的个人投资人之一,就是我当时社团里的同学。

包括后来的 B 站,我也是非常早期的用户,对于当年的用户氛围非常熟悉。

所以,毕业以后去 Facebook 是我的 Dream Company,我确实是适合 Facebook 而非 Google 的人。这些经历对我都挺重要的。

Founder Park:我们去年聊过,今年捏 Ta 平台上,用户和创作者还是非常活跃,明显比去年更活跃,但整体的用户盘子似乎并没有数量级上的增长?

胡修涵:这个过程其实是在筛选和沉淀真正的创作者。

Founder Park:他们有那么重要吗?

胡修涵:非常非常重要。这涉及到一个很重要的认知。我认为 AI 原生一代的核心需求是创造「意义感」,而不是被动消费。被动消费的平台已经非常饱和,AI 很难取代现有平台。但这个时代,年轻人被剥夺最多的就是意义感。

Founder Park:即梦、Sora,用户盘子都不大,似乎也很难去复制短视频平台的增长。

胡修涵:这还是技术和模式成熟度的问题。现在还不是短视频的「抖音时刻」,而是「快手 GIF 时刻」。你可以用多媒体的流量费用去类比当年的网络流量费用。抖音的出现,必须等到 CDN 费用足够便宜、流量几乎免费的时候。快手早期用 GIF 的形式,满足了老铁们最初的需求。

Founder Park:「意义感」能改变什么呢?

胡修涵:从长期来看,我的判断是,未来的主流心智也非纯粹的被动消费心智。做好了东西然后去分发,这就是抖音、快手、B 站,他们占据的管道性,是新的平台无法克服的。

而用户真正的新的体验,是在生成的过程中找到的,就像照着图纸搭乐高一样,他们在这个过程中找到了意义感。生成体验才是第一本位的。

随着技术成熟和成本降低,越来越微妙的上下文,会在不需要用户「主动输入」的情况下,被捕捉到生成系统中去,包括角色以往的记忆,上一次被生成的设定和剧情,这个 memory 会影响角色下一步的行动,构成一致性的生成体验。所有这些技术的弥合,会让用户创作时耗费脑力的过程不断减少,趋近于零。

这时候,创作的过程,就不再是一种脑力劳动,而是消费的体验。

我们中文语境里常把「发布」和「创作」混为一谈,但英文里的「recreation」很多时候就是消遣式的。Sora 里已经有一些苗头,很多用户尝试了一下,生成几个视频,他们未必会把这些内容发布出去。因为发布意味着你想要表达给别人,但如果你只是玩的话,没有必要点击那个「发布」。

但你想想,难道生成出那条视频的过程中,你看到那条视频的时候,你没有感受到有趣和快乐吗?这就是我一直在说新的娱乐体验,用户享受的是平台供给 ta 的生成碎片——角色、场景、玩法——来主动参与式消费。

Founder Park:其中也有一部分内容,被点击发布,分享了出去。

胡修涵:你去横店,或者迪士尼,都会想拍照发到朋友圈的。会有很多人看到你打卡的照片,也想要来迪士尼和横店玩。但最重要的是,搭建这个赛博横店、迪士尼的创作者们在哪里?

Founder Park:现在可以透露一些活跃用户或创作者的数据吗?

胡修涵:我们有 10 万左右的核心创作者。用户创作的头部 OC,有超过 19000 个用户为它进行二创和共创,我们一个月的原生投稿量大概有 50 到 60 万作品。

Founder Park:接下来,有哪些技术方向是你们比较关注和感到兴奋的?

胡修涵:我们最关注的是生成式推荐和生成式 UI/UX。也就是如何基于一个角色已有的上下文,为他推荐下一步适合做的事情。

Founder Park:意义感的推荐序列。

胡修涵:是的。甚至它可能是一部连续剧,基于你上一步的结果,再往下延展剧情。最终,它可能是一个不间断的、两小时的视频流,多个「捏捏」自动串联在一起。

Founder Park:最后,未来 6 到 12 个月希望达成的目标是什么?

胡修涵:我之前说过,希望将来在「捏 Ta」上能出现一万个世界知名的幻想类 IP 或作品。接下来的 6 到 12 个月,我希望让我们社区内已经小有名气的那些角色,在捏 Ta 世界里活出一种连外部世界的人都会羡慕的丰富多彩。

Founder Park:它也意味着用户参与了一个丰富多彩的人生。

胡修涵:是的,你会觉得必须用自己的方式也来体验一下这样的生活。每一代 C 端产品的集大成者,都提供了一种对新的美好生活方式的向往。我们最终要问用户的问题是:你想不想在一个拥有多重身份的虚拟生活中,在有限的时间里,体验无穷的人生?如果想,那捏 Ta 就有价值。

图片
更多阅读

o1 核心作者 Jason Wei:理解 2025 年 AI 进展的三种关键思路

Karpathy 回应争议:RL 不是真的不行,Agent 还需要十年的预测其实很乐观

ARR 突破 1 亿美元,HeyGen 创始人公开了他们的内部增长手册,全是干货

硅谷一线创业者内部研讨:为什么只有 5%的 AI Agent 落地成功,他们做对了什么?

转载原创文章请添加微信:founderparker

内容中包含的图片若涉及版权问题,请及时与我们联系删除