嘿 HN,我是 Lemon Slice 的 Lina、Andrew 和 Sidney。我们训练了一个自定义扩散变压器 (DiT) 模型,该模型可实现 25fps 的视频流,并将其封装到一个演示中,允许任何人将照片变成实时的、会说话的头像。以下是联合创始人 Andrew 的对话示例:https://www.youtube.com/watch?v=CeYp5xQMFZY。亲自尝试一下:https://lemonslice.com/live

(顺便说一句,我们以前叫 Infinity AI,去年用这个名字做了一个 Show HN:https://news.ycombinator.com/item?id=41467704

与 HeyGen、Tolan 或 Apple Memoji 过滤器等现有头像视频聊天平台不同,我们不需要训练自定义模型、提前绑定角色或让人类驱动头像。我们的技术允许用户通过上传单个图像来创建自定义角色并立即进行视频通话。角色图像可以是任何样式 - 从照片级写实到卡通、绘画等等。

为了实现这个演示,我们必须做以下事情(除其他外!但这些是最难的):

1. 训练快速的 DiT 模型。为了快速生成视频,我们必须设计一个在速度和质量之间做出正确权衡的模型,并使用标准的蒸馏方法。我们首先从头开始训练了一个自定义视频扩散变压器 (DiT),它可以实现出色的嘴唇和面部表情与音频同步。为了进一步优化模型的速度,我们应用了师生蒸馏。蒸馏模型可在 256 像素的分辨率下生成 25fps 的视频。专用的 transformer ASIC 最终将允许我们以 4k 分辨率流式传输我们的视频模型。

2. 解决无限视频问题。大多数视频 DiT 模型(Sora、Runway、Kling)都会生成 5 秒的块。他们可以通过以自回归的方式将第 1 块的末尾输入到第 2 块的开头,迭代地将其再延长 5 秒。遗憾的是,由于生成错误的累积,模型在多次扩展后质量会下降。我们开发了一种时间一致性保持技术,可以在长序列中保持视觉连贯性。我们的技术显着减少了伪影积累,并允许我们生成无限长的视频。

3. 延迟最小的复杂流式处理体系结构。启用端到端头像缩放通话需要多个构建块,除了视频生成之外,还包括语音转录、LLM 推理和文本转语音生成。我们使用 Deepgram 作为我们的 AI 语音合作伙伴。Modal 作为端到端计算平台。Daily.co 和 Pipecat 帮助构建并行处理管道,通过连续流式处理块来编排所有内容。我们的系统实现了从用户输入到头像响应的端到端延迟为 3-6 秒。我们的目标是 <2 秒延迟。

更多技术细节请访问:https://lemonslice.com/live/technical-report

我们目前想要解决的限制包括:(1) 启用全身和背景运动(我们正在为此训练下一代模型),(2) 减少延迟并提高分辨率(专用 ASIC 会有所帮助),(3) 训练二元对话模型,以便虚拟形象学会自然地倾听,以及 (4) 允许角色“看到你”并对他们所看到的内容做出反应,以创建更自然和引人入胜的对话。

我们相信生成视频将迎来一种以交互性为中心的新媒体类型:电视节目、电影、广告和在线课程将停下来与我们交谈。我们的娱乐活动将是被动和主动体验的混合体,具体取决于我们的心情。嗯,预测是困难的,尤其是关于未来,但无论如何,这就是我们的看法!

内容中包含的图片若涉及版权问题,请及时与我们联系删除