今年6 月份起,视频生成赛道持续涌现新的产品,从可灵到 Luma、Runway Gen3,模型能力和产品化效果越来越卷。
7 月 24 日,爱诗科技正式发布视频生成产品 PixVerse V2。新版本产品采用 Diffusion+Transformer(DiT)基础架构,提升了模型能力。
PixVerse V2 这次上线将提供给全球用户使用,它能够在保证风格一致性前提下,快速制作出多个 8 秒的短视频片段,还可以实现长达 40 秒的视频

01 

采用 DiT 架构

多个技术创新

PixVerse V2 采用了行业领先的 DiT 模型架构,通过模型训练,实现了视频大模型的 Scaling Law。在多个技术层面,PixVerse V2 也采用了独创的创新技术。
第一点,在 Diffusion 时空建模方面。
爱诗独创了一种时空注意力建模机制,且是「更合理的」,它优于时空分离以及 fullseq 架构
这种机制对时间、空间的感知力都更好,对复杂场景的处理也更好。

第二,在文本理解方面。

PixVerse V2 利用强大的多模态模型,能够精准提取文本信息,实现文本与视频内容对齐。

模型的理解和表达能力更强,能够使得 prompt 所表达的内容更加形成确切的视频内容。

此外,PixVerse V2 在训练过程中采用了一种特殊的技术,即对损失函数进行加权。模型在训练时可以更快地学习到正确的特征,减少在不重要的特征上的误差。
这样模型更快更优地收敛,不仅提高了模型训练的速度,也提高了模型的预测准确性,从而提升整体的训练效率。

02

用户更友好

创作生产力 UPUP

根据用户反馈,爱诗发现,一致性是 AI 视频创作的核心挑战。多段视频的画风相同,意味着更长、更丰富视频的出现即将成为可能。
因此,PixVerse V2 在设计和优化上进行了针对性突破:支持一键生成 1-5 段连续的视频内容,且片段之间会保持主体形象、画面风格和场景元素的一致。
有了这个功能,用户便能够围绕特定主题,进行高效而便捷的视频创作。
PixVerse V2 还支持对生成结果进行二次编辑。新版本推出智能识别内容和自动联想功能,用户可以根据需要,灵活替换调整视频主体、动作、风格和运镜。
创作可能性的边界被进一步拓宽。
秉持着更多用户感受到 AI 视频创作乐趣的理念,PixVerse V2 这次更新希望进一步降低视频制作的门槛。对于普通人来说,拥有 AI 的帮助,无论是记录日常脑海中的灵光乍现,还是讲述引人入胜的故事,都能够变得触手可及。
爱诗团队还表示,希望在模型性能和美学效果之间寻求平衡,预计未来 3 个月内还将进行多次迭代升级,提供更好的 AI 视频生成体验。



更多阅读

上半年拿到投资的 15 家 AI 搜索公司,他们都在做什么?
a16z创始人对谈AI创业:AI提供的是服务不是产品;硬件创业更难,但更容易建立优势
乔布斯「遗失的访谈」全文:我不在乎犯错,只在乎是否在做正确的事
A16z 万字对谈:AI 在医疗健康领域落地的挑战与机会是什么?

转载原创文章请添加微信:founderparker

内容中包含的图片若涉及版权问题,请及时与我们联系删除