今年6 月份起,视频生成赛道持续涌现新的产品,从可灵到 Luma、Runway Gen3,模型能力和产品化效果越来越卷。7 月 24 日,爱诗科技正式发布视频生成产品 PixVerse V2。新版本产品采用 Diffusion+Transformer(DiT)基础架构,提升了模型能力。PixVerse V2 这次上线将提供给全球用户使用,它能够在保证风格一致性前提下,快速制作出多个 8 秒的短视频片段,还可以实现长达 40 秒的视频。01
采用 DiT 架构
多个技术创新
PixVerse V2 采用了行业领先的 DiT 模型架构,通过模型训练,实现了视频大模型的 Scaling Law。在多个技术层面,PixVerse V2 也采用了独创的创新技术。
爱诗独创了一种时空注意力建模机制,且是「更合理的」,它优于时空分离以及 fullseq 架构。这种机制对时间、空间的感知力都更好,对复杂场景的处理也更好。第二,在文本理解方面。
PixVerse V2 利用强大的多模态模型,能够精准提取文本信息,实现文本与视频内容对齐。
模型的理解和表达能力更强,能够使得 prompt 所表达的内容更加形成确切的视频内容。
此外,PixVerse V2 在训练过程中采用了一种特殊的技术,即对损失函数进行加权。模型在训练时可以更快地学习到正确的特征,减少在不重要的特征上的误差。这样模型更快更优地收敛,不仅提高了模型训练的速度,也提高了模型的预测准确性,从而提升整体的训练效率。02
用户更友好
创作生产力 UPUP
根据用户反馈,爱诗发现,一致性是 AI 视频创作的核心挑战。多段视频的画风相同,意味着更长、更丰富视频的出现即将成为可能。因此,PixVerse V2 在设计和优化上进行了针对性突破:支持一键生成 1-5 段连续的视频内容,且片段之间会保持主体形象、画面风格和场景元素的一致。有了这个功能,用户便能够围绕特定主题,进行高效而便捷的视频创作。PixVerse V2 还支持对生成结果进行二次编辑。新版本推出智能识别内容和自动联想功能,用户可以根据需要,灵活替换调整视频主体、动作、风格和运镜。秉持着更多用户感受到 AI 视频创作乐趣的理念,PixVerse V2 这次更新希望进一步降低视频制作的门槛。对于普通人来说,拥有 AI 的帮助,无论是记录日常脑海中的灵光乍现,还是讲述引人入胜的故事,都能够变得触手可及。爱诗团队还表示,希望在模型性能和美学效果之间寻求平衡,预计未来 3 个月内还将进行多次迭代升级,提供更好的 AI 视频生成体验。转载原创文章请添加微信:founderparker
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢