在线教程丨影视级视频生成模型Wan2.2-S2V-14B，仅需静态图和音频可生成分钟级数字人视频

HyperAI超神经在前段时间，为大家带来了阿里巴巴旗下通义万相实验室开源的 AI 视频生成模型 Wan2.2 的在线教程，作为全球首个 MoE 架构视频模型，Wan2.2 以电影级的生成效果与高效的计算效率为我们带来了深刻的印象。不知道亲自体验过的朋友们有怎样的感受呢？欢迎分享在评论区。

就在今年 8 月，通义万相团队又带来了新的进展。他们基于 Wan2.2 文本到视频基础模型，构建了 Wan-14B ，并在其基础上推出了一款音频驱动的视频生成开源模型 Wan2.2-S2V-14B。该模型仅需一张静态图片和一段音频，便能生成电影级质感的数字人视频，且时长可达分钟级，支持多种图片类型和画幅。研究团队通过实验将其与现有的前沿模型进行对比，结果表明 Wan2.2-S2V-14B 在表现力和生成内容的真实性方面均具有显著提升。

为了支持模型在复杂场景中的生成质量，研究团队采用双管齐下的策略整理了一个更为全面的训练数据集。一方面，从 OpenHumanViD 等大规模开源数据集中自动筛选。另一方面，研究人员自制并手动挑选了高质量样本数据。两部分数据统一经过姿态跟踪、清晰度与美学评估、音画同步检测等多重过滤，最终构建出一个头部特写（Talking Head）数据集。通过混合并行的训练策略，实现了模型性能的高效挖掘。

「Wan2.2-S2V-14B：影视级音频驱动视频生成」现已上线 HyperAI超神经官网（hyper.ai）的「教程」板块，快来生成一个属于自己的数字人吧！

教程链接：

https://go.hyper.ai/H50DU

Demo 运行

1. 进入 hyper.ai 首页后，选择「教程」页面，并选择「Wan2.2-S2V-14B：影视级音频驱动视频生成」，点击「在线运行此教程」。

2.页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3. 选择「NVIDIA RTX A6000 48GB」以及「PyTorch」镜像，并点击「继续执行」。OpenBayes 平台提供了 4 种计费方式，大家可以按照需求选择「按量付费」或「包日/周/月」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

HyperAI超神经专属邀请链接（直接复制到浏览器打开）：

https://openbayes.com/console/signup?r=Ada0322_NR0n

4.等待分配资源，首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后，点击「API 地址」旁边的跳转箭头，即可跳转至 Demo 页面。请注意，用户需在实名认证后才能使用 API 地址访问功能。

效果演示

进入 Demo 运行页面后，在文本框内输入相关文字描述，并上传图片以及音频，根据需求调整相关参数，点击「Start Generating」即可生成视频。（注意：推理步数越多，生成的效果越好，同时推理生成时间也会更长，请合理设置推理步数。例如：推理步骤为 10 时，生成视频大约需要 15 分钟左右。）

生成示例

以上就是 HyperAI超神经本期推荐的教程，欢迎大家前来体验！

教程链接：

https://go.hyper.ai/H50DU

内容中包含的图片若涉及版权问题，请及时与我们联系删除