4步出图/4K画质/6倍提速，PiD用像素扩散统一解码与超分辨率输出；显存降4倍、训练提速15%，Gsplat重写3DGS的CUDA光栅化内核

PiD 是 NVIDIA 发布的一种全新潜空间解码范式，将传统的 VAE 解码过程重新定义为条件像素扩散生成，把解码与超分辨率上采样统一到单一生成模块中。传统潜扩散模型通过 VAE 将潜变量还原为图像，输出分辨率受限，且重建导向的解码器难以补全高频细节、无法纠正潜变量中的伪影。PiD 引入轻量级噪声感知潜变量适配器（sigma-aware adapter），将含噪潜变量注入像素空间扩散骨干网络，使模型既能处理完全去噪的潜变量，也支持对部分去噪的潜变量提前终止扩散过程。借助 DMD2 蒸馏技术，推理仅需 4 步去噪即可完成。

目前，HyperAI超神经官网已上线了「PiD：4K 超分辨率图像生成与编辑」，快来试试吧~

在线使用：https://go.hyper.ai/a34Cx

免费领取算力福利

为了便于大家体验 HyperAI 的稳定算力服务，我们准备了丰富的「算力礼包」，内含 NVIDIA RTX 5090、PRO 6000 等 GPU 资源。

扫码添加微信（微信号：Hyperai01），备注「礼包」即可兑换福利！数量有限，手慢无~

欢迎登录官网查看更多内容：

https://hyper.ai/

6 月 19 日- 6 月 25 日，hyper.ai 官网更新速览：

* 优质教程精选：14 个

* 热门百科词条：5 条

* 7 月截稿顶会：5 个

访问官网：hyper.ai

公共教程精选

1. PiD：4K 超分辨率图像生成与编辑

PiD 是 NVIDIA 团队推出的即插即用超分辨率解码器。传统扩散模型通过 VAE 解码器将潜在表示还原为图像，输出分辨率受限于约 1024 像素。PiD 将 VAE 解码的最后一步替换为像素空间扩散过程，仅需 4 步去噪即可直接生成清晰的 4K 图像，无需任何后处理技巧，在不改变原有模型架构的前提下，大幅突破了传统方法的分辨率瓶颈。

在线运行：https://go.hyper.ai/a34Cx

Demo 页面

2. LTX-2.3-turbo 视频生成器

LTX-2.3-turbo 是 Lightricks 于 2026 年 3 月发布的一款开源视频生成基础模型，旨在突破开源视频生成能力的极限。该模型采用先进的扩散变换器架构，并结合多模态理解能力，实现了高质量、多分辨率的视频内容生成。

在线运行：https://go.hyper.ai/oepch

Demo 页面

3. DiffBrush：手写文本行生成

南开大学与昆仑万维于 2025 年 8 月联合发布了手写文本行生成模型 DiffBrush，并于同年 10 月正式被 ICCV 2025 收录。该模型基于 Stable Diffusion VAE+UNet 架构，支持任意英文文本输入与 IAM 数据集中 496 种手写风格，输出 1024×64 灰度图像，文本内容与书写风格独立可控。推理部署轻量，可直接用于 OCR 训练集生成、手写数据增强及文档仿真等场景。

在线运行：https://go.hyper.ai/qVvl5

Demo页面

4. RE-USE：通用语音增强模型

RE-USE 是 NVIDIA 于 2026 年 3 月发布的通用语音增强模型。它基于 Mamba 架构，能够处理各种采样率和降级类型的噪声语音信号，并且与语言无关。

在线运行：https://go.hyper.ai/MJ0p5

Demo 页面

5. TADA-1b：统一语音语言模型

TADA-1b 是 HumeAI 团队于 2026 年 2 月发布的统一语音语言模型，专为语音合成、语音克隆和多语言配音等音频生成任务而设计。该模型基于 Llama 3.2-1B，具有轻量级、高速和稳定的音频生成能力，适用于英语文本转语音 (TTS)、零样本语音克隆、长篇叙述和语音延续。

在线运行：https://go.hyper.ai/nCSpT

Demo 页面

6. Gsplat 3D 高斯泼溅训练与可视化

Gsplat 是由伯克利、NVIDIA、上海科技大学等机构联合开发的开源 3DGS CUDA 加速光栅化库，在原始实现基础上深度优化，训练显存降低 4 倍、训练时间缩短 15%。其核心技术亮点包括：高效的 CUDA 微分光栅化引擎、自适应高斯密度控制策略、兼容 COLMAP 等主流数据格式的灵活数据后端，以及基于 viser 的实时 Web 可视化界面。应用场景覆盖数字孪生、自动驾驶环境感知、文物数字化及电商视觉合成等领域。

在线运行：https://go.hyper.ai/Zihdr

Demo页面

7. DVD：基于生成先验的确定性视频深度估计

DVD（Deterministic Video Depth Estimation）是由香港科技大学（广州）团队于 2026 年 3 月提出的首个确定性视频深度估计框架，通过将预训练的视频扩散模型（Wan2.1）改造为单次前向传播的深度回归器，在保持生成模型强大语义先验的同时，彻底消除了随机性带来的几何幻觉问题。

在线运行：https://go.hyper.ai/AisLp

Demo 页面

8. Foundation-1：结构化文本到音乐采样生成

Foundation-1 由 RoyalCities 团队于 2026 年 3 月发布，是一款专为专业音乐制作流程设计的文本到采样音频生成模型。官方版本支持分层可控生成，允许用户自定义乐器系列、子类型、音色、效果、乐理和弦、速度/调号以及小节长度，生成节奏同步、调性锁定的音乐循环片段。此外，该软件还提供了一个统一的 Web Demo，提供完整的交互式生成功能。

在线运行：https://go.hyper.ai/NxUAC

Demo页面

9. Sketch-RNN：矢量草图生成与潜在空间插值

Sketch-RNN 是 Google Brain 团队于 2017 年发布的一种矢量草图序列生成模型。该方法专为手绘草图数据而设计，数据包含笔画偏移量和笔的状态信息。它可以学习草图的连续潜在表示，并生成新的矢量草图序列。Sketch-RNN 采用编码器-解码器架构。它将输入草图映射到潜在空间，然后使用循环神经网络解码器逐步生成笔画。

在线运行：https://go.hyper.ai/HmcT9

Sketch-RNN 整体结构图

10. Galaxy-Deconv：弱引力透镜星系图像反卷积框架

Galaxy-Deconv 由清华大学的李天尧和西北大学的艾玛·亚历山大共同开发。该项目专注于弱引力透镜星系图像的复原。它使用展开式即插即用ADMM算法对受点扩散函数（PSF）模糊和噪声影响的星系图像进行反卷积。本教程将常见的星系反卷积工作流程整理成笔记本，涵盖图像模拟、COSMOS数据加载、反卷积推理、HDF5数据集检查和基础反卷积练习。

在线运行：https://go.hyper.ai/qGvI1

Demo页面

11. NuExtract3：多模态文档理解与结构化信息抽取模型

NuExtract3 是 NuMind 于 2026 年 6 月发布的 4B 参数多模态视觉语言模型，专为文档理解设计。模型将结构化信息提取与文档图像转 Markdown 两大能力整合于一体，支持文本、图像及图文混合输入，可依据用户提供的 JSON 模板直接输出结构化结果，并完整保留表格、公式与布局信息。

在线运行：https://go.hyper.ai/xirTj

Demo 页面

12. DiffusionGemma：基于离散扩散的高速文本生成模型

DiffusionGemma 是 Google DeepMind 利用离散扩散技术构建的文本生成模型。它采用 260 亿参数的专家混合模型 (MoE) 架构，总参数量为 252 亿，其中只有 38 亿个有效参数。通过并行块级扩散采样，它实现了超快的文本生成速度，在单个 H100 GPU 上每秒可生成 1100 多个 token。

在线运行：https://go.hyper.ai/HV3eM

Demo 页面

13. TripoSplat：单张图像生成高质量 3D Gaussian 资产

TripoSplat 是由 VAST-AI Research 与 TripoAI 于 2026 年 5 月联合发布的单图像转 3D 高斯生成方法。模型可将单张 2D 图像转换为高质量的 3D 高斯模型，并可控制高斯分布的数量。该模型采用密度采样高斯 (DeG) 技术，根据物体的几何复杂度自适应地分布高斯中心，并使用 VecSeq 确定性地重排序无序的潜在变量，从而提高生成训练的稳定性。

在线运行：https://go.hyper.ai/wOxUG

Demo 页面

14. North Mini Code 1.0：面向代码生成与软件工程任务的 Agent 模型

North Mini Code 1.0 是 Cohere 与 Cohere Labs 于 2026 年 6 月发布的开放权重代码模型，专为代码生成、终端任务与智能体软件工程场景优化。模型支持长时间编码工作、代码推理及工具调用与交错思考，擅长功能实现、脚本编写、调试、终端任务规划及多轮软件工程工作流。

在线运行：https://go.hyper.ai/ycCuG

Demo页面

💡我们还建立了 Stable Diffusion 教程交流群，欢迎小伙伴们扫码备注【SD教程】，入群探讨各类技术问题、分享应用效果~

热门百科词条精选

1. 大语言模型 LLM

2. 结构 Architecture

3. 世界动作模型 WAM

4. 旋转位置编码 RoPE

5. 大规模多任务语言理解 MMLU

这里汇编了数百条 AI 相关词条，让你在这里读懂「人工智能」：

https://go.hyper.ai/wiki

7 月截稿顶会

7 月 01 日

12:00:00

VLDB 2027

7 月 09 日

23:59:59

POPL 2027

7 月 10 日

23:59:59

ICSE 2027

7 月 17 日

23:59:59

SIGMOD 2027

7 月 28 日

23:59:59

AAAI 2027

* 截稿时间为 AoE 时间

一站式追踪人工智能学术顶会：https://go.hyper.ai/event

以上就是本周编辑精选的全部内容，如果你有想要收录 hyper.ai 官方网站的资源，也欢迎留言或投稿告诉我们哦！

下周再见！

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区，致力于成为国内数据科学领域的基础设施，为国内开发者提供丰富、优质的公共资源，截至目前已经：

* 为 2100+ 公开数据集提供国内加速下载节点

* 收录 700+ 经典及流行在线教程

* 解读 300+ AI4Science 论文案例

* 支持 700+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅：

https://hyper.ai/

以上就是本周编辑精选的全部内容，如果你有想要收录 hyper.ai 官方网站的资源，也欢迎留言或投稿告诉我们哦！

下周再见！

更多详细教程，请观看：

往期推荐

内容中包含的图片若涉及版权问题，请及时与我们联系删除

4步出图/4K画质/6倍提速，PiD用像素扩散统一解码与超分辨率输出；显存降4倍、训练提速15%，Gsplat重写3DGS的CUDA光栅化内核

评论列表

评论