PiD 是 NVIDIA 发布的一种全新潜空间解码范式,将传统的 VAE 解码过程重新定义为条件像素扩散生成,把解码与超分辨率上采样统一到单一生成模块中。传统潜扩散模型通过 VAE 将潜变量还原为图像,输出分辨率受限,且重建导向的解码器难以补全高频细节、无法纠正潜变量中的伪影。PiD 引入轻量级噪声感知潜变量适配器(sigma-aware adapter),将含噪潜变量注入像素空间扩散骨干网络,使模型既能处理完全去噪的潜变量,也支持对部分去噪的潜变量提前终止扩散过程。借助 DMD2 蒸馏技术,推理仅需 4 步去噪即可完成。


目前,HyperAI超神经官网已上线了「PiD:4K 超分辨率图像生成与编辑」,快来试试吧~


在线使用:https://go.hyper.ai/a34Cx


免费领取算力福利


为了便于大家体验 HyperAI 的稳定算力服务,我们准备了丰富的「算力礼包」,内含 NVIDIA RTX 5090、PRO 6000 等 GPU 资源。


扫码添加微信(微信号:Hyperai01),备注「礼包」即可兑换福利!数量有限,手慢无~


欢迎登录官网查看更多内容:

https://hyper.ai/


6 月 19 日- 6 月 25 日,hyper.ai 官网更新速览:


* 优质教程精选:14 个

* 热门百科词条:5 条

* 7 月截稿顶会:5 个


访问官网:hyper.ai


公共教程精选


1. PiD:4K 超分辨率图像生成与编辑


PiD 是 NVIDIA 团队推出的即插即用超分辨率解码器。传统扩散模型通过 VAE 解码器将潜在表示还原为图像,输出分辨率受限于约 1024 像素。PiD 将 VAE 解码的最后一步替换为像素空间扩散过程,仅需 4 步去噪即可直接生成清晰的 4K 图像,无需任何后处理技巧,在不改变原有模型架构的前提下,大幅突破了传统方法的分辨率瓶颈。


在线运行:https://go.hyper.ai/a34Cx


Demo 页面


2. LTX-2.3-turbo 视频生成器


LTX-2.3-turbo 是 Lightricks 于 2026 年 3 月发布的一款开源视频生成基础模型,旨在突破开源视频生成能力的极限。该模型采用先进的扩散变换器架构,并结合多模态理解能力,实现了高质量、多分辨率的视频内容生成。


在线运行:https://go.hyper.ai/oepch


Demo 页面


3. DiffBrush:手写文本行生成


南开大学与昆仑万维于 2025 年 8 月联合发布了手写文本行生成模型 DiffBrush,并于同年 10 月正式被 ICCV 2025 收录。该模型基于 Stable Diffusion VAE+UNet 架构,支持任意英文文本输入与 IAM 数据集中 496 种手写风格,输出 1024×64 灰度图像,文本内容与书写风格独立可控。推理部署轻量,可直接用于 OCR 训练集生成、手写数据增强及文档仿真等场景。


在线运行:https://go.hyper.ai/qVvl5


Demo页面


4. RE-USE:通用语音增强模型


RE-USE 是 NVIDIA 于 2026 年 3 月发布的通用语音增强模型。它基于 Mamba 架构,能够处理各种采样率和降级类型的噪声语音信号,并且与语言无关。


在线运行:https://go.hyper.ai/MJ0p5


Demo 页面


5. TADA-1b:统一语音语言模型


TADA-1b 是 HumeAI 团队于 2026 年 2 月发布的统一语音语言模型,专为语音合成、语音克隆和多语言配音等音频生成任务而设计。该模型基于 Llama 3.2-1B,具有轻量级、高速和稳定的音频生成能力,适用于英语文本转语音 (TTS)、零样本语音克隆、长篇叙述和语音延续。


在线运行:https://go.hyper.ai/nCSpT


Demo 页面


6. Gsplat 3D 高斯泼溅训练与可视化


Gsplat 是由伯克利、NVIDIA、上海科技大学等机构联合开发的开源 3DGS CUDA 加速光栅化库,在原始实现基础上深度优化,训练显存降低 4 倍、训练时间缩短 15%。其核心技术亮点包括:高效的 CUDA 微分光栅化引擎、自适应高斯密度控制策略、兼容 COLMAP 等主流数据格式的灵活数据后端,以及基于 viser 的实时 Web 可视化界面。应用场景覆盖数字孪生、自动驾驶环境感知、文物数字化及电商视觉合成等领域。


在线运行:https://go.hyper.ai/Zihdr


Demo页面


7. DVD:基于生成先验的确定性视频深度估计


DVD(Deterministic Video Depth Estimation)是由香港科技大学(广州) 团队于 2026 年 3 月提出的首个确定性视频深度估计框架,通过将预训练的视频扩散模型(Wan2.1)改造为单次前向传播的深度回归器,在保持生成模型强大语义先验的同时,彻底消除了随机性带来的几何幻觉问题。


在线运行:https://go.hyper.ai/AisLp


Demo 页面


8. Foundation-1:结构化文本到音乐采样生成


Foundation-1 由 RoyalCities 团队于 2026 年 3 月发布,是一款专为专业音乐制作流程设计的文本到采样音频生成模型。官方版本支持分层可控生成,允许用户自定义乐器系列、子类型、音色、效果、乐理和弦、速度/调号以及小节长度,生成节奏同步、调性锁定的音乐循环片段。此外,该软件还提供了一个统一的 Web Demo,提供完整的交互式生成功能。


在线运行:https://go.hyper.ai/NxUAC


Demo页面


9. Sketch-RNN:矢量草图生成与潜在空间插值


Sketch-RNN 是 Google Brain 团队于 2017 年发布的一种矢量草图序列生成模型。该方法专为手绘草图数据而设计,数据包含笔画偏移量和笔的状态信息。它可以学习草图的连续潜在表示,并生成新的矢量草图序列。Sketch-RNN 采用编码器-解码器架构。它将输入草图映射到潜在空间,然后使用循环神经网络解码器逐步生成笔画。


在线运行:https://go.hyper.ai/HmcT9


Sketch-RNN 整体结构图


10. Galaxy-Deconv:弱引力透镜星系图像反卷积框架


Galaxy-Deconv 由清华大学的李天尧和西北大学的艾玛·亚历山大共同开发。该项目专注于弱引力透镜星系图像的复原。它使用展开式即插即用ADMM算法对受点扩散函数(PSF)模糊和噪声影响的星系图像进行反卷积。本教程将常见的星系反卷积工作流程整理成笔记本,涵盖图像模拟、COSMOS数据加载、反卷积推理、HDF5数据集检查和基础反卷积练习。


在线运行:https://go.hyper.ai/qGvI1


Demo页面


11. NuExtract3:多模态文档理解与结构化信息抽取模型


NuExtract3 是 NuMind 于 2026 年 6 月发布的 4B 参数多模态视觉语言模型,专为文档理解设计。模型将结构化信息提取与文档图像转 Markdown 两大能力整合于一体,支持文本、图像及图文混合输入,可依据用户提供的 JSON 模板直接输出结构化结果,并完整保留表格、公式与布局信息。


在线运行:https://go.hyper.ai/xirTj


Demo 页面


12. DiffusionGemma:基于离散扩散的高速文本生成模型


DiffusionGemma 是 Google DeepMind 利用离散扩散技术构建的文本生成模型。它采用 260 亿参数的专家混合模型 (MoE) 架构,总参数量为 252 亿,其中只有 38 亿个有效参数。通过并行块级扩散采样,它实现了超快的文本生成速度,在单个 H100 GPU 上每秒可生成 1100 多个 token。


在线运行:https://go.hyper.ai/HV3eM


Demo 页面


13. TripoSplat:单张图像生成高质量 3D Gaussian 资产


TripoSplat 是由 VAST-AI Research 与 TripoAI 于 2026 年 5 月联合发布的单图像转 3D 高斯生成方法。模型可将单张 2D 图像转换为高质量的 3D 高斯模型,并可控制高斯分布的数量。该模型采用密度采样高斯 (DeG) 技术,根据物体的几何复杂度自适应地分布高斯中心,并使用 VecSeq 确定性地重排序无序的潜在变量,从而提高生成训练的稳定性。


在线运行:https://go.hyper.ai/wOxUG


Demo 页面


14. North Mini Code 1.0:面向代码生成与软件工程任务的 Agent 模型


North Mini Code 1.0 是 Cohere 与 Cohere Labs 于 2026 年 6 月发布的开放权重代码模型,专为代码生成、终端任务与智能体软件工程场景优化。模型支持长时间编码工作、代码推理及工具调用与交错思考,擅长功能实现、脚本编写、调试、终端任务规划及多轮软件工程工作流。


在线运行:https://go.hyper.ai/ycCuG


Demo页面


💡我们还建立了 Stable Diffusion 教程交流群,欢迎小伙伴们扫码备注【SD教程】,入群探讨各类技术问题、分享应用效果~



热门百科词条精选


1. 大语言模型 LLM

2. 结构 Architecture

3. 世界动作模型 WAM

4. 旋转位置编码 RoPE

5. 大规模多任务语言理解 MMLU


这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki


7 月截稿顶会


7 月 01 日

12:00:00

VLDB 2027

7 月 09 日

23:59:59

POPL 2027

7 月 10 日

23:59:59

ICSE 2027

7 月 17 日

23:59:59

SIGMOD 2027

7 月 28 日

23:59:59

AAAI 2027


* 截稿时间为 AoE 时间


一站式追踪人工智能学术顶会:https://go.hyper.ai/event


以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!


下周再见!


关于 HyperAI超神经 (hyper.ai)


HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:


* 为 2100+ 公开数据集提供国内加速下载节点

* 收录 700+ 经典及流行在线教程

* 解读 300+ AI4Science 论文案例

* 支持 700+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档


访问官网开启学习之旅:

https://hyper.ai/



以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!


下周再见!


更多详细教程,请观看:


 往期推荐 


内容中包含的图片若涉及版权问题,请及时与我们联系删除