英伟达发布 PiD 图像生成技术：13GB 显存跑通，最快 210ms 生成 2048×2048 图像

1 个月前

AI资讯

76 阅读

图像生成扩散模型 PiD 潜空间解码

潜空间解码革命：PiD如何将解码与上采样合二为一

传统文生图模型在潜空间生成后，需借助VAE解码器将潜变量映射回像素，这一过程本质上是“重建”而非“生成”。英伟达提出的PiD（Pixel-in-Diffusion）技术彻底打破了这一范式——它将从潜变量到像素的解码重新表述为一个条件像素扩散过程。这意味着解码器不再被动还原，而是主动通过扩散生成高质量图像，且天然具备上采样能力。通过将单个模块同时承担解码和图像超分任务，PiD避免了传统级联超分中多个模型串联带来的效率损耗与显存冗余。

英伟达发布 PiD 图像生成技术：13GB 显存跑通，最快 210ms 生成 2048×2048 图像

13GB显存跑通4K级世代：RTX 5090与GB200的实测表现

PiD在硬件适配上的效率令人瞩目。官方数据显示，在RTX 5090上，将512×512的潜变量解码为2048×2048像素的图像，整体耗时低于1秒，峰值显存占用仅为13GB。而在更强大的GB200平台上，这一流程可压缩至约210毫秒。这意味着即便是主流消费级显卡（如RTX 4090或RTX 50系列），也可能在显存限制内流畅运行4K级别图像生成，彻底降低了大尺寸图像生成的硬件门槛。

速度飙升5.9倍：与SeedVR2等基线的直接对比

PiD的核心优势在于计算效率的显著跃迁。根据英伟达公布的基准测试，PiD在处理512×512潜变量到2048×2048像素解码时，仅耗时211ms（实测值），而现行级联超分基线算法SeedVR2则需要1237ms。这一对比意味着PiD实现了约5.9倍的速度提升。这种加速不仅来源于解码与上采样的合并设计，还依赖于对扩散过程精简化处理——将时间维度引入潜空间扩散模型、仅训练时间层而冻结预训练空间层，从而具备视频生成衍生能力。

从图像到视频：PiD的衍生潜能与开源生态

值得注意的是，PiD的设计并非孤立。英伟达将时间维度引入潜空间扩散模型，在编码图像序列（即视频）上仅训练时间层，同时固定预训练空间层，从而将LDM图像生成器转化为视频生成器。这一特性意味着PiD技术未来可直接启用视频生成场景。结合PC端AI工具链（ComfyUI、llama.cpp等）的成熟度提升，PiD有望融入主流的NVIDIA RTX加速工作流，成为端侧高效图像/视频生成的重要模块。该技术相关开源权重与适配版本预计将在后续跟随ComfyUI等平台同步更新。

英伟达发布 PiD 图像生成技术：13GB 显存跑通，最快 210ms 生成 2048×2048 图像

潜空间解码革命：PiD如何将解码与上采样合二为一

13GB显存跑通4K级世代：RTX 5090与GB200的实测表现

速度飙升5.9倍：与SeedVR2等基线的直接对比

从图像到视频：PiD的衍生潜能与开源生态

链接失效反馈