英伟达发布 PiD 图像生成技术:13GB 显存跑通,最快 210ms 生成 2048×2048 图像
潜空间解码革命:PiD如何将解码与上采样合二为一
传统文生图模型在潜空间生成后,需借助VAE解码器将潜变量映射回像素,这一过程本质上是“重建”而非“生成”。英伟达提出的PiD(Pixel-in-Diffusion)技术彻底打破了这一范式——它将从潜变量到像素的解码重新表述为一个条件像素扩散过程。这意味着解码器不再被动还原,而是主动通过扩散生成高质量图像,且天然具备上采样能力。通过将单个模块同时承担解码和图像超分任务,PiD避免了传统级联超分中多个模型串联带来的效率损耗与显存冗余。

13GB显存跑通4K级世代:RTX 5090与GB200的实测表现
PiD在硬件适配上的效率令人瞩目。官方数据显示,在RTX 5090上,将512×512的潜变量解码为2048×2048像素的图像,整体耗时低于1秒,峰值显存占用仅为13GB。而在更强大的GB200平台上,这一流程可压缩至约210毫秒。这意味着即便是主流消费级显卡(如RTX 4090或RTX 50系列),也可能在显存限制内流畅运行4K级别图像生成,彻底降低了大尺寸图像生成的硬件门槛。
速度飙升5.9倍:与SeedVR2等基线的直接对比
PiD的核心优势在于计算效率的显著跃迁。根据英伟达公布的基准测试,PiD在处理512×512潜变量到2048×2048像素解码时,仅耗时211ms(实测值),而现行级联超分基线算法SeedVR2则需要1237ms。这一对比意味着PiD实现了约5.9倍的速度提升。这种加速不仅来源于解码与上采样的合并设计,还依赖于对扩散过程精简化处理——将时间维度引入潜空间扩散模型、仅训练时间层而冻结预训练空间层,从而具备视频生成衍生能力。
从图像到视频:PiD的衍生潜能与开源生态
值得注意的是,PiD的设计并非孤立。英伟达将时间维度引入潜空间扩散模型,在编码图像序列(即视频)上仅训练时间层,同时固定预训练空间层,从而将LDM图像生成器转化为视频生成器。这一特性意味着PiD技术未来可直接启用视频生成场景。结合PC端AI工具链(ComfyUI、llama.cpp等)的成熟度提升,PiD有望融入主流的NVIDIA RTX加速工作流,成为端侧高效图像/视频生成的重要模块。该技术相关开源权重与适配版本预计将在后续跟随ComfyUI等平台同步更新。