每秒狂吐1000个token！谷歌开源扩散模型新作，4090单卡可跑

1 个月前

AI资讯

42 阅读

开源模型本地部署显存优化 DeepSeek-R1

单卡24GB显存跑满血DeepSeek-R1，速度翻27倍

KTransformers团队于2月10日成功在仅24GB显存+382GB内存的PC上，本地运行了DeepSeek-R1/V3的671B参数满血版。通过将非共享稀疏矩阵卸载至CPU内存并优化算子，显存需求从传统8卡A100的320GB压缩至单卡24GB。预处理速度最高达286 tokens/s，推理生成速度14 tokens/s，功耗仅80W，整机成本约2万元，仅为传统方案的2%。该技术现已支持4~8K上下文，并在单张RTX 4090D上实现15%加速（每秒最多16个token）。相比此前PowerInfer在4090上的平均13.2 tokens/s（峰值29.08 tokens/s），KTransformers实现了3~28倍的速度提升。

每秒狂吐1000个token！谷歌开源扩散模型新作，4090单卡可跑

CogVideoX-2B：单卡4090跑商用级视频生成

智谱AI开源的首个商用级视频生成模型CogVideoX-2B，在单张4090显卡即可完成推理（FP-16精度仅需18GB显存），单张A6000可完成微调。该模型支持226个token的提示词上限，生成6秒视频（8帧/秒，720×480分辨率）。自研的3D VAE通过三维卷积同时压缩时空维度，实现更高压缩率和重建质量。对比Pika、Gen-2等竞品，CogVideoX在各项指标上均为最优，并已在“智谱清言”上线。

图像生成新纪录：1秒100张二次元小姐姐

UC伯克利等机构的最新模型在单张4090上实现1秒生成100张图像（10毫秒/张），吞吐量较传统方法提升近60倍。该模型已霸榜GitHub，能在1分钟内生成6000张二次元风格图像。这一突破性速度使得消费级显卡即可胜任高并发图像生成任务，彻底改变以往依赖云服务的格局。

开源生态加速落地：从文本到视频的全覆盖

上述成果均基于开源框架和模型：KTransformers的DeepSeek-R1/V3本地部署教程已发布在GitHub（需安装torch、packaging、ninja等依赖）；CogVideoX-2B的完整代码和模型权重已开源至HuggingFace和GitHub；图像生成模型同样提供可复现代码。值得注意的是，所有方案均能在单张RTX 4090上运行——无论是24GB显存的文本推理（14 tokens/s）、18GB显存的视频生成，还是10毫秒/张的图像生成，都标志着AI大模型依赖昂贵服务器集群的时代正在终结。

每秒狂吐1000个token！谷歌开源扩散模型新作，4090单卡可跑

单卡24GB显存跑满血DeepSeek-R1，速度翻27倍

CogVideoX-2B：单卡4090跑商用级视频生成

图像生成新纪录：1秒100张二次元小姐姐

开源生态加速落地：从文本到视频的全覆盖

链接失效反馈