每秒狂吐1000个token!谷歌开源扩散模型新作,4090单卡可跑

单卡24GB显存跑满血DeepSeek-R1,速度翻27倍

KTransformers团队于2月10日成功在仅24GB显存+382GB内存的PC上,本地运行了DeepSeek-R1/V3的671B参数满血版。通过将非共享稀疏矩阵卸载至CPU内存并优化算子,显存需求从传统8卡A100的320GB压缩至单卡24GB。预处理速度最高达286 tokens/s,推理生成速度14 tokens/s,功耗仅80W,整机成本约2万元,仅为传统方案的2%。该技术现已支持4~8K上下文,并在单张RTX 4090D上实现15%加速(每秒最多16个token)。相比此前PowerInfer在4090上的平均13.2 tokens/s(峰值29.08 tokens/s),KTransformers实现了3~28倍的速度提升。

每秒狂吐1000个token!谷歌开源扩散模型新作,4090单卡可跑

CogVideoX-2B:单卡4090跑商用级视频生成

智谱AI开源的首个商用级视频生成模型CogVideoX-2B,在单张4090显卡即可完成推理(FP-16精度仅需18GB显存),单张A6000可完成微调。该模型支持226个token的提示词上限,生成6秒视频(8帧/秒,720×480分辨率)。自研的3D VAE通过三维卷积同时压缩时空维度,实现更高压缩率和重建质量。对比Pika、Gen-2等竞品,CogVideoX在各项指标上均为最优,并已在“智谱清言”上线。

图像生成新纪录:1秒100张二次元小姐姐

UC伯克利等机构的最新模型在单张4090上实现1秒生成100张图像(10毫秒/张),吞吐量较传统方法提升近60倍。该模型已霸榜GitHub,能在1分钟内生成6000张二次元风格图像。这一突破性速度使得消费级显卡即可胜任高并发图像生成任务,彻底改变以往依赖云服务的格局。

开源生态加速落地:从文本到视频的全覆盖

上述成果均基于开源框架和模型:KTransformers的DeepSeek-R1/V3本地部署教程已发布在GitHub(需安装torch、packaging、ninja等依赖);CogVideoX-2B的完整代码和模型权重已开源至HuggingFace和GitHub;图像生成模型同样提供可复现代码。值得注意的是,所有方案均能在单张RTX 4090上运行——无论是24GB显存的文本推理(14 tokens/s)、18GB显存的视频生成,还是10毫秒/张的图像生成,都标志着AI大模型依赖昂贵服务器集群的时代正在终结。