人民想念DeepSeek

1 个月前

AI资讯

29 阅读

DeepSeek Token AI时代性价比

随着Agent应用的爆发，Token作为AI时代的核心计量单位，正成为整个行业的关注焦点。一方面，以黄仁勋为代表的行业领袖不断鼓励大规模使用Token，甚至将其与工作绩效挂钩，制造出了一种“不烧Token就会落后”的焦虑感；另一方面，高昂的Token成本却真实地阻挡了大部分用户。尽管推理硬件成本因存储涨价而飙升，且厂商为了保全存量收入而对价格战保持沉默，但市场对于极致性价比的渴望从未消退。人们开始怀念那个曾以“百倍降价”搅动市场的DeepSeek，期待其能再次打破成本与效率的僵局。

Token经济学的焦虑与悖论

在大模型技术飞速迭代的当下，“Token”不仅成为了技术圈的热词，更成为了企业效率考核的新标尺。

成本与效益的脱节：英伟达CEO黄仁勋曾抛出“若工程师年薪50万却没烧够25万Token，我会恐慌”的言论，试图重塑AI时代的效率逻辑。然而，现实案例却展示了巨大的反差：有OpenAI程序员一周烧掉2100亿Token（相当于33个维基百科），但其带来的实际产出存疑。这种“为了烧而烧”的现象，被业界解读为一种人为制造的“Token焦虑”，掩盖了高投入与有效产出之间的鸿沟。
高昂的入门门槛：对于实际用户而言，Token的费用极其昂贵。猎豹移动CEO傅盛曾分享，即便经过技巧优化，其日均Token费用仍需10多美元，年费高达25200元。这与剪映等消费级软件年费仅几百元形成鲜明对比，直接“过滤掉了大片的非付费用户”。

人民想念DeepSeek

降本路上的双重枷锁：存储涨价与算力浪费

Token价格居高不下的背后，是硬件成本上涨与算力利用率低下的双重困境，这直接导致了降本路径的受阻。

存储成本历史性暴涨：2026年第一季度，支撑大模型推理的关键硬件HBM内存及相关存储产品价格飙升，DRAM环比上涨超50%，NAND涨幅达150%。上游厂商甚至已将产能签约到了5年后，这种硬件层面的通胀直接传导至Token成本，使得依靠堆硬件来降本的路径变得不再可行。
算力利用率的巨大浪费：行业数据显示，主流大模型的推理MFU（机器利用率）均值仅在30%左右。这意味着企业花费了100%的GPU成本，实际有效算力却不足三分之一。虽然通过优化算子和调度策略可将MFU提升至50%以上，省出约50%的成本，但这种技术红利是否能传导至C端定价，完全取决于厂商的商业考量，而非技术瓶颈。

厂商僵局与DeepSeek的缺席

面对2024年DeepSeek-V2引发的史诗级降价潮，如今的市场氛围却异常沉默，厂商陷入了一种“不敢打、不愿打”的僵持状态。

价格战的“后遗症”：此前由DeepSeek开启的价格战，虽然带来了用户增长，但也消耗了数亿资金。如今，面对B端和C端需求的同时爆发，厂商却不敢轻举妄动。一位从业者直言，为了争夺不确定性增量而打价格战，会导致存量用户的年度经常性收入（ARR）被迫“失血”，这笔账算不过来。
对创新者的期待：尽管国产模型的API单价相比北美已有优势，但在Agent应用动辄消耗千万级Token的常态下，依然“远远不够”。这种僵局下，行业开始集体怀念那个充当“鲶鱼”角色的DeepSeek，期待其能再次以颠覆性的成本结构，迫使全行业重新审视定价策略，打破当下的商业僵局。

硬件创新的尝试与局限

为了摆脱云端高昂的Token费用，硬件厂商开始尝试新的路径，试图在端侧通过定制化芯片解决问题，但目前仍面临诸多局限。

本地部署的尴尬：随着Mac Mini等设备性能的提升，部分用户尝试本地部署模型以降低成本。但这不仅有技术门槛，且在内存价格暴涨的背景下，成本优势并不明显。同期，主打本地安全的EdgeClaw等硬件创业项目，也面临着准系统产品低价竞争的压力，难以讲出更具吸引力的故事。
“焊死”模型的极致效率：初创公司Taalas推出的HC1芯片提供了一个极端的解法：通过Mask ROM将Llama 3.1 8B模型权重固化在硅片上，实现了高达16960 Token/s的输出速度，并彻底打破了“内存墙”。这种“专芯专用”的设计虽然在特定场景下效率惊人，但代价是模型无法更新、无法更换，牺牲了灵活性以换取极致的性价比。这也反衬出当前行业在追求低成本与通用性之间的艰难博弈。

人民想念DeepSeek

Token经济学的焦虑与悖论

降本路上的双重枷锁：存储涨价与算力浪费

厂商僵局与DeepSeek的缺席

硬件创新的尝试与局限

链接失效反馈