3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产
神秘模型横空出世,3B小参数挑战前沿大模型
最近几天,一个名为VibeThinker-3B的小模型在X平台(原Twitter)上突然爆火。这个仅有30亿参数(3B)的密集推理模型,在一些可验证的推理任务(尤其是编程)中,性能竟然进入了Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5等前沿大模型的区间范围。考虑到它的体积远小于这些动辄数百亿甚至数千亿参数的模型,这一表现令许多AI从业者感到意外。一时间,关于这个“神秘模型”的讨论迅速升温,大家都在猜测它究竟出自何方。
编程能力比肩Opus 4.5,推理效率惊艳
据技术报告显示,VibeThinker-3B专门针对具有可靠验证信号的任务进行设计,包括数学推理、竞技编程、STEM领域等。在编程任务上,它的得分直接对标了Claude Opus 4.5和GPT-5 high,几乎毫不逊色。更令人惊讶的是,模型体积的巨大优势使得推理成本大幅降低,推理速度也更快。研究者指出,这种在小模型上实现高难度推理能力的突破,可能为嵌入式设备、边缘计算等场景带来全新可能。
原是国产力量:来自新浪微博团队
随着讨论的深入,模型背后的团队浮出水面——它并非来自海外巨头或知名AI实验室,而是来自中国的新浪微博团队。这一消息迅速在社区中刷屏,“原是国产”成为热议焦点。技术报告已经公开,详细阐述了该模型的设计思路和训练方法。新浪微博团队表示,他们的目标并非打造一个替代大规模模型的小模型,而是沿着特定能力维度,审视小模型的真实边界。
小模型的边界探索:不是替代,而是证明
这一成果的意义在于,它有力地证明了在严格的小模型规模下,通过针对性的设计和训练,模型可以在特定领域(如可验证推理)达到接近甚至媲美大模型的水平。VibeThinker-3B的出现,或许会引发业界重新思考模型大小与性能之间的关系——并非只有堆参数才能出奇迹,精细化设计和能力聚焦同样能带来惊喜。正如团队所言,他们希望探索“小模型的真实边界”,为后续研究提供一种新的范式。