3B小模型，编程得分比肩Opus 4.5，神秘模型引发热议，原是国产

6 天前

AI资讯

15 阅读

编程国产 [3B模型小模型]

神秘模型横空出世，3B小参数挑战前沿大模型

最近几天，一个名为VibeThinker-3B的小模型在X平台（原Twitter）上突然爆火。这个仅有30亿参数（3B）的密集推理模型，在一些可验证的推理任务（尤其是编程）中，性能竟然进入了Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5等前沿大模型的区间范围。考虑到它的体积远小于这些动辄数百亿甚至数千亿参数的模型，这一表现令许多AI从业者感到意外。一时间，关于这个“神秘模型”的讨论迅速升温，大家都在猜测它究竟出自何方。

编程能力比肩Opus 4.5，推理效率惊艳

据技术报告显示，VibeThinker-3B专门针对具有可靠验证信号的任务进行设计，包括数学推理、竞技编程、STEM领域等。在编程任务上，它的得分直接对标了Claude Opus 4.5和GPT-5 high，几乎毫不逊色。更令人惊讶的是，模型体积的巨大优势使得推理成本大幅降低，推理速度也更快。研究者指出，这种在小模型上实现高难度推理能力的突破，可能为嵌入式设备、边缘计算等场景带来全新可能。

原是国产力量：来自新浪微博团队

随着讨论的深入，模型背后的团队浮出水面——它并非来自海外巨头或知名AI实验室，而是来自中国的新浪微博团队。这一消息迅速在社区中刷屏，“原是国产”成为热议焦点。技术报告已经公开，详细阐述了该模型的设计思路和训练方法。新浪微博团队表示，他们的目标并非打造一个替代大规模模型的小模型，而是沿着特定能力维度，审视小模型的真实边界。

小模型的边界探索：不是替代，而是证明

这一成果的意义在于，它有力地证明了在严格的小模型规模下，通过针对性的设计和训练，模型可以在特定领域（如可验证推理）达到接近甚至媲美大模型的水平。VibeThinker-3B的出现，或许会引发业界重新思考模型大小与性能之间的关系——并非只有堆参数才能出奇迹，精细化设计和能力聚焦同样能带来惊喜。正如团队所言，他们希望探索“小模型的真实边界”，为后续研究提供一种新的范式。

3B小模型，编程得分比肩Opus 4.5，神秘模型引发热议，原是国产

神秘模型横空出世，3B小参数挑战前沿大模型

编程能力比肩Opus 4.5，推理效率惊艳

原是国产力量：来自新浪微博团队

小模型的边界探索：不是替代，而是证明

链接失效反馈