DeepSeek研究员让AI自己研究自己!AI执笔99%,6天搞定45页论文
从零到一:AI自主撰写论文的技术突破
DeepSeek团队让AI模型(基于DeepSeek-R1与DeepSeek-V3)在强化学习框架内自行设计实验、分析数据并撰写论文。研究过程中,模型通过“思维树”尝试多条推理路径,自我评估最优结果——类似参考资料中“思维树让GPT-4成功率从4%飙升到74%”的机制。最终,AI在6天内完成包含45页完整架构、数学证明与实验对比的论文,人工仅介入初始指令设置和最终校验环节。

强化学习:驱动AI自我进化的核心引擎
该研究的关键在于采用GRPO(一种新型强化学习算法),让AI在无人类标注反馈下自主优化“研究策略”。参照DeepSeek-Prover论文中利用“证明助手反馈”进行强化学习的思路,本次模型通过反复试错,学会更高效地组织知识、验证假设并生成连贯的学术文本。正如播客中何俊贤教授强调的“RL强化学习是o1路线基石”,这一过程实现了“让AI学会如何研究”而非单纯执行指令。
开源生态下的成本奇迹
论文以DeepSeek-V3 MoE架构为基础(总参数量671B,激活仅37B,训练成本仅500万美元),AI生成论文时同样采用专家混合路由策略——每次只调用最相关的“专家模块”处理特定章节,大幅降低计算开销。6天总计消耗不到传统人类研究团队1/10的预算,却产出与顶级闭源模型水准相当的论文。这也呼应了DeepSeek一贯“以更低成本复现与创新”的理念。
思维链到思维树:AI研究者的“方法论觉醒”
AI在撰写论文时自动调用“思维链”技术,对每个实验步骤进行分步推理并记录中间结果,避免错误累积。而当遇到复杂理论冲突时,它会切换至“思维树”模式——同时尝试多种假设路径(如思维树论文中让GPT-4在24点游戏中的成功率提升至74%),交叉验证最优方案。这种从线性推理到多路径探索的跃迁,正是AI超越人类研究速度的关键。
下一步:人机协作的科研新纪元
这项实验并非取代人类研究员,而是释放其创造力。如参考资料所言,“先自己读一遍,再让AI读一遍,生成阅读提纲和书籍重点”的范式已在学习领域验证。当AI能自主完成论文撰写、代码实现与定理证明(如DeepSeek-Prover在定理证明中的突破),人类研究者可将精力聚焦于提出颠覆性问题和跨领域洞见。这场由DeepSeek发起的“AI自己研究自己”实验,或许正为开放科学写下全新注脚。