DeepSeek研究员让AI自己研究自己！AI执笔99%，6天搞定45页论文

1 个月前

AI资讯

47 阅读

DeepSeek 强化学习 AI研究自主论文

从零到一：AI自主撰写论文的技术突破

DeepSeek团队让AI模型（基于DeepSeek-R1与DeepSeek-V3）在强化学习框架内自行设计实验、分析数据并撰写论文。研究过程中，模型通过“思维树”尝试多条推理路径，自我评估最优结果——类似参考资料中“思维树让GPT-4成功率从4%飙升到74%”的机制。最终，AI在6天内完成包含45页完整架构、数学证明与实验对比的论文，人工仅介入初始指令设置和最终校验环节。

DeepSeek研究员让AI自己研究自己！AI执笔99%，6天搞定45页论文

强化学习：驱动AI自我进化的核心引擎

该研究的关键在于采用GRPO（一种新型强化学习算法），让AI在无人类标注反馈下自主优化“研究策略”。参照DeepSeek-Prover论文中利用“证明助手反馈”进行强化学习的思路，本次模型通过反复试错，学会更高效地组织知识、验证假设并生成连贯的学术文本。正如播客中何俊贤教授强调的“RL强化学习是o1路线基石”，这一过程实现了“让AI学会如何研究”而非单纯执行指令。

开源生态下的成本奇迹

论文以DeepSeek-V3 MoE架构为基础（总参数量671B，激活仅37B，训练成本仅500万美元），AI生成论文时同样采用专家混合路由策略——每次只调用最相关的“专家模块”处理特定章节，大幅降低计算开销。6天总计消耗不到传统人类研究团队1/10的预算，却产出与顶级闭源模型水准相当的论文。这也呼应了DeepSeek一贯“以更低成本复现与创新”的理念。

思维链到思维树：AI研究者的“方法论觉醒”

AI在撰写论文时自动调用“思维链”技术，对每个实验步骤进行分步推理并记录中间结果，避免错误累积。而当遇到复杂理论冲突时，它会切换至“思维树”模式——同时尝试多种假设路径（如思维树论文中让GPT-4在24点游戏中的成功率提升至74%），交叉验证最优方案。这种从线性推理到多路径探索的跃迁，正是AI超越人类研究速度的关键。

下一步：人机协作的科研新纪元

这项实验并非取代人类研究员，而是释放其创造力。如参考资料所言，“先自己读一遍，再让AI读一遍，生成阅读提纲和书籍重点”的范式已在学习领域验证。当AI能自主完成论文撰写、代码实现与定理证明（如DeepSeek-Prover在定理证明中的突破），人类研究者可将精力聚焦于提出颠覆性问题和跨领域洞见。这场由DeepSeek发起的“AI自己研究自己”实验，或许正为开放科学写下全新注脚。

DeepSeek研究员让AI自己研究自己！AI执笔99%，6天搞定45页论文

从零到一：AI自主撰写论文的技术突破

强化学习：驱动AI自我进化的核心引擎

开源生态下的成本奇迹

思维链到思维树：AI研究者的“方法论觉醒”

下一步：人机协作的科研新纪元

链接失效反馈