首页

登录

经典之作PPO算法：曾被NeurIPS拒了

2 天前

AI资讯

18 阅读

NeurIPS PPO 被拒经典论文

高引用论文也曾被拒：Hinton蒸馏论文的NeurIPS滑铁卢

在社交媒体上一则关于“经典论文被拒”的讨论帖下，谷歌首席科学家Jeff Dean再次回忆起一段尘封往事：

论文身份：Geoffrey Hinton等人提出的知识蒸馏（Distillation）开山之作，如今已是深度学习领域引用量最高的论文之一。
拒稿记录：该论文在2014年被NeurIPS（当时仍称NIPS）拒收。
拒稿理由：评审给出的原因十分直接——“不太可能产生重大影响”。
讽刺结局：多年后，随着DeepSeek等大型语言模型将知识蒸馏作为核心训练技术，这篇“被嫌弃”的论文反而成为过去十年最具影响力的AI成果之一。Jeff Dean感叹，顶级会议的评审有时会错过真正的创新。

8/8/7高分仍遭拒：谢赛宁读博首秀的十年逆袭

无独有偶，纽约大学助理教授谢赛宁（Saining Xie）在回顾学术生涯时，也披露了他读博期间首篇论文的“被拒经历”：

经典之作PPO算法：曾被NeurIPS拒了

论文概况：《Deeply-Supervised Nets》（深度监督网络，DSN）于2014年发布在arXiv上，提出了一种通过中间层监督信号加速深度网络训练的经典方法。
NeurIPS评分：评审给出了8/8/7的罕见高分（满分10分，通常7分以上即强烈接收），但最终仍被NeurIPS拒稿。
作者反应：谢赛宁坦言当时“非常困惑”，但并未停止改进工作。
十年荣誉：2025年，即论文公开发布11年后，DSN荣获AISTATS 2025年度时间检验奖。该奖项专门颁给经得起时间考验、对统计学习领域产生深远影响的旧作。谢赛宁在获奖时提醒同行：“被拒不代表没有价值，时间会给出真正的评分。”

云计算的幕后推手与技术扩散链

值得玩味的是，这两篇被拒经典都深度参与了现代AI基础设施的建设。知识蒸馏论文的底层思想，被广泛应用于云服务商推出的模型压缩工具链中。

技术衔接：蒸馏技术使大模型能在有限算力的云端实现高效推理，直接推动了阿里云等平台推出“千问云”等轻量化推理服务。
隐性推手：正如一些分析指出，云计算的规模化需求在幕后操控着算法研究的方向——被拒的蒸馏论文恰恰满足了这一需求，从而从“未受重视的学术作品”转变为“工业界的必备工具”。

被拒的经典，时间是最终审稿人

两个案例共同揭示了一个残酷又公平的学术现实：

评审短视：NeurIPS等顶会的审稿系统在有限时间内难以评估论文的长期影响力。
自我验证：8/8/7的DSN被拒，证明高分未必换来接收；蒸馏论文被“不太可能产生重大影响”拒之门外，则证明前瞻性预测的困难。
给研究者的提醒：谢赛宁在获奖感言中强调：“被拒不是终点。如果相信工作的价值，就继续做下去。”PPO算法当年也同样经历过相似争议和拒稿，但最终成为强化学习领域最稳定、最通用的基准算法之一——这或许是对“经典之作”最有力的定义。