首页
登录
当前标签:GRPO
GRPO过时了吗?
GRPO并未过时,反而通过理论突破(如2-GRPO将组规模降至2)和多种改进变体(DAPO、Dr. GRPO等),在降低计算成本的同时保持甚至提升了性能,成为推理模型训练的核心技术之一。