你的 GRPO 的优势估计是有偏差的:GRPO 中的统计陷阱与 HA-DW 修正方案

论文标题:Your Group-Relative Advantage Is Biased 论文链接:https://arxiv.org/pdf/26 ...

Meta 提出 Dr.Zero:零数据训练的自进化 Search Agent

论文标题:Dr. Zero: Self-Evolving Search Agents without Training Data 论文链接:http ...

深度解析 Ministral 3:基于级联蒸馏的参数高效密集模型训练方法论

论文标题:Ministral 3 论文链接:https://arxiv.org/pdf/2601.08584 TL;DR Mistral AI ...

Sparse-RL:通过稳定稀疏 Rollout 突破 LLM 强化学习的显存墙

论文标题:Sparse-RL: Breaking the Memory Wall in LLM Reinforcement Learning via S ...

Qwen 发布 ArenaRL:解决开放域 Agent 的奖励建模难题

论文标题:ArenaRL: Scaling RL for Open-Ended Agents via Tournamentbased Relative ...

NTU & 通义提出 AgentOCR:基于光学自压缩的智能体历史重构

论文标题:AgentOCR: Reimagining Agent History via Optical Self-Compression 论文链接 ...

DroPE:通过在预训练后移除位置编码扩展 LLM 上下文窗口

论文标题:Extending the Context of Pretrained LLMs by Dropping Their Positional E ...

DeepSeek 新论文 Engram 深度解读

论文标题:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Larg ...

Anthropic 提出 EDL 来量化大模型的泛化能力

论文标题:Excess Description Length of Learning Generalizable Predictors 论文链接:h ...

小米 MiMo-V2-Flash 技术报告:MoE 架构、混合注意力机制与多教师在线蒸馏

论文标题:MiMo-V2-Flash Technical Report 论文链接:https://arxiv.org/pdf/2601.02780 ...