清华 & 智谱推出 CROPI 框架:通过 Off-Policy Influence 来提升 RLVR 的数据效率
RLVR 的核心挑战还在于数据选择。现有的数据选择方法,大多依赖于启发式规则,例如根据问题的难度、模型输出的不确定性或通过率等指标来筛选训练数据。这类方法虽然
...
NVIDIA 提出 CoDeC:通过 In-Context Learning 来区分模型“记忆”还是“泛化”
对于大模型的评估来说,benchmark 必须是模型在训练阶段从未见过的。如果模型在训练中已经接触过、甚至“背诵”了测试集的内容,那么其在评测中的高分就失去了
...
Sea AI Lab 新研究:FP16 可以解决 RL 中的训推不一致
大模型强化学习微调不稳定的一个关键来源:训练-推理不匹配(training-inference mismatch)。为了最大化训练效率,框架通常会采用两种不同
...
浙大 & 阿里提出 RAVR:当 LLM 被“剧透”答案后,它的推理能力会发生什么变化?
我们知道 RL 在大模型应用的一个前提:模型必须已经具备以一定的概率,自主采样出有效的、有价值的推理路径的能力。强化学习的内在机制,更像是对模型现有能力的一种
...
通义 DeepResearch 技术报告解读
当前工业界正在积极探索“ DeepResearch ”这一技术路径。然而,构建一个强大的研究型智能体面临着严峻的挑战,其中最核心的瓶颈之一在于训练数据。
...
字节 Seed 重磅新作:Scaling Latent Reasoning via Looped Language Models
对于现代的大型语言模型(LLMs)而言,其核心挑战之一在于如何超越简单的文本生成,实现真正意义上的深度推理。目前,主流的推理增强方法,如思维链(Chain-o
...
NeurIPS 2025 高分论文 DisCO:利用判别式约束优化增强推理 LLM
尽管 GRPO 效果显著,学术界和工业界对其内在机制和潜在局限性的探索从未停止。一些研究尝试复现或改进 GRPO,但往往依赖于启发式或临时的技巧,缺乏对问题根
...
On-Policy Distillation 解读
大语言模型(LLM)的训练通常分为三个主要阶段:预训练(Pre-training)、中训练(Mid-training)和后训练(Post-training)。
...
Google DeepMind:从开源模型中提取 SFT 和 RL 训练数据
当前,大型语言模型(LLM)领域的一个共识是,模型的卓越能力不仅源于其庞大的参数规模和海量的预训练数据,更在很大程度上依赖于高质量的“对齐”数据。这些数据,通
...
南大 NeurIPS 2025:关于 LLM 内部概率与自洽性的理论研究
在众多大模型测试时扩展(Test-time Scaling)方法中,基于采样的(sampling-based)方法因其简单、通用且效果显著而成为主流。这类方法
...
