腾讯混元提出 Uni-OPD:通过结果引导的边界校准统一 On-Policy Distillation

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文追踪 APP 推荐:DailyPapers 论文标题:Uni-OPD: Unifying On ...

腾讯混元新作:重新审视 GRPO,本质为响应单纯形上的隐式目标投影

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文追踪 APP 推荐:DailyPapers 论文标题:Listwise Policy Opti ...

斯坦福等机构新作 DCI:准确率涨 11 个百分点、成本降 29% —— 超越语义检索直接语料库交互

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文追踪 APP 推荐:DailyPapers 论文标题:Beyond Semantic Simi ...

中科院京东新作 CoPD:混合训练能力打架,先训后蒸馏吸收不了——第三条路怎么走

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文追踪 APP 推荐:DailyPapers 论文标题:Co-Evolving Policy D ...

通义新作 TCOD:蒸馏越训越差?揭秘多轮 Agent 的"轨迹级 KL 崩溃"现象

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文追踪 APP 推荐:DailyPapers 论文标题:TCOD: Exploring Temp ...

从 Context 到 Skills:LLM 能否高效从上下文习得技能?

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文追踪 APP 推荐:DailyPapers 论文标题:From Context to Skil ...

重新思考 On-Policy 蒸馏:训练动态、内在机制以及工程实践方案

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文追踪 APP 推荐:DailyPapers 论文标题:Rethinking On-Policy ...

DeepSeek-V4 技术报告解读

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文标题:DeepSeek-V4: Towards Highly Efficient Million ...

人大 & 字节 Seed 提出 Agent-World:实现 Agent 策略与训练环境的协同进化

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文标题:Agent-World: Scaling Real-World Environment S ...

如何抑制大模型强化学习中的重复错误?MEDS 动态奖励框架解读

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文标题:The Past Is Not Past: Memory-Enhanced Dynamic ...