0xC001

分享机器学习知识
158 文章
0 评论
363 获赞

主打自验证数学推理:DeepSeekMath-V2 技术报告解读

DeepSeekMath-V2发布了,主打可自验证的数学推理。 论文标题:DeepSeekMath-V2: Towards Self-Verifiabl ...

Anthropic 新作:利用“接种提示”可以阻止 Reward Hacking 引发的非对齐泛化

论文标题:NATURAL EMERGENT MISALIGNMENT FROM REWARD HACKING IN PRODUCTION RL 论文 ...

弱师出高徒:COLM 2025 Delta Learning 揭示弱模型偏好数据如何驱动 SOTA 级后训练

昨天解读了 OLMo3 的技术报告,其中的 DPO 部分用到了 名为 Delta Learning 的方法。提出这个方法的论文《The Delta Learn ...

AllenAI OLMo 3 技术报告深度解析

报告链接:https://www.datocms-assets.com/64837/1763662397-1763646865-olmo_3_techn ...

HuggingFace 高分论文:首个达到 IPhO 金牌水平的开源模型是如何炼成的?

论文标题:P1: Mastering Physics Olympiads with Reinforcement Learning 论文链接:http ...

Meta 提出 SoCE 策略,仅靠权重融合实现 SOTA

论文标题:Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Perfor ...

陈丹琦团队新作 Retaining by Doing:揭示 RL 比 SFT 为什么更能缓解灾难性遗忘

论文标题:Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting ...

微软提出 GAD:通过生成对抗蒸馏方法实现 On-Policy 蒸馏 GPT-5

论文标题:Black-Box On-Policy Distillation of Large Language Models 论文链接:https: ...

LightReasoner:利用小模型引导大模型推理的对比学习框架

论文标题:LIGHTREASONER: CAN SMALL LANGUAGE MODELS TEACH LARGE LANGUAGE MODELS RE ...

WeiBo AI 推出 1.5B 小模型,成本实现 SOTA 级推理

论文标题:Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Mode ...