字节 Seed 新作:通过辅助损失实现 MoE 专家与路由器的紧密耦合 (ERC Loss)
祝大家新年快乐~
论文标题:Coupling Experts and Routers in Mixture-of-Experts via an Auxi
...
Bottom-up Policy Optimization: 自下而上的策略优化——语言模型内部潜藏的子策略
论文标题:Bottom-up Policy Optimization: Your Language Model Policy Secretly Cont
...
Google DeepMind 新作:自回归模型中的涌现时间抽象实现了分层强化学习
论文标题:Emergent temporal abstractions in autoregressive models enable hierarch
...
被牺牲的元认知:效率导向优化如何改变了模型的推理结构
论文标题:Schoenfeld’s Anatomy of Mathematical Reasoning by Language Models
论文链
...
Who is Adam? 重新审视大模型 RLVR 阶段的优化器选择
博客标题:Who is Adam? SGD Might Be All We Need For RLVR In LLMs
博客链接:https://w
...
代码大模型的 Scaling Laws:编程语言差异性与多语言混合策略研究
论文标题:Scaling Laws for Code: Every Programming Language Matters
论文链接:https:
...
从 0.5B 到 72B:揭秘 RL Post-Training 中的计算、数据与模型规模权衡
论文标题:Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empir
...
【深度专访】Gemini 3 预训练负责人:我们不再只是构建模型,而是构建 AI 系统
前言
在 AI 圈,Gemini 3 的发布无疑是一次巨大的飞跃。然而,在其惊人表现的背后,研发团队究竟经历了什么?Google DeepMind 的内部研
...
为什么 RM 总是学不好推理?揭秘 BT Loss 中被忽视的“距离偏差”
论文标题:WHEN DISTANCE DISTRACTS: REPRESENTATION DIS-TANCE BIAS IN BT-LOSS FOR R
...
QwenLong-L1.5:长上下文推理与记忆管理的后训练方案
论文标题:QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memo
...
