上交 & 上海 AILAB 提出 Memory Decoder:一种用于大语言模型的免微调即插即用记忆模块

大型语言模型(LLMs)在处理通用语言任务时展现了强大的能力,但在将它们应用于特定专业领域时,仍然面临挑战。当前主流的领域自适应方法主要有两种:领域自适应预训 ...

EMNLP2025 浙大&蚂蚁提出 LightThinker:动态压缩CoT提升推理效率

推理模型详细的推理步骤意味着更长的输出序列,这给基于 Transformer 架构的 LLM 带来了巨大的内存和计算压力。具体来说,注意力机制的计算成本会随着 ...

港科大提出DARS:在RLVR中进行深度广度协同,实现Pass@1与Pass@K性能同步提升

现有的RLVR框架在实际应用中仍面临性能提升的瓶颈,今天分享的这篇论文《DEPTH-BREADTH SYNERGY IN RLVR: UNLOCKING LL ...

InternVL3.5 Post-Training 技术解析

InternVL3.5 无论是从官方发布的结果,还是实际体验上来说都是比较有亮点的,今天着重解读一下InternVL3.5用到的后训练技术。 论文标题: ...

Meta提出StepWiser:引入思维块奖励,基准得分超传统方法20%

以思维链(Chain-of-Thought, CoT)为代表的技术,通过让模型在给出最终答案前,先生成一系列中间推理步骤,极大地增强了模型的透明度和推理能力。 ...

微软 & UCLA 新作:超越 Pass@1,通过自博弈和变分问题合成,持续提升大模型推理能力

我们知道 RLVR 的核心思想很简单:让模型生成多个解题思路(轨迹),然后用一个确定的、可验证的奖励信号(比如答案是否正确)来告诉模型哪些思路是好的,哪些是坏 ...

大模型SFT数据配比的一些实践启示

今天深度解读一篇来自2024年阿里的有关于大模型数据配比论文,放在今天也有比较大的参考价值。 我们做SFT的时候都关注过这些问题:我们如何才能通过 SFT 有 ...

上交 & 腾讯提出 PSFT:借鉴PPO,为SFT引入近端约束,告别泛化能力差与“熵坍塌”

大模型的优化手段之一SFT (Supervised Fine-Tuning) 简单有效,但它也带来了两个严重的问题:泛化能力差和“熵坍塌”问题。为了解决这两个 ...

字节Seed&南大提出DuPO:基于广义对偶的自监督大模型优化算法

传统的优化范式,如依赖人类反馈的强化学习(RLHF)和依赖可验证奖励的强化学习(RLVR),尽管在特定任务上取得了显著成效,但它们普遍面临着标注成本高昂、适用 ...

蚂蚁浙大提出基于“评分细则”(Rubric)的奖励机制,仅靠5000+样本,让30B轻松击败671B

RLVR 严重依赖于那些拥有客观、程序化可验证解的任务。这种结构性的依赖,为模型能力的扩展设置了一个“硬上限”。毕竟,在人类知识和交流里,充满了大量开放式的、 ...