上交 & 上海 AILAB 提出 Memory Decoder:一种用于大语言模型的免微调即插即用记忆模块
大型语言模型(LLMs)在处理通用语言任务时展现了强大的能力,但在将它们应用于特定专业领域时,仍然面临挑战。当前主流的领域自适应方法主要有两种:领域自适应预训
...
EMNLP2025 浙大&蚂蚁提出 LightThinker:动态压缩CoT提升推理效率
推理模型详细的推理步骤意味着更长的输出序列,这给基于 Transformer 架构的 LLM 带来了巨大的内存和计算压力。具体来说,注意力机制的计算成本会随着
...
港科大提出DARS:在RLVR中进行深度广度协同,实现Pass@1与Pass@K性能同步提升
现有的RLVR框架在实际应用中仍面临性能提升的瓶颈,今天分享的这篇论文《DEPTH-BREADTH SYNERGY IN RLVR: UNLOCKING LL
...
InternVL3.5 Post-Training 技术解析
InternVL3.5 无论是从官方发布的结果,还是实际体验上来说都是比较有亮点的,今天着重解读一下InternVL3.5用到的后训练技术。
论文标题:
...
Meta提出StepWiser:引入思维块奖励,基准得分超传统方法20%
以思维链(Chain-of-Thought, CoT)为代表的技术,通过让模型在给出最终答案前,先生成一系列中间推理步骤,极大地增强了模型的透明度和推理能力。
...
微软 & UCLA 新作:超越 Pass@1,通过自博弈和变分问题合成,持续提升大模型推理能力
我们知道 RLVR 的核心思想很简单:让模型生成多个解题思路(轨迹),然后用一个确定的、可验证的奖励信号(比如答案是否正确)来告诉模型哪些思路是好的,哪些是坏
...
大模型SFT数据配比的一些实践启示
今天深度解读一篇来自2024年阿里的有关于大模型数据配比论文,放在今天也有比较大的参考价值。
我们做SFT的时候都关注过这些问题:我们如何才能通过 SFT 有
...
上交 & 腾讯提出 PSFT:借鉴PPO,为SFT引入近端约束,告别泛化能力差与“熵坍塌”
大模型的优化手段之一SFT (Supervised Fine-Tuning) 简单有效,但它也带来了两个严重的问题:泛化能力差和“熵坍塌”问题。为了解决这两个
...
字节Seed&南大提出DuPO:基于广义对偶的自监督大模型优化算法
传统的优化范式,如依赖人类反馈的强化学习(RLHF)和依赖可验证奖励的强化学习(RLVR),尽管在特定任务上取得了显著成效,但它们普遍面临着标注成本高昂、适用
...
蚂蚁浙大提出基于“评分细则”(Rubric)的奖励机制,仅靠5000+样本,让30B轻松击败671B
RLVR 严重依赖于那些拥有客观、程序化可验证解的任务。这种结构性的依赖,为模型能力的扩展设置了一个“硬上限”。毕竟,在人类知识和交流里,充满了大量开放式的、
...