0xC001
分享机器学习知识
145
文章
0
评论
342
获赞
NeurIPS 2025 满分论文:LLM 强化学习的上限已被基座锁死了
论文标题:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LL
...
小红书推出 RedOne 2.0:SNS 领域大模型后训练实践指南
论文标题:RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Netw
...
EMNLP 2025 主会论文解读:Towards Automated Error Discovery
论文链接:https://arxiv.org/pdf/2509.10833
论文标题:Towards Automated Error Discove
...
Meta AI 最新研究:大模型强化学习的几何优化偏置
对于大语言模型的后训练(post-training)而言,研究者通常面临两种主流技术路径:监督微调(Supervised Fine-Tuning, SFT)和
...
Meta AI:Scaling Agent Learning via Experience Synthesis
对于基于大型语言模型(LLM)的自主智能体(Autonomous Agents)而言,强化学习(Reinforcement Learning, RL)提供了一
...
西湖大学提出 SimKO :一种简单的 Pass@K 策略优化方法
在RLVR的框架下,模型的训练目标通常是最大化 pass@1 的性能。pass@1 指标衡量的是模型生成一次回答时,其正确率的期望值。为了提升 pass@1,
...
Google Research 重磅研究:一种用于持续学习的新型机器学习范式 - Nested Learning
Google 在 LLM 持续学习方向有了新突破。
当前的大型语言模型(LLM)在预训练阶段结束后,其参数化知识(parametric knowledge)在
...
腾讯 WeChat AI 提出 Continuous Autoregressive Language Models
大模型的效率受其自回归、逐 token 生成的方式所限制。
为此,来自腾讯微信 AI Lab 的论文《Continuous Autoregressive La
...
清华 & 智谱推出 CROPI 框架:通过 Off-Policy Influence 来提升 RLVR 的数据效率
RLVR 的核心挑战还在于数据选择。现有的数据选择方法,大多依赖于启发式规则,例如根据问题的难度、模型输出的不确定性或通过率等指标来筛选训练数据。这类方法虽然
...
NVIDIA 提出 CoDeC:通过 In-Context Learning 来区分模型“记忆”还是“泛化”
对于大模型的评估来说,benchmark 必须是模型在训练阶段从未见过的。如果模型在训练中已经接触过、甚至“背诵”了测试集的内容,那么其在评测中的高分就失去了
...