 
                        0xC001
                                分享机器学习知识                            
                            
                                    
                                        132                                    
                                    
                                        文章                                    
                                
                                
                                    
                                        0                                    
                                    
                                        评论                                    
                                
                                
                                    
                                        329                                    
                                    
                                        获赞                                    
                                
                            字节 Seed 重磅新作:Scaling Latent Reasoning via Looped Language Models
                    对于现代的大型语言模型(LLMs)而言,其核心挑战之一在于如何超越简单的文本生成,实现真正意义上的深度推理。目前,主流的推理增强方法,如思维链(Chain-o
...                
            NeurIPS 2025 高分论文 DisCO:利用判别式约束优化增强推理 LLM
                    尽管 GRPO 效果显著,学术界和工业界对其内在机制和潜在局限性的探索从未停止。一些研究尝试复现或改进 GRPO,但往往依赖于启发式或临时的技巧,缺乏对问题根
...                
            On-Policy Distillation 解读
                    大语言模型(LLM)的训练通常分为三个主要阶段:预训练(Pre-training)、中训练(Mid-training)和后训练(Post-training)。
...                
            Google DeepMind:从开源模型中提取 SFT 和 RL 训练数据
                    当前,大型语言模型(LLM)领域的一个共识是,模型的卓越能力不仅源于其庞大的参数规模和海量的预训练数据,更在很大程度上依赖于高质量的“对齐”数据。这些数据,通
...                
            南大 NeurIPS 2025:关于 LLM 内部概率与自洽性的理论研究
                    在众多大模型测试时扩展(Test-time Scaling)方法中,基于采样的(sampling-based)方法因其简单、通用且效果显著而成为主流。这类方法
...                
            LoongRL:面向长上下文推理的强化学习
                    强化学习,特别是通过从结果中学习(outcome-based learning)的方法,在提升模型在数学、代码等短上下文、具有明确验证标准的任务上的推理能力方
...                
            RL Grokking:解决 pass@K=0 难题的新思路
                    一个长期以来的问题:大型语言模型究竟能否通过强化学习(RL)获得真正意义上的新推理策略,还是说 RL 仅仅是对其在预训练或后训练阶段已存在能力的放大?
一些研
...                
            重新思考 RLVR 中的基线设计:用分位数替代均值,让大模型强化学习更加稳定
                    现有的研究工作大多将注意力集中在如何防止 RLVR 熵坍塌上,例如通过提升低概率词元(token)的概率或惩罚导致坍塌的词元。这些方法在一定程度上缓解了过早收
...                
            SFT 是通用能力的“杀手”还是“背锅侠”?亚马逊新作揭示其“灾难性遗忘”的真相
                    SFT 使用特定领域的“指令-回答”数据对预训练好的通用模型进行训练,使其适应特定任务的需求,例如在医疗、金融或法律等专业领域提供更精准的回答。这种做法在提升
...                
            腾讯优图提出免训练GRPO,在上下文空间中实现策略优化
                    我们对如何有效规模化(scale)RL 的理解却远远没有跟上步伐。与已经建立起成熟、可预测的规模化法则(Scaling Laws)的预训练阶段不同,LLM 的
...                
             
                     
                 
         
         
         
         
         
         
         
         
        