Machine Learning Pod - 机器学习POD

基于 VERL 的 TokenAwareBatchPack 实践，干掉 OOM，榨干序列并行

LRM 浪潮下，训练样本的长度不断增加，序列并行策略已成为训练中的常用选择。然而，无论是常规训练还是序列并行训练，以“样本数量”定义批次的传统做法，都存在不容忽视的问题：一方面，样本长度参差不齐 ...

4 天前

40 0

你要听一段故事，但它绝不是平铺直叙的。数学故事里蕴藏着一种不动声色的哲学性，就像生活一样，有时你需要随机掷骰子蒙混过关，有时又得步步为营，计算每一步的得失。而蒙特卡罗方法和时序差分算法，正是这两种思维 ...

3 月前

337 2

动态规划（Dynamic Programming，DP）是解决强化学习问题的一类方法，它通常假设环境的动态能够完全被马尔可夫决策过程（MDP）所建模。同时，它要求能精确获取状态转移模型和奖励函数（即假 ...

3 月前

346 6

在强化学习（Reinforcement Learning, RL）的领域中，价值函数（Value Function）是用来衡量某个状态或状态-动作对的“好坏”的核心概念。它们描述了智能体在特定策略下（ ...

3 月前

426 7

马尔可夫决策过程（Markov Decision Process, MDP）是强化学习的核心基础，用于描述智能体与环境之间的交互关系。一个 MDP 通常由以下五要素构成：状态空间、动作空间、奖励函数、 ...

3 月前

359 6

论文标题：Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models ...

3 月前

544 10

近年来，大语言模型（LLMs）的对齐研究成为人工智能领域的核心挑战之一，而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习（RLHF），还是基于「RL-Free」的各类直接偏好优化方 ...

3 月前

470 8

DPO的损失函数可以做如下恒等变换，可以发现蓝色框中的结果是一个可以预计算的常数。因此，在使用DPO进行优化时，我们完全可以离线计算常数部分，在线只需要加载进行训练，这样和sft的训练相差无几。根据 ...

4 月前

379 4

OpenSFT，顾名思义，一个开源的SFT训练框架，基于 accelerator + deepspeed + ring flash attention 实现。本项目实现了length-pack数据组 ...

4 月前

548 5

在强化学习和概率建模的世界里，KL散度如同一位沉默的裁判，默默地衡量着两个概率分布之间的差异。然而，当面对高维空间或复杂分布时，KL散度的计算常常令人望而却步。本文将揭示一种优雅的近似方法，利用蒙特卡 ...

6 月前

1,000 10