大模型 - Machine Learning Pod

迈向推理时代：900+篇参考文献揭示长链思维的前世今生，最全综述来了

论文标题：Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models ...

1 周前

55 0

什么样的偏好，才叫好的偏好？——揭秘偏好对齐数据的「三驾马车」

近年来，大语言模型（LLMs）的对齐研究成为人工智能领域的核心挑战之一，而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习（RLHF），还是基于「RL-Free」的各类直接偏好优化方 ...

1 周前

57 0

一个轻量但不失高效的DPO训练框架：OpenDPO

DPO的损失函数可以做如下恒等变换，可以发现蓝色框中的结果是一个可以预计算的常数。因此，在使用DPO进行优化时，我们完全可以离线计算常数部分，在线只需要加载进行训练，这样和sft的训练相差无几。根据 ...

1 月前

119 1

一个轻量但不失高效的SFT训练框架：OpenSFT

OpenSFT，顾名思义，一个开源的SFT训练框架，基于 accelerator + deepspeed + ring flash attention 实现。本项目实现了length-pack数据组 ...

1 月前

196 1

大模型SFT经验

本文转载自https://zhuanlan.zhihu.com/p/809229182，作者ybq。这篇文章介绍一下大模型的 sft 如何去做。相比较于上一篇文章介绍的 pretrain ，sft ...

7 月前

1,762 2

大模型预训练经验

本文转载自https://zhuanlan.zhihu.com/p/718354385，作者ybq。这篇文章介绍下如何从零到一进行 pretrain 工作。类似的文章应该有很多，不同的地方 ...

7 月前

1,818 4

百面大模型-9

什么是策略梯度？首先从文本生成角度简单介绍一下强化学习：因为状态-动作空间非常庞大，将强化学习应用于对话生成是一个巨大的挑战。在这种背景下，我们将人类交互视为“环境”。在每个时间步，代理（即AI ...

8 月前

755 5

百面大模型-8

大模型PPO中的奖励是什么？在强化学习的过程中，奖励通常只在序列结束时才会出现，其他中间步骤的奖励为 0，折扣因子为 1，为Reward Model输出的标量结果。为了防止模型被 Reward M ...

8 月前

858 4

百面大模型-7

DPO的损失函数是什么，第一步的loss为多少？ DPO的损失函数通常设计为最大化策略模型（即正在训练的模型）对偏好数据（chosen）和非偏好数据（rejected）之间的预测差异。具体来说，损失函 ...

8 月前

914 4

百面大模型-6

当前LLM的对齐过程通常分为SFT和RLHF两个阶段，我们是否有可能直接跳过SFT阶段而进入RLHF阶段？可以。论文ORPO: Monolithic Preference Optimizatio ...

8 月前

878 3

大模型¹⁶

迈向推理时代：900+篇参考文献揭示长链思维的前世今生，最全综述来了

什么样的偏好，才叫好的偏好？——揭秘偏好对齐数据的「三驾马车」

一个轻量但不失高效的DPO训练框架：OpenDPO

一个轻量但不失高效的SFT训练框架：OpenSFT

大模型SFT经验

大模型预训练经验

百面大模型-9

百面大模型-8

百面大模型-7

百面大模型-6

专题展示

大模型16

专题展示

大模型¹⁶