
Wayne
分享机器学习知识
23
文章
0
评论
138
获赞
一个轻量但不失高效的DPO训练框架:OpenDPO
DPO的损失函数可以做如下恒等变换,可以发现蓝色框中的结果是一个可以预计算的常数。因此,在使用DPO进行优化时,我们完全可以离线计算常数部分,在线只需要加载进行训练,这样和sft的训练相差无几。
根据
...
一个轻量但不失高效的SFT训练框架:OpenSFT
OpenSFT,顾名思义,一个开源的SFT训练框架,基于 accelerator + deepspeed + ring flash attention 实现。
本项目实现了length-pack数据组
...
蒙特卡洛法近似KL散度的艺术:从有偏估计到零方差优化
在强化学习和概率建模的世界里,KL散度如同一位沉默的裁判,默默地衡量着两个概率分布之间的差异。然而,当面对高维空间或复杂分布时,KL散度的计算常常令人望而却步。本文将揭示一种优雅的近似方法,利用蒙特卡
...
反向 KL 散度与正向 KL 散度
给定两个分布 ,它们可能在相同的变量 上定义,但其分布形状各异。两者之间的距离可以通过 相对熵 (Relative Entropy) 来度量,其定义如下:
或者在连续情形下为:
其中:
1. 该指标
...