27

2025/03

一个轻量但不失高效的DPO训练框架：OpenDPO

DPO的损失函数可以做如下恒等变换，可以发现蓝色框中的结果是一个可以预计算的常数。因此，在使用DPO进行优化时，我们完全可以离线计算常数部分，在线只需要加载进行训练，这样和sft的训练相差无几。根据 ...

6 天前

31 0