27
2025/03
一个轻量但不失高效的DPO训练框架:OpenDPO
DPO的损失函数可以做如下恒等变换,可以发现蓝色框中的结果是一个可以预计算的常数。因此,在使用DPO进行优化时,我们完全可以离线计算常数部分,在线只需要加载进行训练,这样和sft的训练相差无几。
根据
...