OpenSFT,顾名思义,一个开源的SFT训练框架,基于 accelerator + deepspeed + ring flash attention 实现。
本项目实现了length-pack数据组织逻辑,进一步增加了并行量;实现了序列并行下的分类loss统计,更好地监控各类别效果;新增了序列并行下的turn-loss,兼顾长短对话。
本训练框架非常轻量,易于学习和二次开发,欢迎star。
OpenSFT,顾名思义,一个开源的SFT训练框架,基于 accelerator + deepspeed + ring flash attention 实现。
本项目实现了length-pack数据组织逻辑,进一步增加了并行量;实现了序列并行下的分类loss统计,更好地监控各类别效果;新增了序列并行下的turn-loss,兼顾长短对话。
本训练框架非常轻量,易于学习和二次开发,欢迎star。
评论 (0)