1、Reward Model都有哪些训练形式?
奖励模型是通过在人类偏好数据上进行训练来设计的,旨在对模型的输出质量进行判别。该模型给出的分数能够在一定程度上反映人类的偏好。一般而言,奖励模型是基于语言模型构建的,它模仿人类标注人员对模型生成内容进行质量评分的方式,实现对人类偏好分数的预测。具体来说,奖励模型利用线性变换头将语言模型最后一层的隐状态,从一个具有词嵌入维度大小的向量\mathbb{R}_d映射成一个标量分数\mathbb{R},这个标量分数被用作奖励模型对当前内容的打分。奖励模型的训练主要包括以下三种形式。
pointwise:标注者需根据给定的输入问题,为相应的输出赋予反馈分数。这些分数通常是离散的数值,代表输出与人类偏好的契合度。奖励模型的核心任务在于学习如何依据输入问题和模型输出进行准确评分,以确保其评分结果与人类的评分尽可能一致。为实现这一目标,通常将均方误差(Mean Square Error, MSE)作为打分式训练方法的目标函数,以优化模型评分性能。
\mathcal{L} = - \mathbb{E}_{(x,y,\tilde{r}) \sim \mathcal{D}} \left[ \left( r_{\theta}(x, y) - \tilde{r} \right)^2 \right]然而,人类偏好本质上具有一定的主观性,因此在实际应用中,需采用适当的方法来减少这种主观因素对模型输出评估的影响。
pairwise:训练方法相较于pointwise方法有所改进,能克服其不足。对于一个问题输入,标注者只需对两条输出进行排序,排序在前的视为正例(更受人类偏好),另一条则为负例。这种方式简化了标注过程,也提高了标注者间的一致性。训练时,常采用对比学习方法训练奖励模型,使其提高正例分数的同时降低负例分数,以最大化两者间的分数差异。以下是一个简化版的对比式训练方法的损失函数示例。
\mathcal{L} = -\mathbb{E}_{(x,y^+,y^-) \sim \mathcal{D}} \left[ \log \left(\sigma \left(r_{\theta}(x, y^+) - r_{\theta}(x, y^-)\right)\right) \right]listwise:排序式训练方法可以被看作是对比式训练方法的一种增强和深化。在这种方法中,对于给定的输入,人类标注者会根据他们的偏好,对多个模型生成的回复进行排序。这种排序不仅反映了标注者的偏好,还帮助我们明确了这些回复之间的相对优劣关系,即哪些回复更加贴近人类的价值观和标准。在优化过程中,奖励模型采用了与对比式方法相似但又有所增强的学习策略来进行打分。它不仅关注回复之间的对比,还通过排序信息来更细致地拟合人类的偏好和价值观。
假设我们有一个包含K个不同输出的集合D,且这K个输出已经根据人类的偏好进行了排序。奖励模型的训练损失函数可以表示为:
\mathcal{L} = - \frac{1}{K \choose 2} \mathbb{E}_{(x, y^+, y^-)} \left[ \log \left( \sigma \left( r_\theta (x, y^+) - r_\theta (x, y^-) \right) \right) \right]这样的排序信息在训练过程中起到了关键作用,它帮助奖励模型更准确地捕捉和拟合人类的偏好,从而生成更符合人类价值观的回复。
2、优化Reward Model效果时都有哪些策略?
评论 (0)