1、Reward Model都有哪些训练形式?

奖励模型是通过在人类偏好数据上进行训练来设计的,旨在对模型的输出质量进行判别。该模型给出的分数能够在一定程度上反映人类的偏好。一般而言,奖励模型是基于语言模型构建的,它模仿人类标注人员对模型生成内容进行质量评分的方式,实现对人类偏好分数的预测。具体来说,奖励模型利用线性变换头将语言模型最后一层的隐状态,从一个具有词嵌入维度大小的向量\mathbb{R}_d映射成一个标量分数\mathbb{R},这个标量分数被用作奖励模型对当前内容的打分。奖励模型的训练主要包括以下三种形式。

pointwise:标注者需根据给定的输入问题,为相应的输出赋予反馈分数。这些分数通常是离散的数值,代表输出与人类偏好的契合度。奖励模型的核心任务在于学习如何依据输入问题和模型输出进行准确评分,以确保其评分结果与人类的评分尽可能一致。为实现这一目标,通常将均方误差(Mean Square Error, MSE)作为打分式训练方法的目标函数,以优化模型评分性能。

\mathcal{L} = - \mathbb{E}_{(x,y,\tilde{r}) \sim \mathcal{D}} \left[ \left( r_{\theta}(x, y) - \tilde{r} \right)^2 \right]

然而,人类偏好本质上具有一定的主观性,因此在实际应用中,需采用适当的方法来减少这种主观因素对模型输出评估的影响。

pairwise:训练方法相较于pointwise方法有所改进,能克服其不足。对于一个问题输入,标注者只需对两条输出进行排序,排序在前的视为正例(更受人类偏好),另一条则为负例。这种方式简化了标注过程,也提高了标注者间的一致性。训练时,常采用对比学习方法训练奖励模型,使其提高正例分数的同时降低负例分数,以最大化两者间的分数差异。以下是一个简化版的对比式训练方法的损失函数示例。

\mathcal{L} = -\mathbb{E}_{(x,y^+,y^-) \sim \mathcal{D}} \left[ \log \left(\sigma \left(r_{\theta}(x, y^+) - r_{\theta}(x, y^-)\right)\right) \right]

listwise:排序式训练方法可以被看作是对比式训练方法的一种增强和深化。在这种方法中,对于给定的输入,人类标注者会根据他们的偏好,对多个模型生成的回复进行排序。这种排序不仅反映了标注者的偏好,还帮助我们明确了这些回复之间的相对优劣关系,即哪些回复更加贴近人类的价值观和标准。在优化过程中,奖励模型采用了与对比式方法相似但又有所增强的学习策略来进行打分。它不仅关注回复之间的对比,还通过排序信息来更细致地拟合人类的偏好和价值观。

假设我们有一个包含K个不同输出的集合D,且这K个输出已经根据人类的偏好进行了排序。奖励模型的训练损失函数可以表示为:

\mathcal{L} = - \frac{1}{K \choose 2} \mathbb{E}_{(x, y^+, y^-)} \left[ \log \left( \sigma \left( r_\theta (x, y^+) - r_\theta (x, y^-) \right) \right) \right]

这样的排序信息在训练过程中起到了关键作用,它帮助奖励模型更准确地捕捉和拟合人类的偏好,从而生成更符合人类价值观的回复。

2、优化Reward Model效果时都有哪些策略?

目标函数优化在训练大规模奖励模型时,有时会遇到过拟合问题。为了解决这一问题,可以将最佳的模型输出所对应的语言模型损失作为正则项,从而缓解奖励模型在二元分类任务上的过拟合问题。因此,可以在pairwise方法的损失函数上增加模仿学习(Imitation Learning)的损失函数,即奖励模型在学习最大化正负例分数差距的同时也学习基于输入x生成正例y+
\mathcal{L} = -\mathbb{E}_{(x,y^+,y^-) \sim \mathcal{D}} \left[ \log \left(\sigma \left(r_{\theta}(x, y^+) - r_{\theta}(x, y^-)\right)\right) \right]-\beta \mathbb{E}_{(x,y^+,y^-) \sim \mathcal{D}} \left[ {\textstyle \sum_{t=1}^{T}(logp(y^+|x,y^+_{<t}))} \right]
Base模型选择:尽管InstructGPT采用了一个规模较小的奖励模型(即6B参数的GPT-3模型),但一般而言,使用规模更大(如与原始模型尺寸相等或更大)的奖励模型能更出色地评估模型输出质量,提供更为精准的反馈信号。特别值得一提的是,LLaMA-2在训练过程中采取了独特的策略:它利用相同的检查点来初始化待对齐的语言模型和奖励模型。由于奖励模型与待对齐模型共享相同的预训练知识,这一方法显著减少了两者之间的信息不匹配问题,从而有效增强了模型的对齐效果。
多模型:由于对齐存在多个标准(例如有用性和诚实性),单一奖励模型很难满足所有对齐标准。因此,可以针对不同对齐标准训练多个特定的Reward Model,然后使用特定的组合策略(例如取平均值或加权平均)计算基于这些奖励模型的最终奖励。