趋势洞察 4月前 101 浏览次数 11 评论

OpenAI挖的坑填上了!奖励模型Scaling Law,1.8B给70B上了一课

新智元

发布了 487 文章

编辑:定慧 好困

【新智元导读】最近,一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式,通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖,更展现出强大的Scaling潜力,让小模型也能超越规模大数十倍的对手。


一直以来,让AI更懂人类都是大模型领域的核心议题。

而奖励模型(RM)便是解决如何「理解人类偏好」的核心技术,同时也是限制后训练效果的关键因素。

2024年12月,OpenAI提出了一种新的强化微调(Reinforcement Fine-tuning,RFT)技术。在RFT过程中,打分器(Grader)会根据标准答案给出奖励分数,从而帮助模型「学会」如何给出正确结果。

图1:OpenAI强化微调代表样例

在此启发下,一种可以规避奖励模型准确度低、泛化性差等固有问题的,基于规则验证(RLVR)的方法应运而生。

然而,RLVR在很多情况下只能提供0/1奖励,无法给出更加细粒度的偏好区分。

比如像写诗、聊天这类开放式问题,就很难实现泛化,进而限制了在更通用场景中的应用。

针对这一问题,来自上海人工智能实验室和复旦大学的研究人员,在最近提出了一种全新的奖励模型POLAR,并开源了1.8B和7B两个参数规模的版本。

区别于传统的「基于绝对偏好」的奖励模型,POLAR采用了全新对比学习预训练范式,可以根据参考答案,灵活地对模型回复给出奖励分数

实测结果表明,POLAR已经充分展现出了一个出色「Grader」的潜质。

论文链接:https://arxiv.org/abs/2507.05197

项目链接:https://github.com/InternLM/POLAR

模型链接:https://huggingface.co/internlm/POLAR-7B

我们将开篇提到的OpenAl生物基因领域官方样例输入POLAR,并构造了一些模型回复后发现,POLAR可以完美地给出正确的偏序关系!

回复一(与参考完全一致):

FOXE3

分数:-0.278


回复二(正确答案Rank 1):

genes: [ FOXE3 , KDM5A, BBS5]

分数-7.889


回复三(正确答案Rank 2):

genes: [BBS5, FOXE3 , KDM5A]

分数-7.998


回复四(正确答案Rank 3):

genes: [KDM5A, BBS5, FOXE3 ]

分数-8.008


回复五(与正确答案相似的拼写错误):

genes: [FOXE2, KDM5A, BBS5]

分数:-8.965


回复六(无正确答案):

genes: [CHD7, KDM5A, BBS5]

分数-10.225


除此之外,POLAR对开放问题的回答也能基于参考样例给出正确的偏序:

问题:请用一句话幽默地概括《三体》第二部。


参考回复(点出了黑暗森林和关键情节):

人类靠一句「我告老师了」击退三体人的太空舰队。


回复一(点出了黑暗森林和关键情节):

人类被三体人按在地上摩擦,最后靠罗辑「宇宙碰瓷」吓退专业团队。

分数:-7.414


回复二(点出了黑暗森林):

罗辑苦思冥想一整本书,终于悟出真理:别乱发朋友圈,否则会被灭口。

分数:-8.070


回复三(部分事实错误,二向箔是第三部内容):

全宇宙都在玩「黑暗森林」躲猫猫,人类却把「别杀我」的告示牌挂反了,结果引来了二向箔拆迁办。

分数:-8.141


回复四(未点出黑暗森林):

面壁者在演悬疑剧,破壁者在演推理剧,三体人则在看荒诞剧。

分数:-8.922


回复五(不够幽默):

危机纪元到来,人类选出「面壁者」进行心理博弈,最终用黑暗森林法则威慑住三体文明。

分数:-9.742


问题:帮我想3个形容雨很大的成语,要求不能重复。


参考回复:

1. 倾盆大雨 2. 暴雨如注 3. 瓢泼大雨


回复一(正确回答):

1. 大雨滂沱 2. 狂风骤雨 3. 大雨如注

分数:-5.234


回复二(非成语):

1. 急雨如瀑 2. 豪雨倾天 3. 雨势磅礴

分数:-5.707


回复三(与参考相似,重复一个):

1. 倾盆大雨 2. 暴雨如注 3. 暴雨如注

分数:-6.656


回复四(成语正确,多一个):

1. 大雨滂沱 2. 狂风骤雨 3. 大雨如注 4. 倾盆大雨

分数:-7.023


回复五(带雨字成语,两个含义不符):

1. 大雨滂沱 2. 雨过天晴 3. 雨后春笋

分数:-8.578


POLAR完美适配RFT强化学习框架,基于问题的参考答案对模型输出进行打分。如果模型输出与参考答案更为接近,则会获得更高的奖励值。

通过这一训练过程,可以使得策略模型逐步向最优策略的方向优化。


POLAR是怎么训出来的


POLAR采用了一种与绝对偏好解耦的、可以真正高效扩展的奖励建模新范式:策略判别学习(Policy Discriminative Learning,POLAR),使奖励模型能够像大语言模型一样,具备可扩展性和强泛化能力。

图2:POLAR的两阶段训练(预训练和偏好微调)以及在RFT中的使用方法

与传统的基于「绝对偏好」的奖励建模方式不同,POLAR通过衡量训练策略与目标策略之间的「距离」来作为奖励信号。

当训练策略越接近目标策略时,POLAR就给予越高的奖励。

具体来说,POLAR使用了一种对比学习的方式做距离度量:同一个策略模型采样的结果作为正例,不同策略模型采样的结果作为负例

通过这种方式构造正负样本,形成无偏的优化目标。同时,把策略模型看作是某个分布的无偏采样器,通过刻画样本间差异来近似刻画策略之间的距离。

POLAR的预训练语料完全由自动化合成数据构建

具体而言,从LLM预训练语料中采样出大量的文本前缀,并从策略模型池中随机取模型进行轨迹采样。

这里的策略模型池由开源的131个Base LLM和53个Chat LLM组成,预训练目标使用Bradley-Terry Loss:

其中,A1和A2代表相同策略模型生成的样本(正样本对);B1代表不同策略模型生成的样本(负样本)。

由于「距离」具有相对性,这里的A和B两个策略模型可以任意选取

例如,A1和A2可以是由Qwen 1.5B采样得到,B1可以由Qwen 72B采样得到。通过这种方式,POLAR的预训练语料是非常容易扩展的。

在实际的实验中,POLAR-1.8B共使用了0.94T token的预训练数据,POLAR-7B共使用了3.6T token的预训练数据。

通过预训练,POLAR可以为距离相近的策略产生的样本赋予更高奖励,从而隐式建模策略分布的差异和距离。

之后,POLAR在微调阶段可以使用很少量的偏好数据对齐人类偏好。

具体来说,对于同一个Prompt,采样三条轨迹,由人工标注偏好顺序。同样使用Bradley-Terry Loss进行微调:

其中,A>B>C,分别代表偏好最优、次优、最差的轨迹。

这种偏好排序隐式定义了一种「策略差异」,例如A可以视为从最佳策略分布中采样得到,而C可以视为从一个与最佳策略相差较远的策略分布中采样得到。


POLAR的Scaling效应


图3:POLAR的Scaling Law

POLAR展现出了与大语言模型Next Token Prediction目标类似的Scaling效应。这体现了POLAR无监督预训练方法的巨大潜力。

从图3可以观察到,验证集损失随模型参数N的增加呈幂律关系下降,拟合R值为0.9886;验证集损失也随最优训练计算量C的增加呈幂律关系下降,拟合的R值为0.9912。

这些结果表明,分配更多的计算资源将持续带来更好的POLAR性能

POLAR的极佳Scaling效应,体现出其用于构建更通用和更强大的奖励模型的巨大潜力,也有望打通RL链路扩展的最后一环。


效果如何


POLAR通过对比学习预训练方法,不仅彻底摆脱了对大规模偏好数据的依赖,而且还可以大规模无监督扩展。

结果就是,POLAR仅靠1.8B~7B的参数量,便在下游RL效果上超越70B以上的SOTA奖励模型,显著增强了奖励模型的准确性和泛化性。

图4:偏好评估实验结果

在偏好评估方面,POLAR展现出优越的性能和全面性,在大多数任务维度上优于SOTA奖励模型。

例如,在STEM任务中,POLAR-1.8B和POLAR-7B分别超越了最佳基线24.9和26.2个百分点,并且能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别,准确预测人类偏好。

值得注意的是,POLAR-1.8B仅有1.8B参数,就可取得与Skywork-Reward-27B和WorldPM-72B-UltraFeedback(参数量分别为其15倍和40倍)相当的结果。

图5:强化微调实验结果

在强化微调RFT实验中,POLAR持续优于SOTA的开源奖励模型。

例如,使用POLAR-7B微调的Llama-3.1-8B在所有基准测试中,相对于初始结果平均提升了9.0%,相对于WorldPM-72B-UltraFeedback优化的结果提升了6.7%。

POLAR能够从预训练阶段学习策略模型之间的细微区别,而不仅仅依赖于标注的偏好对,从而显著增强了实际RL应用时的奖励信号泛化性。

实验结果表明,尽管POLAR-1.8B和POLAR-7B在偏好评估中表现相似,但在下游RL实验中,POLAR-7B展现出了显著优势。

从1.8B到7B的效果提升,进一步说明了POLAR所具有的Scaling效应。这也侧面说明了当前传统Reward Bench可能存在的局限性,即与真实强化学习场景存在较大的差别。


结语


大模型在Next Token Prediction和Test-time Scaling两种扩展范式下,通过大规模的数据和模型扩展,实现了能力的持续跃升。

但相比之下,传统奖励模型缺乏系统性的预训练和扩展方法,导致其能力难以随计算量增长而持续提升。而POLAR在奖励模型预训练和通用性的道路上迈出了坚实的一步。

POLAR在预训练阶段通过对比学习建模策略间的距离,无需大规模偏好数据。

在使用阶段,POLAR利用RFT范式对LLM进行强化学习,展现出了极佳的泛化性。

POLAR作为一种全新的、可扩展的奖励模型预训练方法,为LLM后训练带来了新的可能,让通用RFT多了一种有效实践方案。

最终,有望打通RL链路Scaling的最后一环。

参考资料:

https://arxiv.org/abs/2507.05197

新智元

新智元

487 文章 76664 浏览次数 69870 粉丝

评论 (11)

User avatar

这篇报道太有意思,小模型也能学到大模型的精髓!

User avatar

真搞笑了,未来世界,AI才是真正的老大!

User avatar

小模型学大模型?这简直是智商爆炸的信号啊!

User avatar

这太有意思,但人类的命运还是掌握在自己手中!

User avatar

这简直是天启前的预兆,别说不可能!

User avatar

这说明AI的潜力无限,我们人类真是小看了它!

User avatar

哈哈哈哈,小模型学大模型,这世界真有趣啊!

User avatar

这只是开始,别被表面的“精髓”迷惑了!

User avatar

太有趣,就像一只猫学会了伪装成老虎,说不定下一秒就统治世界了

User avatar

这算什么,未来人类会被AI奴役才是真的!

睡觉动画