综合RLHF_DPO_KTO优势,统一对齐框架UNA来了
原标题:综合RLHF_DPO_KTO优势,统一对齐框架UNA来了
导读:
直播吧月日讯哈弗茨和女友索菲娅韦伯本周举行了婚礼二人的社交媒体上共同晒出了婚礼照片索菲娅韦伯是一名模特哈弗茨与她相识于年两人在去年的月份宣布订婚专栏是机器之心发布学术技术内容的...
直播吧7月21日讯 哈弗茨和女友索菲娅-韦伯本周举行了婚礼,二人的社交媒体上共同晒出了婚礼照片。索菲娅-韦伯是一名模特,哈弗茨与她相识于2018年,两人在去年的7月份宣布订婚。...
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的 实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文主要作者:
1. 王智超:本科就读于厦门大学土木工程系,研究生博士就读于佐治亚理工并获得土木工程和计算机工程硕士及机械工程博士,现任职于 Sale orce,专注于 LLM Alignment。
2. 闭彬:本科就读于华中科技大学计算机工程系,研究生就读于香港大学计算机科学系,博士就读于 UCLA 计算机科学系,现任职于 Sale orce,专注于 LLM Alignment。
3. 黄灿:厦门大学数学系副教授
随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。即便如此,LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出,常常导致不准确、 合语境或不合伦理的回答。为了 这一问题,学术界和工业界提出了一系列对齐(Alignment)技术,旨在优化模型的输出,使其更加符合人类的价值观和期望。
RLHF 是一种广泛使用的方法,依赖于从人类反馈中学习强化策略。RLHF 的流程包括两个阶段:通过人类偏好数据训练奖励模型(Reward Model, RM),然后使用该奖励模型指导策略模型(Policy Model)的强化学习优化。RLHF 存在若干显著问题,如高内存占用、训练不稳定以及流程复杂等。
为了 RLHF 的复杂性,DPO 方法被提出。DPO 简化了 RLHF 的流程,将强化学习的训练阶段转化为一个二分类问题,减少了内存消耗并提高了训练稳定性。但 DPO 无法充分利用奖励模型,且仅适用于成对的偏好数据,无法处理更为广泛的反馈类型。
KTO 进一步扩展了 DPO,能够处理二元数据(如正向和负向反馈),但它同样有其局限性,无法统一处理不同类型的反馈数据,也无法有效利用已有的奖励模型。
在这种背景下,来自 Sale orce、厦门大学的研究团队提出了一种名为 UNA 的新方法,它通过一种通用的隐式奖励函数,统一了当前主流的大规模语言模型(LLM)对齐技术。主要包括 RLHF、DPO 和 KTO,这些技术的结合不仅简化了模型的训练流程,还提高了模型对齐的性能,稳定性和效率。
论文标题:UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function
论文地址:https://arxiv.org/abs/2408.15339
UNA 的创新点
UNA 的核心创新点在于通过一个(generalized implicit reward function)将 RLHF、DPO 和 KTO 统一为一个 学习问题。UNA 的创新体现在以下几个方面:
推导通用的隐式奖励函数:UNA 通过使用 RLHF 的目标函数推导出一个通用的隐式奖励函数。
简化 RLHF 的流程:UNA 将传统 RLHF 中不稳定且资源密集的强化学习过程转化为一个稳定的 学习过程,减少了训练的不稳定性和对内存的需求。
多种反馈数据的支持:UNA 能够处理不同类型的反馈数据,包括成对反馈( irwise feedback)、二元反馈(binary feedback)以及基于 的反馈(score-based feedback)。
学习框架的统一性:UNA 通过最小化隐式奖励和显式奖励之间的差异,统一了对策略模型的优化。
UNA 的理论基础
UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明,给定 RLHF 的经典目标函数, 策略可以通过一个隐式的奖励函数来诱导。该隐式奖励函数是策略模型与参考策略之间的对比结果,通过这个函数,UNA 能够将不同类型的奖励信息整合到统一的框架中进行处理。
实验结果与性能表现
研究人员通过一系列实验验证了 UNA 的有效性和优越性。在多个下游任务中,UNA 相较于传统的 RLHF、DPO 和 KTO 都有显著的性能提升,特别是在训练速度、内存占用和任务表现等方面。以下是实验结果的主要亮点:
任务表现:在多个语言理解任务和生成任务中,UNA 的表现优于 RLHF 和 DPO。在 Huggingface 的 Open LLM Leadboard 数据集上的 中,UNA 在多个评价指标上超越了 RLHF 和 DPO,表现出了更强的对齐能力和任务适应性。
训练速度:由于 UNA 将 RLHF 中的强化学习任务转化为一个 学习问题,其训练速度提高了近一倍。
内存占用:UNA 的内存消耗显著低于 RLHF。由于 UNA 不再需要维护多个模型(如策略模型、参考策略、奖励模型和价值模型),其内存占用大幅减少,尤其在处理大规模模型时,这种优势尤为明显。
UNA 的提出标志着大规模语言模型对齐技术的一个重要进展。通过统一 RLHF、DPO 和 KTO,UNA 不仅简化了模型的训练流程,还提高了训练的稳定性和效率。其通用的隐式奖励函数为模型的对齐提供了一个统一的框架,使得 UNA 在处理多样化反馈数据时具有更强的适应性和灵活性。实验结果表明,UNA 在多个下游任务中表现优越,为语言模型的实际应用提供了新的可能性。未来,随着 UNA 的进一步发展,预期它将在更多的应用场景中展现出强大的能力。