【光电智造】一文读懂「RLHF」：基于人类反馈的强化学习

今日光电 2024-12-05 18:03 545浏览 0评论 0点赞

汽车用卸负载电阻低价方案 AI、GUI开发的工程师必修课，不容错过！

今日光电

有人说，20世纪是电的世纪，21世纪是光的世纪；知光解电，再小的个体都可以被赋能。追光逐电，光赢未来...欢迎来到今日光电！

----追光逐电光赢未来----

引言

在人工智能领域，尤其是自然语言处理（NLP）技术迅猛发展的今天，如何让机器更好地理解和满足人类的需求成为了一个关键问题。传统的训练方法依赖于大规模的语料库和基于规则的损失函数，但在处理复杂、主观和依赖上下文的任务时存在局限性。因此，基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，简称RLHF）应运而生，为模型的训练提供了一种新的思路。

什么是RLHF？

RLHF是一种结合了机器学习中的强化学习算法与人类主观判断的训练技术。这种方法旨在利用人类的直觉和判断力来指导人工智能系统学习更复杂、更贴近人类期望的行为模式，尤其是在自然语言处理（NLP）和决策制定等领域。

原理介绍

RLHF的训练过程可以分解为三个核心步骤：

1、预训练一个语言模型 (LM) ；

2、聚合问答数据并训练一个奖励模型 (Reward Model，RM) ；

3、用强化学习 (RL) 方式微调 LM。

Step 1：预训练语言模型+有标签数据微调（可选）

首先需要一个预训练语言模型，通过大量的语料去训练出基础模型。对于ChatGPT来说就是GPT-3。还有一个可选的Human Augmented Text，又叫Fine-tune。这里直白点说就是招人给问题（prompt）写示范回答（demonstration），然后给GPT-3上学习。

Step 2：训练奖励模型

我们需要一个模型来定量评判模型输出的回答在人类看来是否质量不错，即输入[提示(prompt)，模型生成的回答]，奖励模型输出一个能表示回答质量的标量数字。

Step 3：通过强化学习微调语言模型

基于强化学习（RL）去优化调整语言模型。利用 RM 输出的奖励，用强化学习方式微调优化 LM。具体来说，policy是给GPT输入文本后输出结果的过程（输出文本的概率分布），Action Space是词表所有token（可以简单理解为词语）在所有输出位置的排列组合，Observation space是可能输入的token序列，也就是Prompt。Reward Function则是基于上面第二步得到的奖励模型，配合一些策略层面的约束。