AI人工智能讲师大模型AIGC讲师叶梓老师之RL究竟是如何与LLM做结合的？

2024-01-04 13:10阅读：

http://blog.sina.cn/dpool/blog/u/3239269453

深度学习自然语言处理分享知乎：何枝[1] (编辑：马景锐)原文链接https://mp.weixin.qq.com/s/Vp1s7ntBPDcaIdRy5eqGyQ
RLHF 想必今天大家都不陌生，但在 ChatGPT 问世之前，将 RL 和 LM 结合起来的任务非常少见。这就导致此前大多做 RL 的同学不熟悉 Language Model（GPT）的概念，而做 NLP 的同学又不太了解 RL 是如何优化的。在这篇文章中，我们将简单介绍 LM 和 RL 中的一些概念，并分析 RL 中的「序列决策」是如何作用到 LM 中的「句子生成」任务中的，希望可以帮助只熟悉 NLP 或只熟悉 RL 的同学更快理解 RLHF 的概念。
强化学习（Reinforcement Learning, RL）的核心概念可简单概括为：一个机器人（Agent）在看到了一些信息（Observation）后，自己做出一个决策（Action），随即根据采取决策后得到的反馈（Reward）来进行自我学习（Learning）的过程。
光看概念或许有些抽象，我们举个例子：现在有一个机器人找钻石的游戏，机器人每次可以选择走到相邻的格子，如果碰到火焰会被烧死，如果碰到钻石则通关。
在这个游戏中，机器人（Agent）会根据当前自己的所在位置（Observation），做出一次行为选择（Action）：
通过这个例子我们可以看出，RL 的最终目标其实就是要让机器人（Agent）学会：在一个给定「状态」下，选择哪一个「行为」是最优的。
一种很直觉的思路就是：我们让机器人不断的去玩游戏，当它每次选择一个行为后，如果这个行为得到了「正奖励」，那么下次就多选择这个行为；如果选择行为得到了「负惩罚」，那么下次就少选择这个行为。
为了实现「多选择得分高的行为，少选择得分低的行为」，早期存在 2 种不同的流派：Policy Based 和 Value Based。
其实简单来说，这 2 种流派的最大区别就是在于将行为量化为「概率」还是「值」，具体来讲：
关于这 2 种流派的更多训练细节在这里就不再展开，如果感兴趣可以看看比较出名的代表算法：[Policy Gradient]（Policy Based）和 [Q-Learning]（Valu

新浪博客

AI人工智能讲师大模型AIGC讲师叶梓老师之RL究竟是如何与LLM做结合的？

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼