fbpx
维基百科

强化学习

强化学习(英語:Reinforcement learning,簡稱RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益[1]。强化学习是除了监督学习非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡[2],强化学习中的“探索-利用”的交换,在多臂老虎机英语multi-armed bandit问题和有限MDP中研究得最多。

其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论控制论运筹学信息论、仿真优化、多智能体系统群体智能统计学以及遗传算法。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。在最优控制理论中也有研究这个问题,虽然大部分的研究是关于最优解的存在和特性,并非是学习或者近似方面。在经济学博弈论中,强化学习被用来解释在有限理性的条件下如何出现平衡。

在机器学习问题中,环境通常被抽象为马尔可夫决策过程(Markov decision processes,MDP),因为很多强化学习算法在这种假设下才能使用动态规划的方法[3]。传统的动态规划方法和强化学习算法的主要区别是,后者不需要关于MDP的知识,而且针对无法找到确切方法的大规模MDP。[4]

介绍

 
强化学习的典型框架:智能体在环境中采取一种行为,环境将其转换为一次回报和一种状态表示,随后反馈给智能体。

由于其通用性很强,强化学习已经在诸如博弈论控制论运筹学信息论、仿真优化、多智能体、群体智能统计学等领域有了深入研究。在运筹学和控制文献中,强化学习被称为近似动态规划神经动态规划。强化学习所感兴趣的问题在最优控制(一种关注最优解的存在性、表示和求解的理论,但较少涉及学习和近似)中也有所研究,尤其是环境的数学模型难以求得的时候。在经济学和博弈论中,强化学习可能被用来解释在有限的理性(rationality)下如何达到平衡状态。

基本的强化学习被建模为马尔可夫决策过程:

  1. 环境状态的集合 ;
  2. 动作的集合 ;
  3. 在状态之间转换的规则(转移概率矩阵) 
  4. 规定转换后“即时奖励”的规则(奖励函数) 
  5. 描述主体能够观察到什么的规则。

规则通常是随机的。主体通常可以观察即时奖励和最后一次转换。在许多模型中,主体被假设为可以观察现有的环境状态,这种情况称为“完全可观测”(full observability),反之则称为“部分可观测”(partial observability)。通常,主体被允许的动作是有限的,例如,在棋盤中棋子只能上、下、左、右移動,或是使用的钱不能多于所拥有的。

强化学习的主体与环境基于离散的时间步作用。在每一个时间 ,主体接收到一个观测 ,通常其中包含奖励 。然后,它从允许的集合中选择一个动作 ,然后送出到环境中去。环境则变化到一个新的状态 ,然后决定了和这个变化 相关联的奖励 。强化学习主体的目标,是得到尽可能多的奖励。主体选择的动作是其历史的函数,它也可以选择随机的动作。

将这个主体的表现和自始自终以最优方式行动的主体相比较,它们之间的行动差异产生了“悔过”的概念。如果要接近最优的方案来行动,主体必须根据它的长时间行动序列进行推理:例如,要最大化我的未来收入,我最好现在去上学,虽然这样行动的即时货币奖励为负值。

因此,强化学习对于包含长期反馈的问题比短期反馈的表现更好。它在许多问题上得到应用,包括机器人控制、电梯调度、电信通讯、双陆棋西洋跳棋[5]

强化学习的强大能力来源于两个方面:使用样本来优化行为,使用函数近似来描述复杂的环境。它们使得强化学习可以使用在以下的复杂环境中:

  • 模型的环境已知,且解析解不存在;
  • 仅仅给出环境的模拟模型(模拟优化方法的问题)[6]
  • 从环境中获取信息的唯一办法是和它互动。前两个问题可以被考虑为规划问题,而最后一个问题可以被认为是genuine learning问题。使用强化学习的方法,这两种规划问题都可以被转化为机器学习问题。

常用算法

探索机制

强化学习需要比较聪明的探索机制,直接随机的对动作进行采样的方法性能比较差。虽然小规模的马氏过程已经被认识的比较清楚,这些性质很难在状态空间规模比较大的时候适用,这个时候相对简单的探索机制是更加现实的。

其中的一种方法就是  -貪婪演算法,这种方法会以比较大的概率(1- )去选择现在最好的动作。如果没有选择最优动作,就在剩下的动作中随机选择一个。  在这里是一个可调节的参数,更小的   意味着算法会更加贪心。[7]

参考文献

  1. ^ Hu, J.; Niu, H.; Carrasco, J.; Lennox, B.; Arvin, F. . IEEE Transactions on Vehicular Technology. 2020, 69 (12): 14413-14423 [2021-03-21]. (原始内容存档于2021-08-13). 
  2. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research. 1996, 4: 237–285. S2CID 1708582. arXiv:cs/9605103 . doi:10.1613/jair.301. (原始内容存档于2001-11-20). 
  3. ^ van Otterlo, M.; Wiering, M. Reinforcement Learning and Markov Decision Processes. Reinforcement Learning. Adaptation, Learning, and Optimization 12. 2012: 3–42. ISBN 978-3-642-27644-6. doi:10.1007/978-3-642-27645-3_1. 
  4. ^ 强化学习:原理与Python实现. 北京. 2019: 16–19. ISBN 9787111631774. 
  5. ^ Sutton1998|Sutton and Barto 1998 Chapter 11
  6. ^ Gosavi, Abhijit. Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Springer. 2003 [2015-08-19]. ISBN 1-4020-7454-9. (原始内容于2012-06-15). 
  7. ^ Tokic, Michel; Palm, Günther, Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax, KI 2011: Advances in Artificial Intelligence (PDF), Lecture Notes in Computer Science 7006, Springer: 335–346, 2011 [2018-09-03], ISBN 978-3-642-24455-1, (原始内容 (PDF)于2018-11-23) 

强化学习, 英語, reinforcement, learning, 簡稱rl, 是机器学习中的一个领域, 强调如何基于环境而行动, 以取得最大化的预期利益, 是除了监督学习和非监督学习之外的第三种基本的机器学习方法, 与监督学习不同的是, 不需要带标签的输入输出对, 同时也无需对非最优解的精确地纠正, 其关注点在于寻找探索, 对未知领域的, 和利用, 对已有知识的, 的平衡, 中的, 探索, 利用, 的交换, 在多臂老虎机, 英语, multi, armed, bandit, 问题和有限mdp中研究得最多, 其灵. 强化学习 英語 Reinforcement learning 簡稱RL 是机器学习中的一个领域 强调如何基于环境而行动 以取得最大化的预期利益 1 强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法 与监督学习不同的是 强化学习不需要带标签的输入输出对 同时也无需对非最优解的精确地纠正 其关注点在于寻找探索 对未知领域的 和利用 对已有知识的 的平衡 2 强化学习中的 探索 利用 的交换 在多臂老虎机 英语 multi armed bandit 问题和有限MDP中研究得最多 其灵感来源于心理学中的行为主义理论 即有机体如何在环境给予的奖励或惩罚的刺激下 逐步形成对刺激的预期 产生能获得最大利益的习惯性行为 这个方法具有普适性 因此在其他许多领域都有研究 例如博弈论 控制论 运筹学 信息论 仿真优化 多智能体系统 群体智能 统计学以及遗传算法 在运筹学和控制理论研究的语境下 强化学习被称作 近似动态规划 approximate dynamic programming ADP 在最优控制理论中也有研究这个问题 虽然大部分的研究是关于最优解的存在和特性 并非是学习或者近似方面 在经济学和博弈论中 强化学习被用来解释在有限理性的条件下如何出现平衡 在机器学习问题中 环境通常被抽象为马尔可夫决策过程 Markov decision processes MDP 因为很多强化学习算法在这种假设下才能使用动态规划的方法 3 传统的动态规划方法和强化学习算法的主要区别是 后者不需要关于MDP的知识 而且针对无法找到确切方法的大规模MDP 4 目录 1 介绍 2 常用算法 3 探索机制 4 参考文献介绍 编辑 强化学习的典型框架 智能体在环境中采取一种行为 环境将其转换为一次回报和一种状态表示 随后反馈给智能体 由于其通用性很强 强化学习已经在诸如博弈论 控制论 运筹学 信息论 仿真优化 多智能体 群体智能和统计学等领域有了深入研究 在运筹学和控制文献中 强化学习被称为近似动态规划或神经动态规划 强化学习所感兴趣的问题在最优控制 一种关注最优解的存在性 表示和求解的理论 但较少涉及学习和近似 中也有所研究 尤其是环境的数学模型难以求得的时候 在经济学和博弈论中 强化学习可能被用来解释在有限的理性 rationality 下如何达到平衡状态 基本的强化学习被建模为马尔可夫决策过程 环境状态的集合S displaystyle S 动作的集合A displaystyle A 在状态之间转换的规则 转移概率矩阵 P displaystyle P 规定转换后 即时奖励 的规则 奖励函数 R displaystyle R 描述主体能够观察到什么的规则 规则通常是随机的 主体通常可以观察即时奖励和最后一次转换 在许多模型中 主体被假设为可以观察现有的环境状态 这种情况称为 完全可观测 full observability 反之则称为 部分可观测 partial observability 通常 主体被允许的动作是有限的 例如 在棋盤中棋子只能上 下 左 右移動 或是使用的钱不能多于所拥有的 强化学习的主体与环境基于离散的时间步作用 在每一个时间t displaystyle t 主体接收到一个观测o t displaystyle o t 通常其中包含奖励r t displaystyle r t 然后 它从允许的集合中选择一个动作a t displaystyle a t 然后送出到环境中去 环境则变化到一个新的状态s t 1 displaystyle s t 1 然后决定了和这个变化 s t a t s t 1 displaystyle s t a t s t 1 相关联的奖励r t 1 displaystyle r t 1 强化学习主体的目标 是得到尽可能多的奖励 主体选择的动作是其历史的函数 它也可以选择随机的动作 将这个主体的表现和自始自终以最优方式行动的主体相比较 它们之间的行动差异产生了 悔过 的概念 如果要接近最优的方案来行动 主体必须根据它的长时间行动序列进行推理 例如 要最大化我的未来收入 我最好现在去上学 虽然这样行动的即时货币奖励为负值 因此 强化学习对于包含长期反馈的问题比短期反馈的表现更好 它在许多问题上得到应用 包括机器人控制 电梯调度 电信通讯 双陆棋和西洋跳棋 5 强化学习的强大能力来源于两个方面 使用样本来优化行为 使用函数近似来描述复杂的环境 它们使得强化学习可以使用在以下的复杂环境中 模型的环境已知 且解析解不存在 仅仅给出环境的模拟模型 模拟优化方法的问题 6 从环境中获取信息的唯一办法是和它互动 前两个问题可以被考虑为规划问题 而最后一个问题可以被认为是genuine learning问题 使用强化学习的方法 这两种规划问题都可以被转化为机器学习问题 常用算法 编辑蒙特卡洛学习 Monte Carlo Learning Temporal Difference Learning SARSA算法 Q学习探索机制 编辑强化学习需要比较聪明的探索机制 直接随机的对动作进行采样的方法性能比较差 虽然小规模的马氏过程已经被认识的比较清楚 这些性质很难在状态空间规模比较大的时候适用 这个时候相对简单的探索机制是更加现实的 其中的一种方法就是 ϵ displaystyle epsilon 貪婪演算法 这种方法会以比较大的概率 1 ϵ displaystyle epsilon 去选择现在最好的动作 如果没有选择最优动作 就在剩下的动作中随机选择一个 ϵ displaystyle epsilon 在这里是一个可调节的参数 更小的 ϵ displaystyle epsilon 意味着算法会更加贪心 7 参考文献 编辑 Hu J Niu H Carrasco J Lennox B Arvin F Voronoi Based Multi Robot Autonomous Exploration in Unknown Environments via Deep Reinforcement Learning IEEE Transactions on Vehicular Technology 2020 69 12 14413 14423 2021 03 21 原始内容存档于2021 08 13 Kaelbling Leslie P Littman Michael L Moore Andrew W Reinforcement Learning A Survey Journal of Artificial Intelligence Research 1996 4 237 285 S2CID 1708582 arXiv cs 9605103 doi 10 1613 jair 301 原始内容存档于2001 11 20 van Otterlo M Wiering M Reinforcement Learning and Markov Decision Processes Reinforcement Learning Adaptation Learning and Optimization 12 2012 3 42 ISBN 978 3 642 27644 6 doi 10 1007 978 3 642 27645 3 1 强化学习 原理与Python实现 北京 2019 16 19 ISBN 9787111631774 Sutton1998 Sutton and Barto 1998 Chapter 11 Gosavi Abhijit Simulation based Optimization Parametric Optimization Techniques and Reinforcement Springer 2003 2015 08 19 ISBN 1 4020 7454 9 原始内容存档于2012 06 15 Tokic Michel Palm Gunther Value Difference Based Exploration Adaptive Control Between Epsilon Greedy and Softmax KI 2011 Advances in Artificial Intelligence PDF Lecture Notes in Computer Science 7006 Springer 335 346 2011 2018 09 03 ISBN 978 3 642 24455 1 原始内容存档 PDF 于2018 11 23 取自 https zh wikipedia org w index php title 强化学习 amp oldid 76658182, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。