fbpx
维基百科

SARSA算法

SARSA算法机器学习领域的一种强化学习算法,得名于“状态-动作-奖励-状态-动作”(State–Action–Reward–State–Action)的英文首字母缩写。

SARSA算法最早是由G.A. Rummery, M. Niranjan在1994年提出的,当时称为“改进型联结主义Q学习”(Modified Connectionist Q-Learning)。[1]Richard S. Sutton英语Richard S. Sutton提出了使用替代名SARSA。[2]

SARSA算法和Q学习算法的区别主要在期望奖励Q值的更新方法上。SARSA算法使用五元组(st, at, rt, st+1, at+1)来进行更新,其中s、a、r分别为马可夫决策过程(MDP)中的状态、动作、奖励,t和t+1分别为当前步和下一步。[3]

算法 编辑

for each step in episode 执行动作  ,观察奖励   和下一步状态   基于当前的   ,根据特定策略(如ε-greedy)选择        until 状态   终止 

在选择下一步动作 时,采用ε-greedy策略,即:

  • 以 ε 的概率随机选择下一个动作
  • 以 1-ε 的概率选择可以最大化 的下一个动作

在该算法中,超参数  学习速率  为折扣因子。

在更新 时,对比Q学习使用   作为预估,SARSA则使用   作为预估。[4]一些针对Q学习的提出优化方法也可以应用于SARSA上。[5]

相关条目 编辑

参考文献 编辑

  1. ^ Online Q-Learning using Connectionist Systems" by Rummery & Niranjan (1994). [2022-07-14]. (原始内容于2013-06-08). 
  2. ^ Jeevanandam, Nivash. Underrated But Fascinating ML Concepts #5 – CST, PBWM, SARSA, & Sammon Mapping. Analytics India Magazine. 2021-09-13 [2021-12-05]. (原始内容于2021-12-05) (英语). 
  3. ^ Richard S. Sutton and Andrew G. Barto. Sarsa: On-Policy TD Control. Reinforcement Learning: An Introduction. [2022-07-14]. (原始内容于2020-07-05). 
  4. ^ TINGWU WANG. Tutorial of Reinforcement: A Special Focus on Q-Learning (PDF). cs.toronto. [2022-07-14]. (原始内容 (PDF)于2022-07-14). 
  5. ^ Wiering, Marco; Schmidhuber, Jürgen. Fast Online Q(λ) (PDF). Machine Learning. 1998-10-01, 33 (1): 105–115 [2022-07-14]. ISSN 0885-6125. S2CID 8358530. doi:10.1023/A:1007562800292 . (原始内容 (PDF)于2018-10-30) (英语). 

sarsa算法, 是机器学习领域的一种强化学习算法, 得名于, 状态, 动作, 奖励, 状态, 动作, state, action, reward, state, action, 的英文首字母缩写, 最早是由g, rummery, niranjan在1994年提出的, 当时称为, 改进型联结主义q学习, modified, connectionist, learning, richard, sutton, 英语, richard, sutton, 提出了使用替代名sarsa, 和q学习算法的区别主要在期望奖励q值的. SARSA算法是机器学习领域的一种强化学习算法 得名于 状态 动作 奖励 状态 动作 State Action Reward State Action 的英文首字母缩写 SARSA算法最早是由G A Rummery M Niranjan在1994年提出的 当时称为 改进型联结主义Q学习 Modified Connectionist Q Learning 1 Richard S Sutton 英语 Richard S Sutton 提出了使用替代名SARSA 2 SARSA算法和Q学习算法的区别主要在期望奖励Q值的更新方法上 SARSA算法使用五元组 st at rt st 1 at 1 来进行更新 其中s a r分别为马可夫决策过程 MDP 中的状态 动作 奖励 t和t 1分别为当前步和下一步 3 算法 编辑for each step in episode 执行动作 a t displaystyle a t nbsp 观察奖励 r t displaystyle r t nbsp 和下一步状态 s t 1 displaystyle s t 1 nbsp 基于当前的 Q displaystyle Q nbsp 和 s t 1 displaystyle s t 1 nbsp 根据特定策略 如e greedy 选择 a t 1 displaystyle a t 1 nbsp Q n e w s t a t Q s t a t a r t g Q s t 1 a t 1 Q s t a t displaystyle Q new s t a t leftarrow Q s t a t alpha r t gamma Q s t 1 a t 1 Q s t a t nbsp s t s t 1 displaystyle s t leftarrow s t 1 nbsp a t a t 1 displaystyle a t leftarrow a t 1 nbsp until 状态 s displaystyle s nbsp 终止 在选择下一步动作a t 1 displaystyle a t 1 nbsp 时 采用e greedy策略 即 以 e 的概率随机选择下一个动作 以 1 e 的概率选择可以最大化Q s t 1 a t 1 displaystyle Q s t 1 a t 1 nbsp 的下一个动作在该算法中 超参数 a displaystyle alpha nbsp 为学习速率 g displaystyle gamma nbsp 为折扣因子 在更新Q displaystyle Q nbsp 时 对比Q学习使用 max a Q s t 1 a displaystyle text max a Q s t 1 a nbsp 作为预估 SARSA则使用 Q s t 1 a t 1 displaystyle Q s t 1 a t 1 nbsp 作为预估 4 一些针对Q学习的提出优化方法也可以应用于SARSA上 5 相关条目 编辑强化学习 Q学习 馬可夫決策過程参考文献 编辑 Online Q Learning using Connectionist Systems by Rummery amp Niranjan 1994 2022 07 14 原始内容存档于2013 06 08 Jeevanandam Nivash Underrated But Fascinating ML Concepts 5 CST PBWM SARSA amp Sammon Mapping Analytics India Magazine 2021 09 13 2021 12 05 原始内容存档于2021 12 05 英语 Richard S Sutton and Andrew G Barto Sarsa On Policy TD Control Reinforcement Learning An Introduction 2022 07 14 原始内容存档于2020 07 05 TINGWU WANG Tutorial of Reinforcement A Special Focus on Q Learning PDF cs toronto 2022 07 14 原始内容存档 PDF 于2022 07 14 Wiering Marco Schmidhuber Jurgen Fast Online Q l PDF Machine Learning 1998 10 01 33 1 105 115 2022 07 14 ISSN 0885 6125 S2CID 8358530 doi 10 1023 A 1007562800292 nbsp 原始内容存档 PDF 于2018 10 30 英语 取自 https zh wikipedia org w index php title SARSA算法 amp oldid 76800493, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。