强化学习(Reinforcement Learning)笔记(收藏)

   日期:2020-10-16     浏览:141    评论:0    
核心提示:强化学习(Reinforcement马尔可夫决策过程(Markov Decision Processes,MDPs)MDPs 简单说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。MDP 的策略完全取决于当前状态(Only present matters),这也是它马尔可夫性质的体现。其可以简单表示为:基本概念: 有限状态 state 集合,s 表示某个特定状态 ...

强化学习

马尔可夫决策过程(Markov Decision Processes,MDPs)

MDPs 简单说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。

MDP 的策略完全取决于当前状态(Only present matters),这也是它马尔可夫性质的体现。

其可以简单表示为:  

基本概念

  1.  : 有限状态 state 集合,s 表示某个特定状态
  2.  : 有限动作 action 集合,a 表示某个特定动作
  3. Transition Model  : Transition Model, 根据当前状态 s 和动作 a 预测下一个状态 s’,这里的   表示从 s 采取行动 a 转移到 s’ 的概率
  4. Reward  :表示 agent 采取某个动作后的即时奖励,它还有 R(s, a, s’), R(s) 等表现形式,采用不同的形式,其意义略有不同
  5. Policy  : 根据当前 state 来产生 action,可表现为   或  ,后者表示某种状态下执行某个动作的概率

回报(Return):

  与 折扣率(discount) : U 代表执行一组 action 后所有状态累计的 reward 之和,但由于直接的 reward 相加在无限时间序列中会导致无偏向,而且会产生状态的无限循环。因此在这个 Utility 函数里引入   折扣率这一概念,令往后的状态所反馈回来的 reward 乘上这个 discount 系数,这样意味着当下的 reward 比未来反馈的 reward 更重要,这也比较符合直觉。定义

 

 
打赏
 本文转载自:网络 
所有权利归属于原作者,如文章来源标示错误或侵犯了您的权利请联系微信13520258486
更多>最近资讯中心
更多>最新资讯中心
0相关评论

推荐图文
推荐资讯中心
点击排行
最新信息
新手指南
采购商服务
供应商服务
交易安全
关注我们
手机网站:
新浪微博:
微信关注:

13520258486

周一至周五 9:00-18:00
(其他时间联系在线客服)

24小时在线客服