马尔可夫奖励(MRP)与决策(MDP)过程

tianxi_kure 2024-10-31 21:56:45

作用：在不确定环境中做出最优决策

随机过程：

其研究对象是随时间演变的随机现象。随机现象在某时刻的状态用St表示。因此P(St+1)=P(St+1|S1,S2,…,St) ，表示已知S1,S2,…,St时下一个时刻状态的概率。

马尔可夫过程：

具有马尔可夫性质(某时刻的状态只取决于上一时刻的状态)的随机过程。通常用元组<S,P>来描述。其中P指状态转移矩阵(函数)。

P(Sj|Si)：第i行第j列元素表示从状态Si转移到Sj状态的概率。

需要注意的是：从某个状态出发，到达其他状态的概率和必须为 1，即状态转移矩阵的每一行的和为 1。

比如我们以下图的一个随机过程为例子：

我们就可以写出其P(状态转移矩阵)：

马尔可夫奖励过程(MRP)

我们在马尔可夫过程过程上

加入奖励函数r和折扣因子γ，

就是MRP

引入γ为的是降低远期收益的影响

Gt表示：从第St时刻状态开始，直到终止状态时，所有奖励的衰减之和称为回报

Rt表示：在t时刻时获得的奖励

有了上述公式

理论上就可以通过遍历所有路线从而计算出从S1开始，直到S6的最佳回报了

但是这样的话时间复杂度为O(n!)，几乎不适用于复杂项目，而且适用性很低

因此我们需要引入价值函数V(s)：直接估算出每个状态的回报

上述式子便是：贝尔曼方程

我们将r(s)写成列向量的R，从而有下述解析式：

解得各个状态的估算回报，并且将时间复杂度降低为O(n3)。具体代码如下

运行后有：

这时我们就可以清晰的观察到每个状态St到达S6时应有的回报

相比回报算法的来说，更为精确

上述所讲的均是自发改变的随机过程，若我们引入一个动作变量a

则就是马尔可夫决策过程(MDP)

MRP中的奖励函数r和转移矩阵(函数)P将增加一个变量a，变成：

再引入概念策略：

表示在输入状态s情况下采取动作a的概率

从而得到的MDP的过程图如图所示：

绿色为执行动作得到的奖励红色为到达状态S得到的奖励方框为执行状态转移的概率

最后引入状态价值函数

状态s出发遵循策略Π能获得的期望回报

引入动作价值函数

遵循策略Π时，当前状态s执行动作a得到的期望回报

从而得到贝尔曼期望方程

据MDP过程图片可以给出如下表示

根

可以看到此处使用的策略为随机策略

此时，我们若想要计算MDP的每个状态的回报

就需要将将其转化为MRP

方法则是：将策略的动作选择进行边缘化，就可以得到没有动作的 MRP 了。

具体如下：

得到有：

转移矩阵

奖励函数

最终输出状态奖励函数：

便可以得出动作价值函数：

...全文

116 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

MDP-DP-RL 该项目的目标是从头开始开发所有动态编程和强化学习算法（即，除了基本的numpy和scipy工具之外，不使用标准库）。 “从头开始开发”目标是出于教育目的-学习此主题的学生只有在他们开发和使用从头开始开发的代码时才能彻底理解这些概念。我针对不同的学生背景讲授了该主题的课程，每门此类课程都以技巧/算法的精确编程实现为基础。特别是，当我教Stanford CME 241：金融中的随机控制问题的强化学习（）时，会使用此代码库。关于代码可读性，性能和错误的任何反馈将不胜感激，因为代码仍相当原始且未经各个部分的测试（2018年8月开始使用此代码，到目前为止主要处于代码增长模式）。该项目开始于为有限的马尔可夫过程（又名马尔可夫链），马尔可夫奖励过程（MRP）和马尔可夫决策过程（MDP）实现基础数据结构。其次是动态编程（DP）算法，其重点是在代码内以清晰的数学术语表

技术文档分享，免费获取请私信博主。

reinforcement leanring Standford Univ. lecture 3 reinforcement leanring Standford Univ. lecture 3reinforcement leanring Standford Univ. lecture 3reinforcement leanring Standford Univ. lecture 3

1. Markov Processes马尔可夫过程 1.1 Markov Property马尔可夫性在了解马尔可夫过程之前，我们首先得了解什么是马尔可夫性，马尔可夫性其实是一种假设，“未来的一切仅与现在有关，独立于过去的状态”。关于马尔可夫性，我们给出了如下的Definition：从上述的式子可以看出，t+1时刻的状态包含了1,…,t时刻状态的全部历史信息，并且当我们知道t时刻的状态后，我们只关注于环境的信息，而不用管之前所有状态的信息，这就是马尔可夫性，当论文中说某一状态或其他信息符合马尔可夫性时

在当前状态与未来状态转移过程中多了一层决策性，这是马尔可夫决策过程与之前的马尔可夫过程/马尔可夫奖励过程很不同的一点。》系列前面的文章讨论到的马尔可夫过程和马尔可夫奖励过程都是自发改变的随机过程，而如果有一个外界的“刺激”来共同改变这个随机过程，就有了马尔可夫决策过程（Markov Decision Process，MDP）。马尔可夫过程/马尔可夫奖励过程的状态转移是直接决定的。综上所述，相对于马尔可夫奖励过程，马尔可夫决策过程多了决策（决策是指动作），其他的定义与马尔可夫奖励过程的是类似的。

中南民族大学

1,040

社区成员

3,077

社区内容

发帖

与我相关

我的任务

经验分享高校湖北省·武汉市

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

欢迎各位加入中南民族大学&&CSDN高校俱乐部社区（官方QQ群：908527260），成为CSDN高校俱乐部的成员具体步骤（必填），填写如下表单，表单链接如下：
人才储备数据库及线上礼品发放表单邀请人吴钟昊：https://ddz.red/CSDN
CSDN高校俱乐部是给大家提供技术分享交流的平台，会不定期的给大家分享CSDN方面的相关比赛以及活动或实习报名链接，希望大家一起努力加油！共同建设中南民族大学良好的技术知识分享社区。

注意：

1.社区成员不得在社区发布违反社会主义核心价值观的言论。

2.社区成员不得在社区内谈及政治敏感话题。

3.该社区为知识分享的平台，可以相互探讨、交流学习经验，尽量不在社区谈论其他无关话题。

试试用AI创作助手写篇文章吧

+ 用AI写文章