求解马尔科夫决策过程都有哪些方法?
求解MDP可以直接求解Bellman方程,但是通常Bellman方程难以列出且计算复杂度高,除此以外还可以用DP(Dynamic Programming,动态规划),MC(Monte Carlo,蒙特卡罗),TD(Temporal Difference,时间差分)算法求解。
2,852
社区成员
5,758
社区内容
加载中
试试用AI创作助手写篇文章吧