用值迭代方法设计乘火车的策略问题(懂人工智能算法的高人帮忙看看)
国强余富 2009-08-07 04:59:47 (本题目摘自 Nils J.Nilsson著的<<人工智能>> 第10 章的习题5)
你在一个陌生的城市有一份新工作, 目前正和那个城市的一位朋友呆在一起。 每天早晨,他驱车送你到
城中的一个地铁站,你必须从那儿乘车去工作(那位朋友是城中的递送人员,在你们相处期间他会把你送
到很多不同的车站)。地铁站(有限个站)是一个方型网格布局。其中一个称为中心站,它是你去工作必
须到达的一个站。你总能知道你到达了中心站。在每个站,你有四辆火车可以选择:北、东、南、西。
每辆火车都是局部的,它只能将你带到网格中的一个相邻站,在那儿你必须下车,再搭乘另一辆车继续。
一些相邻的站点之间的连接永久地坏掉了, 但是你知道从网格中的任何一个站到中心站仍然有一些其他
的路径。每到一个站必须付1美元,你每天会从工作中得到100美元。你没有路线图, 不知道各个站相对
于中心站的任何位置信息。 你决定用值迭代方法开发一个在每个站点要乘火车的策略。值迭代似乎是合
适的,因为你总是知道你当前所在站点的名字,能从该站点乘坐哪些火车,还有这些火车到达站点的名字
。
1.描述一下这个问题中的值迭代如何工作?
2.需要一个时态折扣因子吗?为什么?
3.如果你的学习算法不能保证最终产生最佳(最短)路径的值时,应采取什么办法来保证最佳性?