用值迭代方法设计乘火车的策略问题(懂人工智能算法的高人帮忙看看)

国强余富 2009-08-07 04:59:47

(本题目摘自 Nils J.Nilsson著的<<人工智能>> 第10 章的习题5)
你在一个陌生的城市有一份新工作，目前正和那个城市的一位朋友呆在一起。每天早晨，他驱车送你到

城中的一个地铁站，你必须从那儿乘车去工作（那位朋友是城中的递送人员，在你们相处期间他会把你送

到很多不同的车站）。地铁站（有限个站）是一个方型网格布局。其中一个称为中心站，它是你去工作必

须到达的一个站。你总能知道你到达了中心站。在每个站，你有四辆火车可以选择：北、东、南、西。

每辆火车都是局部的，它只能将你带到网格中的一个相邻站，在那儿你必须下车，再搭乘另一辆车继续。

一些相邻的站点之间的连接永久地坏掉了，但是你知道从网格中的任何一个站到中心站仍然有一些其他

的路径。每到一个站必须付1美元，你每天会从工作中得到100美元。你没有路线图，不知道各个站相对

于中心站的任何位置信息。你决定用值迭代方法开发一个在每个站点要乘火车的策略。值迭代似乎是合

适的，因为你总是知道你当前所在站点的名字，能从该站点乘坐哪些火车，还有这些火车到达站点的名字

。

1.描述一下这个问题中的值迭代如何工作？
2.需要一个时态折扣因子吗？为什么？
3.如果你的学习算法不能保证最终产生最佳(最短)路径的值时,应采取什么办法来保证最佳性?

...全文