用值迭代方法设计乘火车的策略问题(懂人工智能算法的高人帮忙看看)

yu2002fu 2009-08-07 04:59:47
(本题目摘自 Nils J.Nilsson著的<<人工智能>> 第10 章的习题5)
你在一个陌生的城市有一份新工作, 目前正和那个城市的一位朋友呆在一起。 每天早晨,他驱车送你到

城中的一个地铁站,你必须从那儿乘车去工作(那位朋友是城中的递送人员,在你们相处期间他会把你送

到很多不同的车站)。地铁站(有限个站)是一个方型网格布局。其中一个称为中心站,它是你去工作必

须到达的一个站。你总能知道你到达了中心站。在每个站,你有四辆火车可以选择:北、东、南、西。

每辆火车都是局部的,它只能将你带到网格中的一个相邻站,在那儿你必须下车,再搭乘另一辆车继续。

一些相邻的站点之间的连接永久地坏掉了, 但是你知道从网格中的任何一个站到中心站仍然有一些其他

的路径。每到一个站必须付1美元,你每天会从工作中得到100美元。你没有路线图, 不知道各个站相对

于中心站的任何位置信息。 你决定用值迭代方法开发一个在每个站点要乘火车的策略。值迭代似乎是合

适的,因为你总是知道你当前所在站点的名字,能从该站点乘坐哪些火车,还有这些火车到达站点的名字



1.描述一下这个问题中的值迭代如何工作?
2.需要一个时态折扣因子吗?为什么?
3.如果你的学习算法不能保证最终产生最佳(最短)路径的值时,应采取什么办法来保证最佳性?
...全文
57 点赞 收藏 2
写回复
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
yu2002fu 2009-09-17
这个问题主要是考察机器学习的算法的,
题目中讲“没有路线图, 不知道各个站相对于中心站的任何位置信息。”
用正常的直接找目标的方法估计是不可行的
回复
neohope 2009-08-07
呵呵,要是直接回朔处理的话,估计要花n多钱
关键是你经过的站点可以记录吗?
回复
发动态
发帖子
数据结构与算法
创建于2007-08-27

3.2w+

社区成员

数据结构与算法相关内容讨论专区
申请成为版主
社区公告
暂无公告