一个对策论趣题

BlueSky2008 2003-12-18 10:14:43


假设有n个人,参加一个比赛。开始每个人都有m块筹码,并且刚开始的时候,n个人抽签决定了一个名次(从1到n)。现在每轮每个人都可以出任意块筹码(只要他手里足够),但至少要有一块,然后按照他们出的筹码数目重新排名。如果两个人出的筹码数目相同,那么在上一轮排名靠前的继续排名在前。每一次新的排名出来时,排名第一的人将取走所有其他人在此轮压下的筹码,但是他要将自己在此轮压下的筹码让给新排名为第二的人。一直这样下去,直到某个人没有了筹码,然后其余的人继续下去,直到最后剩余两个人。最终的结果将由被淘汰的次序来决定。越早淘汰的人获得的奖励将越少,而最后两个没有被淘汰的人的名次由他们手里的筹码数目来决定(同时被淘汰或者最后筹码数目相同将有相同的名次)。当然每个人的最终目的都是获得尽量高的名次,问他们应该采用何种策略。

^-^

...全文
40 16 打赏 收藏 转发到动态 举报
写回复
用AI写文章
16 条回复
切换为时间正序
请发表友善的回复…
发表回复
wtzyb4446 2004-02-27
  • 打赏
  • 举报
回复
关注
languagec 2004-02-26
  • 打赏
  • 举报
回复
很有意思的游戏
fredee 2004-02-26
  • 打赏
  • 举报
回复
up
继续关注!
NowCan 2004-02-26
  • 打赏
  • 举报
回复
up
tass 2004-02-26
  • 打赏
  • 举报
回复
up
goldhawk_2000 2004-01-15
  • 打赏
  • 举报
回复
第二名稳赚哪! 所以要想办法作第二. 如果每次压一个筹码 那你就能坚持m轮.

当人数比较多的时候 比如开始就n>m+1 那么第一也是稳赚的,就是说第一次压上所有的筹码,如果允许并列名次 那么第一次压一个的就直接获胜了.否则并列第一不好处理,所以假设m>>n比较合理.

因为赚钱的是前两个人,可能只有第二名,如果人比较少,第一应该说是肯定赔钱的, 因为大家都想作第二,所以出的筹码肯定不是很多 而是想正好比第一少,比其他人多,当不能估计好别人出多少时,为了保存实力肯定就出一个. 这样最后人们出的筹码很可能是一个或两个.跟人数有关系的. 可以找几个人试试 呵呵!

BlueSky2008 2004-01-12
  • 打赏
  • 举报
回复
两个人时就停止了啊。
widewave 2004-01-12
  • 打赏
  • 举报
回复
“每一次新的排名出来时,排名第一的人将取走所有其他人在此轮压下的筹码,但是他要将自己在此轮压下的筹码让给新排名为第二的人。”

很明显啊,第一名可以拿到第二名的筹码,第二名又可以拿到第一名的筹码。
BlueSky2008 2004-01-08
  • 打赏
  • 举报
回复
mysword 的方法可以试一试,不过我还想看看能不能直接分析出他们的策略来。
从两个人,到3个人,4个人....n个人。
widewave(冯雨(历史事实)) :你说两个人时有二义性,有什么二义性?
gnefuil 2004-01-08
  • 打赏
  • 举报
回复
to eyounx
你说的不错
可以用一个阈值来判定是不是收敛了,评估每个agent的差异可以用均方差等等
直接证明用这个方法是否一定收敛恐怕不太容易,要用实验数据去验证的

eyounx 2004-01-08
  • 打赏
  • 举报
回复
to mysword:
如果用reinforcement learning的方法,因该是当所有的agent收敛到相同的时候结束吧
而且一旦出现震荡不收敛就惨了
gnefuil 2004-01-07
  • 打赏
  • 举报
回复
可以用人工智能里面的很多方法去解
我只从和我的研究方向相关的东东去说
这个题在AI里面可以看作是一个n-Bandit问题
可以用reinforcement learning中的方法去做
首先把这n个人看成n个agent,他们每轮的action就是把他们手中一定数量的筹码压出去
对于外部的环境,根据他们压出的筹码,进行rank,然后给每个agent一个reward
对于排名在3-n的人本轮的reward就是0了,对于第一名,reward是其他人压下的筹码总和在减去这一轮他压下的筹码,对于第二名,reward是第一名压下的筹码减去他自己这轮压下的筹码。
所谓的策略,就是每一个agent对于每种action的选择概率
因此在learning得时候,可以先将每个agent对每种action的选择概率赋一个随机的值
然后进行很多次实验,每次实验就是每个agent按照他们对于action的概率玩这个游戏,直到游戏结束
每个agent根据得到的reward多少来调整每种action的选择概率
这里就有很多经典方法,比如Monte Carlo方法,TD方法等等
进行多轮实验之后,可以把获得第一的次数比较多的agent的策略拿出来,作为该问题的答案


widewave 2004-01-07
  • 打赏
  • 举报
回复
搂主,两个人的时候有歧义。
BlueSky2008 2004-01-06
  • 打赏
  • 举报
回复
这题其实是个open题啊,我也没什么标准答案的,大家放开讨论。
zqrqq 2004-01-06
  • 打赏
  • 举报
回复
关注!学习!
widewave 2003-12-18
  • 打赏
  • 举报
回复
这个取决于N和M谁大吧。

33,007

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧