一个对策论趣题

BlueSky2008 2003-12-18 10:14:43

假设有n个人，参加一个比赛。开始每个人都有m块筹码，并且刚开始的时候，n个人抽签决定了一个名次（从1到n)。现在每轮每个人都可以出任意块筹码（只要他手里足够），但至少要有一块，然后按照他们出的筹码数目重新排名。如果两个人出的筹码数目相同，那么在上一轮排名靠前的继续排名在前。每一次新的排名出来时，排名第一的人将取走所有其他人在此轮压下的筹码，但是他要将自己在此轮压下的筹码让给新排名为第二的人。一直这样下去，直到某个人没有了筹码，然后其余的人继续下去，直到最后剩余两个人。最终的结果将由被淘汰的次序来决定。越早淘汰的人获得的奖励将越少，而最后两个没有被淘汰的人的名次由他们手里的筹码数目来决定（同时被淘汰或者最后筹码数目相同将有相同的名次）。当然每个人的最终目的都是获得尽量高的名次，问他们应该采用何种策略。

^-^

...全文

40 16 打赏收藏转发到动态举报

写回复

用AI写文章

16 条回复

切换为时间正序

请发表友善的回复…

发表回复

wtzyb4446 2004-02-27

打赏
举报

关注

languagec 2004-02-26

打赏
举报

很有意思的游戏

fredee 2004-02-26

打赏
举报

up
继续关注！

NowCan 2004-02-26

打赏
举报

tass 2004-02-26

打赏
举报

goldhawk_2000 2004-01-15

打赏
举报

第二名稳赚哪! 所以要想办法作第二. 如果每次压一个筹码那你就能坚持m轮.

当人数比较多的时候比如开始就n>m+1 那么第一也是稳赚的,就是说第一次压上所有的筹码,如果允许并列名次那么第一次压一个的就直接获胜了.否则并列第一不好处理,所以假设m>>n比较合理.

因为赚钱的是前两个人,可能只有第二名,如果人比较少,第一应该说是肯定赔钱的, 因为大家都想作第二,所以出的筹码肯定不是很多而是想正好比第一少,比其他人多,当不能估计好别人出多少时,为了保存实力肯定就出一个. 这样最后人们出的筹码很可能是一个或两个.跟人数有关系的. 可以找几个人试试呵呵!

BlueSky2008 2004-01-12

打赏
举报

两个人时就停止了啊。

widewave 2004-01-12

打赏
举报

“每一次新的排名出来时，排名第一的人将取走所有其他人在此轮压下的筹码，但是他要将自己在此轮压下的筹码让给新排名为第二的人。”

很明显啊，第一名可以拿到第二名的筹码，第二名又可以拿到第一名的筹码。

BlueSky2008 2004-01-08

打赏
举报

mysword 的方法可以试一试，不过我还想看看能不能直接分析出他们的策略来。
从两个人，到3个人，4个人....n个人。
widewave(冯雨(历史事实)) :你说两个人时有二义性，有什么二义性？

gnefuil 2004-01-08

打赏
举报

to eyounx
你说的不错
可以用一个阈值来判定是不是收敛了，评估每个agent的差异可以用均方差等等
直接证明用这个方法是否一定收敛恐怕不太容易，要用实验数据去验证的

eyounx 2004-01-08

打赏
举报

to mysword:
如果用reinforcement learning的方法，因该是当所有的agent收敛到相同的时候结束吧
而且一旦出现震荡不收敛就惨了

gnefuil 2004-01-07

打赏
举报

可以用人工智能里面的很多方法去解
我只从和我的研究方向相关的东东去说
这个题在AI里面可以看作是一个n-Bandit问题
可以用reinforcement learning中的方法去做
首先把这n个人看成n个agent，他们每轮的action就是把他们手中一定数量的筹码压出去
对于外部的环境，根据他们压出的筹码，进行rank，然后给每个agent一个reward
对于排名在3-n的人本轮的reward就是0了，对于第一名，reward是其他人压下的筹码总和在减去这一轮他压下的筹码，对于第二名，reward是第一名压下的筹码减去他自己这轮压下的筹码。
所谓的策略，就是每一个agent对于每种action的选择概率
因此在learning得时候，可以先将每个agent对每种action的选择概率赋一个随机的值
然后进行很多次实验，每次实验就是每个agent按照他们对于action的概率玩这个游戏，直到游戏结束
每个agent根据得到的reward多少来调整每种action的选择概率
这里就有很多经典方法，比如Monte Carlo方法，TD方法等等
进行多轮实验之后，可以把获得第一的次数比较多的agent的策略拿出来，作为该问题的答案

widewave 2004-01-07