【转】博弈论中的几个经典问题-白红宇

【转】博弈论中的几个经典问题

阅读量：4972 次

发布时间：2019-06-12

本文共 5190 字，大约阅读时间需要 17 分钟。

转载自百度百科以及：

几个博弈论中的经典问题

博弈论（Game Theory），亦名“对策论”、“赛局理论”，属应用数学的一个分支，博弈论已经成为经济学的标准分析工具之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。博弈论主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。

几个重要的概念

1、策略(strategies)：一局博弈中，每个局中人都有选择实际可行的完整的行动方案，即方案不是某阶段的行动方案，而是指导整个行动的一个方案，一个局中人的一个可行的自始至终全局筹划的一个行动方案，称为这个局中人的一个策略。如果在一个博弈中局中人都总共有有限个策略，则称为“有限博弈”，否则称为“无限博弈”。

2、得失(payoffs)：一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时的得失，不仅与该局中人自身所选择的策略有关，而且与全局中人所取定的一组策略有关。所以，一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组策略的函数，通常称为支付（payoff）函数。

3、次序（orders）：各博弈方的决策有先后之分，且一个博弈方要作不止一次的决策选择，就出现了次序问题；其他要素相同次序不同，博弈就不同。

4、博弈涉及到均衡：均衡是平衡的意思，在经济学中，均衡意即相关量处于稳定值。在供求关系中，某一商品市场如果在某一价格下，想以此价格买此商品的人均能买到，而想卖的人均能卖出，此时我们就说，该商品的供求达到了均衡。

5、纳什均衡(Nash Equilibrium)：

纳什均衡是一种策略组合，使得同一时间内每个参与人的策略是对其他参与人策略的最优反应。

假设有n个局中人参与博弈，如果某情况下无一参与者可以独自行动而增加收益（即为了自身利益的最大化，没有任何单独的一方愿意改变其策略的），则此策略组合被称为纳什均衡。

纳什均衡的数学定义：在博弈G=﹛S1,…,Sn：u1,…，un﹜中，如果由各个博弈方的各一个策略组成的某个策略组合（s1*,…，sn*）中，任一博弈方i的策略si*，都是对其余博弈方策略的组合（s1*,…s*i-1,s*i+1,…，sn*）的最佳对策，也即ui（s1*,…s*i-1,si*,s*i+1,…，sn*）≥ui（s1*,…s*i-1,sij*,s*i+1,…，sn*）对任意sij∈Si都成立，则称（s1*,…，sn*）为G的一个纳什均衡

在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出。所谓“均衡偶”是在二人零和博弈中，当局中人A采取其最优策略a*,局中人B也采取其最优策略b*,如果局中人B仍采取b*,而局中人A却采取另一种策略a，那么局中人A的支付不会超过他采取原来的策略a*的支付。这一结果对局中人B亦是如此。

经典的博弈问题

1、“囚徒困境”

“囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯（Ａ和Ｂ）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判８年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判１０年；如果都不坦白则因证据不足各判１年。

在这个例子里，博弈的参加者就是两个嫌疑犯Ａ和Ｂ，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：Ａ和Ｂ均坦白或均不坦白、Ａ坦白Ｂ不坦白或者Ｂ坦白Ａ不坦白，是博弈的结果。Ａ和Ｂ均坦白是这个博弈的纳什均衡。这是因为，假定Ａ选择坦白的话，Ｂ最好是选择坦白，因为Ｂ坦白判８年而抵赖却要判十年；假定Ａ选择抵赖的话，Ｂ最好还是选择坦白，因为Ｂ坦白判不被判刑而抵赖确要被判刑１年。即是说，不管Ａ坦白或抵赖，Ｂ的最佳选择都是坦白。反过来，同样地，不管Ｂ是坦白还是抵赖，Ａ的最佳选择也是坦白。结果，两个人都选择了坦白，各判刑８年。在（坦白、坦白）这个组合中，Ａ和Ｂ都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。

囚徒困境反映了个人理性和集体理性的矛盾。如果Ａ和Ｂ都选择抵赖，各判刑１年，显然比都选择坦白各判刑８年好得多。当然，Ａ和Ｂ可以在被警察抓到之前订立一个"攻守同盟"，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定。

2、海盗分金币问题

在一座座荒岛上，有5个强盗掘出了100块非常珍贵的金币。他们商定了一个分配金币的规则：首先抽签决定每个人的次序，排列成强盗一至五。然后由强盗一先提出分配方案，经5人表决，如多数人同意，方案就被通过，否则强盗一将被扔入大海喂鲨鱼。如果强盗一被扔入大海，就由强盗二接着提出分配方案，如多数人同意方案就被通过，否则强盗二也要被扔入大海。以下依次类推。假定每个强盗都足够聪明,都能做出理性的选择，那么，强盗一提出什么样的分配方案，能够使自己得到最大的收益？

对于这个问题要采用方向推导方法：

如果1至3号强盗都喂了鲨鱼，只剩4号和5号的话，5号一定投反对票让4号喂鲨鱼，以独吞全部金币。所以，4号惟有支持3号才能保命。

3号知道这一点，就会提出“100，0，0”的分配方案，对4号、5号一毛不拔而将全部金币归为已有，因为他知道4号一无所获但还是会投赞成票，再加上自己一票，他的方案即可通过。

不过，2号推知3号的方案，就会提出“98，0，1，1”的方案，即放弃3号，而给予4号和5号各一枚金币。由于该方案对于4号和5号来说比在3号分配时更为有利，他们将支持他而不希望他出局而由3号来分配。这样，2号将拿走98枚金币。

同样，2号的方案也会被1号所洞悉，1号并将提出（97，0，1，2，0）或（97，0，1，0，2）的方案，即放弃2号，而给3号一枚金币，同时给4号（或5号）2枚金币。由于1号的这一方案对于3号和4号（或5号）来说，相比2号分配时更优，他们将投1号的赞成票，再加上1号自己的票，1号的方案可获通过，97枚金币可轻松落入囊中。这无疑是1号能够获取最大收益的方案了！

答案是：1号强盗分给3号1枚金币，分给4号或5号强盗2枚，自己独得97枚。分配方案可写成（97，0，1，2，0）或（97，0，1，0，2）。

1号看起来最有可能喂鲨鱼，但他牢牢地把握住先发优势，结果不但消除了死亡威胁，还收益最大。而5号，看起来最安全，没有死亡的威胁，甚至还能坐收渔人之利，却因不得不看别人脸色行事而只能分得一小杯羹。

在“海盗分金”中，任何“分配者”想让自己的方案获得通过的关键是，事先考虑清楚“挑战者”的分配方案是什么，并用最小的代价获取最大收益，拉拢“挑战者”分配方案中最不得意的人们。

3、旅行者困境

两个旅行者从一个以出产细瓷花瓶著称的地方旅行回来，他们都买了花瓶。提取行李的时候，发现花瓶被摔坏了，于是他们向航空公司索赔。航空公司知道花瓶的价格大概在八九十元的价位浮动，但是不知道两位旅客买的时候的确切价格是多少。于是，航空公司请两位旅客在100元以内自己写下花瓶的价格。如果两人写的一样，航空公司将认为他们讲真话，就按照他们写的数额赔偿；如果两人写的不一样，航空公司就认定写得低的旅客讲的是真话，并且原则上按这个低的价格赔偿，同时，航空公司对讲真话的旅客奖励2元，对讲假话的旅客罚款2元。

为了获取最大赔偿而言，本来甲乙双方最好的策略，就是都写100元，这样两人都能够获赔100元。可是不，甲很聪明，他想：如果我少写1元变成99元，而乙会写100元，这样我将得到101元。何乐而不为？所以他准备写99元。可是乙更聪明，他算计到甲要算计他写99元，于是他准备写98元。想不到甲还要更聪明一个层次，估计到乙要写98元来坑他，于是他准备写97元……大家知道，下象棋的时候，不是说要多“看”几步吗，“看”得越远，胜算越大。你多看两步，我比你更强多看三步，你多看四步，我比你更老谋深算多看五步。在花瓶索赔的例子中，如果两个人都“彻底理性”，都能看透十几步甚至几十步上百步，那么上面那样“精明比赛”的结果，最后落到每个人都只写一两元的地步。事实上，在彻底理性的假设之下，这个博弈唯一的纳什均衡。

4、枪手博弈

彼此痛恨的甲、乙、丙三个枪手准备决斗。甲枪法最好，十发八中；乙枪法次之，十发六中；丙枪法最差，十发四中。如果三人同时开枪，并且每人只发一枪；第一轮枪战后，谁活下来的机会大一些？

一般人认为甲的枪法好，活下来的可能性大一些。但合乎推理的结论是，枪法最糟糕的丙活下来的几率最大。

我们来分析一下各个枪手的策略。

枪手甲一定要对枪手乙先开枪。因为乙对甲的威胁要比丙对甲的威胁更大，甲应该首先干掉乙，这是甲的最佳策略。

同样的道理，枪手乙的最佳策略是第一枪瞄准甲。乙一旦将甲干掉，乙和丙进行对决，乙胜算的概率自然大很多。

枪手丙的最佳策略也是先对甲开枪。乙的枪法毕竟比甲差一些，丙先把甲干掉再与乙进行对决，丙的存活概率还是要高一些。

我们计算一下三个枪手在上述情况下第一轮枪战中的存活几率：

甲：24%（被乙丙合射40% X 60% = 24%）

乙：20%（被甲射100% - 80% = 20%）

丙：100%（无人射丙）

第二轮枪战中甲乙丙存活的几率粗算如下：

(1) 假设甲丙对决：甲的存活率为60%，丙的存活率为20%。

(2) 假设乙丙对决：乙的存活率为60%，丙的存活率为40%。

第一轮：

甲射乙，乙射甲，丙射甲。

甲的活率为24%（40% X 60%），乙的活率为20%(100% - 80%)，丙的活率为100%（无人射丙）。

第二轮：

情况1：甲活乙死（24% X 80% = 19.2%）

甲射丙，丙射甲──甲的活率为60%，丙的活率为20%。

情况2：乙活甲死（20% X 76% = 15.2%）

乙射丙，丙射乙──乙的活率为60%，丙的活率为40%。

情况3：甲乙皆活（24% X 20% = 4.8%）

重复第一轮。

情况4：甲乙皆死（76% X 80% = 60.8%）

枪战结束。

甲的活率为12.672%

(19.2% X 60%) + (4.8% X 24%) = 12.672%

乙的活率为10.08%

(15.2% X 60%) + (4.8% X 20%) = 10.08%

丙的活率为75.52%

(19.2% X 20%) + (15.2% X 40%) + (4.8% X 100%) + (60.8% X 100%) = 75.52%

通过对两轮枪战的详细概率计算，我们仍然发现枪法最差的丙存活的几率最大，枪法较好的甲和乙的存活几率仍远低于丙的存活几率。

对于这样的例子，有人会发出“英雄创造历史，庸人繁衍子孙”的感叹。

5、硬币正反

硬币正反

你正在图书馆枯坐，一位陌生美女主动过来和你搭讪，并要求和你一起玩个数学游戏。美女提议：“让我们各自亮出硬币的一面，或正或反。如果我们都是正面，那么我给你3元，如果我们都是反面，我给你1元，剩下的情况你给我2元就可以了。”那么该不该和这位姑娘玩这个游戏呢？这基本是废话，当然该。问题是，这个游戏公平吗？

每一种游戏依具其规则的不同会存在两种纳什均衡，一种是纯策略纳什均衡，也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面)，使得每人都赚得最多或亏得最少；或者是混合策略纳什均衡，而在这个游戏中，便应该采用混合策略纳什均衡。

假设我们出正面的概率是x，反面的概率是1-x，美女出正面的概率是y，反面的概率是1-y。为了使利益最大化，应该在对手出正面或反面的时候我们的收益都相等（不然对方可以改变正反面出现的概率让我们的总收入减少），由此列出方程就是

3x + (-2)*(1-x)=(-2) * x + 1*( 1-x )

解方程得x=3/8。

同样，美女的收益，列方程

-3y + 2( 1-y)= 2y+ (-1) * ( 1-y)

解得y也等于3/8，而美女每次的期望收益则是 2(1-y)- 3y = 1/8元。这告诉我们，在双方都采取最优策略的情况下，平均每次美女赢1/8元。

其实只要美女采取了(3/8,5/8)这个方案，不论你再采用什么方案，都是不能改变局面的。但是当你也采用最佳策略时，至少可以保证自己输得最少。否则，你肯定就会被美女采用的策略针对，从而赔掉更多。

转载于:https://www.cnblogs.com/guohaoyu110/p/6341686.html

你可能感兴趣的文章

如鹏网.Net基础1 第二章：C#语言基础1

查看>>