今天给各位分享贝叶斯精炼纳什均衡解经典例题.docxVIP的知识,其中也会对贝叶斯精炼纳什均衡解经典例题.docxVIP进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
贝叶斯精炼纳什均衡解经典例题.docxVIP的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于贝叶斯精炼纳什均衡解经典例题.docxVIP、贝叶斯精炼纳什均衡解经典例题.docxVIP的信息别忘了在本站进行查找喔。
本文导读目录:
喜欢玩德州扑克的人应该都听说过“GTO”这个词。GTO,即 GameTheory Optimal,翻译成中文应该叫做“游戏理论最优化”。直接翻译过来有点拗口,通俗一点的解释可以是:在游戏中,你可以采取一种最优策略,使得自己的损失最小,同时游戏中的对手也必须采取相对应的策略,否则只会扩大你的受益。 讲到GTO,就不得不提到博弈论中非常著名的一个理论:纳什均衡(Nash Equilibrium)。该理论是由著名的经济学家,博弈论创始人,诺贝尔奖获得者约翰·纳什提出的,也就是电影《美丽心灵》的男主角原型。该理论是说:在非合作类博弈中,存在一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应。如果参与者当前选择的策略形成了“纳什均衡”,那么对于任何一位参与者来说,单方更改自己的策略不会带来任何好处。 约翰·纳什证明了在每个参与者都只有有限种策略选择,并允许混合策略的前提下,纳什均衡一定存在。上边的解释还是有点拗口,这里通过几个例子,更直观的理解一下这个理论。 假设有两个小偷A和B联手闯入民宅盗窃被抓,警方将两人置于不同的房间进行审讯,并给出如下政策:如果一个犯罪嫌疑人坦白并交出了赃物,两人都会被判有罪。如果另一个犯罪嫌疑人也坦白,则两人各被判刑8年;如果另一个犯罪嫌人抵赖,再加刑2年,而坦白者有功,会被立即释放。如果两人都抵赖,偷窃罪证据不足,但会因私入民宅而各判入狱1年。即: 表中的数字表示A,B各自的判刑结果。博弈论分析中一般都用这样的表来表示。 此时有人会觉得双方都抵赖就好了,但问题是双方被隔离,都会怀疑对方会出卖自己以求自保。两个人都会这么想:假如对方坦白,此时如果我抵赖得坐10年监狱,如果我坦白才坐8年监狱;假如对方抵赖,此时如果我也抵赖会被判1年,如果我坦白可以被释放。综合以上考虑,不管对方坦白与否,对我而言都是坦白划算。此时最后的“纳什均衡”只能是两个人都坦白,共同被判8年刑期。 猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。但当小猪踩踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;大猪踩动了踏板,则有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半食物。 那么,两只猪各会采取什么策略?当然是小猪等在食槽边,而大猪不知疲倦地奔忙于踏板和食槽之间。因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪不会去踩动踏板,自己亲自去踩踏板还有点吃的,总比不踩强,所以只好去踩踏板。 GOO公司和SAM公司存在利益关系,二者的收益会随着博弈的变化而不断更替。如下图: 双方各有两个可选策略“合作”与“背叛”,格中的四组数据表示四个博弈结局的各自收益,每组数据的第一个数字表示GOO公司的收益,后一个数字表示SAM公司的收益。 现在我们站在GOO公司的角度来思考整个博弈策略。假如SAM选择合作,那么我方合作的收益是3,而我方背叛的收益是5,我方应该选择背叛;假如SAM选择背叛,那么我方合作的收益是 -3,而我方背叛的收益是-1,我方还是应该选择背叛。 同理,SAM公司也会做出相同的选择。最后我们发现,本次博弈的双方都采取了背叛策略,各自的收益都为-1,这是一个比较糟糕的结局,尽管对任何一方来说都不是最糟糕的那种。 但博弈的次数往往不止一次,当二家公司经历了多次背叛策略的博弈之后,发现公式上还有一个(3,3)收益的双赢局面,这个结果显然要好很多,因此二家公司在之后的博弈过程中必然会尝试互建信任,从而驱使双方都选择合作策略。 但假使双方都知道博弈次数是有限的,也许下一次博弈就是最后一次,那么为了避免对方在最后一轮博弈中选择背叛而使我方遭受-3的损失,于是双方都会采取了背叛策略,最后的博弈结果又回到了(-1,-1)。 由此可见,随着次数的变化,博弈的性质也会发生变化,纳什均衡点会发生变化。 假设有A、B、C、D、E、F六只狮子(强弱从左到右依次排序)和一只绵羊。假设A吃掉绵羊后就会打盹,这时比A稍弱的B就会趁机吃掉A,接着B也会打盹,然后比B稍弱的C就会吃掉B,以此类推。问:狮子A敢不敢吃绵羊? 该题须采用逆向分析法,从最弱的F开始分析,依次前推。假设E睡着了,F肯定会吃掉E,因为在F的后面已没有其它狮子了,不用担心自己被吃掉。继续前推,既然E知道自己睡着会被F吃掉,那么E必然不敢吃睡着了的D。既然E不敢吃掉D,那么D则可以放心去吃睡着的C。依次前推,得出C不吃,B吃,A不吃。所以答案是狮子A不敢吃掉绵羊。 但是,如果我们在狮子F的后面增加了一只狮子G,总数变成7只,用逆向分析法按照上题步骤再推一次,如下图。这次的答案变成了狮子A敢吃掉绵羊。 对比两次博弈我们发现,狮子A敢不敢吃绵羊取决于狮子总数的奇偶性:当总数为奇数时,A敢吃;总数为偶数时,A则不敢吃。因此,总数为奇数和总数为偶数的狮群博弈结果形成了两个稳定的纳什均衡点。 加入你和一个美女一起玩个数学游戏。美女提议:让我们各自亮出硬币的一面,如果我们都是正面,那么我给你3元;如果我们都是反面,我给你1元;剩下的情况你给我2元。那么你该不该和这位美女玩这个游戏呢? 这里需要讲一下纳什均衡的分类: (1)纯战略纳什均衡,也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面),使得每人都赚得最多或亏得最少。 (2)混合战略纳什均衡,是对每个纯战略分配一个机率而形成的战略。混合战略允许玩家随机选择一个纯战略。混合战略纳什均衡中要用概率计算,达到某一概率时,可以实现支付最优。因为概率是连续的,所以即使战略集合是有限的,也会有无限多个混合战略。 在这个游戏中,应该采用混合策略纳什均衡。 假设我们出正面的概率是x,出反面的概率是1-x,美女出正面的概率是y,出反面的概率是1-y。为了使利益最大化,应该在对手出正面或反面的时候我们的收益都相等,即: 3x + (-2)(1-x) = (-2) * x + 1*(1-x ) 解方程得x=3/8;同样,美女的收益: -3y + 2(1-y) = 2y+ (-1) * (1-y), 解方程同样得y等于3/8。于是,我们就可以算美女每次的期望收益是: (1-y) * (2x-(1-x)) + y(-3x+2(1-x)) = 1/8元 即双方都采取最优策略的情况下,美女平均每次赢1/8元。所以当然不能和她玩这个游戏。其实只要美女采取了(3/8, 5/8)这个方案,不论你采用什么方案,都是不能改变局面的。但是当你也采用最佳策略时,至少可以保证自己输得最少。否则,你会赔掉更多。 参考:纳什均衡_百度百科 ============================================================= 作者主页:笑虎(Python爱好者,关注爬虫、数据分析、数据挖掘、数据可视化等) 作者专栏主页:撸代码,学知识 - 知乎专栏 作者GitHub主页:撸代码,学知识 - GitHub 欢迎大家拍砖、提意见。相互交流,共同进步! ============================================================== 贝叶斯精炼纳什均衡解经典例题 贝叶斯精炼纳什均衡(Bayesian Nash Equilibrium)是指在博弈论中,玩家的行为不仅依赖于策略和收益,还考虑了信息的不确定性和先前经验的影响。即使在存在不完全信息的情况下,玩家也会选择最优策略,而不会仅仅根据瞎猜或者随机选择。 经典例题中,一个最简单的贝叶斯博弈(Bayesian Game)是信封问题(Envelope Paradox):假设有两个信封,一个装有10美元,另一个装有20美元。两个信封被随机放置在桌子上,等概率出现每一个信封。将其中一个信封交给玩家A,另一个信封交给玩家B,玩家们可以同时打开信封或者选择交换信封。如果两个玩家打开的信封一样,各人都会得到对应信封中的钱,如果玩家选择交换信封,那么每个玩家都会得到对方信封中的钱。 对于这个问题,使用贝叶斯精炼纳什均衡可以找到最优策略,即每个玩家都应该打开自己的信封,因为这是对方的信封中钱数信息的最佳利用。如果选择交换信封,可能会得到更多或更少的钱,概率一样,不确定性很大。在这种情况下,理性的玩家应该使用贝叶斯精炼纳什均衡的思想,选择最有可能得到利润的策略。 在这个例题中,贝叶斯精炼纳什均衡解与纳什均衡解是相同的,因为对于任何的先验信念,都只有一个最优策略:打开自己的信封。 本题已加入知乎圆桌 » 日常经济学 · 博弈人生,更多「博弈论」话题讨论欢迎关注 纳什均衡是这样的一种状态:在博弈中如果玩家A选择了X选项,那么玩家B为了使自己的利益最大话选择了Y选项;相反如果玩家B选择了Y选项,这种情况下X对于玩家A来说也是利益最大话的唯一选项。 例子如:A,B两个理性的玩家博弈,规则是两个人各自选择从1到9的任意一个整数,如果两个人选的数字之和不大于10,则A、B玩家各自获得所选数目的奖金,反之双方一分钱也拿不到。 在这个例子里面,如果A选择“4”,B为了是利益最大化会选“6”,记为(4,6);相反,如果B选择的是“6”,A为了利益最大化就只能选“4”,因此(4,6)就是一个纳什均衡点。 相应地,(1,9)、(2,8)、(3,7)、(5,5)、(6,4)、(7,3)、(8,2)、(9,1)也都是纳什均衡点。 但是哪一个纳什均衡是最容易出现的呢?这个答案取决于这个游戏是静态(Static gaming)的还是动态(dynamic gaming)的,彼此知不知道对方的选择。 如果游戏是静态的(就像猜拳,彼此同时选择,而且对方不知道彼此的选择),出现哪个结果则取决于A,B双方更愿意相信对方会选择多少。 如果是动态的,又分几种情况,信息透明,和信息不透明,和信息不对称。 1,如果信息透明,也就是像下象棋一样,A先选,B知道A选择之后再选择,这种情况下,一定是(9,1); 2,如果信息不透明,就是A选好了,写下来后放在信封里,然后B做选择,这种情形等同于静态博弈。 3,如果信息不对称,就比较复杂了,涉及到有没有bluffing,有没有欺骗等等,所以结果很有可能达不到纳什均衡点。 说到简洁,大部分的经济学理论都是几句话可以说清楚的,没有那么玄妙。 纳什均衡有个这样的前提:决策圈中的个体是独立,不合作,不横向沟通的。 然后每个个体在猜测决策圈里的其他人的选择后,作出自己认为最优的决策。 这样的决策简单组合起来,就叫纳什均衡。 囚徒理论广为人知,但是它是证明“纳什均衡不代表整体最优决策”的一个浅显简单的例子。 “不后悔” 这是Yale的《博弈论》公开课上给出的一个直观解释,也是我目前看到的最容易理解的解释。 不过我以为这个解释还不够严谨。纳什均衡在一些博弈中并非共同最优的结果,如常被拿出来说事的“囚徒困境”中,纳什均衡结果是两人均认罪,而这个结果对两个人而言都是不如两人均不认罪的结果的。如果不对“不后悔”做一点补充,可能会造成歧义。于是解释不得不变得稍微复杂一点: 给定其他人的策略不变,每一个参与者对于自己的选择都“不后悔”。 而之所以合作结果不能成为均衡结果,正是因为给定一方“合作”(不认罪)时,另一方就会有将策略改为“背叛”(认罪)的激励。即合作结果将会使双方都后悔。 对于这样的“不后悔”,有一个专业术语——“最优反应”(best response),于是可以进一步修改对纳什均衡的解释: 每个人的策略都是对其他人的策略的最优反应。 这个相对规范的表述也不难理解嘛:) 补充: 1、“囚徒困境”中的背叛结果是一个纯策略纳什均衡的例子,对于混合策略纳什均衡,这个解释也是成立的~ 2、Dixit的Games of Strategy上更规范的定义:A Nash Equilibrium in a game is a list of strategies, one for each player, such that no player can get a better payoff by switching to some other strategy that is available to her while all other players adhere to the strategies specified for them in the list. 如果你喜欢一个女孩子。现在女孩子把你当很好很好的朋友。 如果你表白,女孩子觉得这样当朋友太尴尬了,那以后可能一起玩的机会都没有了。 如果女孩子把你拒绝了,她也就失去了一个很好的朋友,这一点对现在的她来说也不是好的结果。 于是你们俩,谁都不愿主动做出改变,即纳什均衡。 你们俩在信息不完全下达到了各自的最优。但对于外人来看却不是。 敌不动我不动贝叶斯精炼纳什均衡解经典例题.docxVIP的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于贝叶斯精炼纳什均衡解经典例题.docxVIP、贝叶斯精炼纳什均衡解经典例题.docxVIP的信息别忘了在本站进行查找喔。
未经允许不得转载! 作者:谁是谁的谁,转载或复制请以超链接形式并注明出处。
原文地址:http://www.scnuyjs.net/post/7051.html发布于:2025-12-12



