讲一个和这个意思一样的故事。

博弈论中的故事

这个例子讲的是:猪圈里有两头猪,一头大猪和一头小猪。猪圈的一侧有一个踏板。每踩一次踏板,就会有少量的食物落在猪圈另一侧远离踏板的喂食口。如果一只猪踩了踏板,另一只猪就有机会先吃掉掉在另一边的食物。猪一踩踏板,大猪刚好会在猪跑到食槽前把所有食物吃完;如果大猪踩了踏板,在小猪吃完掉下来的食物之前,还有机会跑到食槽,争夺剩下的另一半。

那么,两只猪会采取什么策略呢?答案是:小猪会选择“搭便车”策略,即在低谷期舒服地等待;大猪不知疲倦地在踏板和食槽之间跑来跑去,只为了一点剩菜。

这是什么原因呢?因为,小猪通过踩踏板什么也得不到,但不踩踏板却能吃到食物。对于小猪来说,不管大猪踩不踩踏板,不踩总是一个不错的选择。另一方面,大猪知道小猪不会踩油门。自己踩油门总比不踩好,所以他得自己来。

“小猪躺着,大猪跑着”的现象是故事里的游戏规则造成的。规则的核心指标是:每次落下的东西数量和踏板到喂食口的距离。

如果改变核心指标,猪圈会不会出现同样的“猪躺着,大猪跑着”的场景?试试吧。

变化方案1:还原方案。喂食只有原来体重的一半。结果小猪和大猪都不蹬了。小猪会踩,大猪会把食物吃完;如果大猪踩上去,小猪也会把食物吃完。谁蹬就意味着给对方贡献食物,所以谁也不会有蹬的动力。

如果目的是让猪多蹬,这个游戏规则的设计显然是失败的。

变化方案二:增量方案。比以前多喂一倍。结果小猪和大猪都会蹬。谁想吃就蹬。反正对方不会一次吃完所有的食物。小猪和大猪相当于生活在一个物质相对丰富的“共产”社会,竞争意识不是很强。

对于游戏规则的设计者来说,这个规则的成本是相当高的(一次提供双份食物);而且因为竞争不强,让猪多蹬也没啥效果。

变化方案三:减量加移位方案。只喂原来重量的一半,但同时要把喂食口移到踏板附近。结果小猪和大猪都拼命蹬。等的人不会吃,努力的人会得到更多。每一次收获都只是花。

对于游戏设计师来说,这是最好的解决方案。成本不高,但收获最大。

《智猪游戏》的原著故事,启发了竞争中的弱者(猪)等待最佳策略。但是对于社会来说,小猪搭便车时的社会资源分配并不是最优的,因为小猪没能参加比赛。为了使资源得到最有效的配置,规则的设计者不希望看到任何人搭便车,政府也是如此,公司的老板也是如此。能否彻底杜绝“搭便车”现象,取决于游戏规则的核心指标设置是否得当。

比如公司的激励制度设计,奖励太强,而且还是持股和期权。公司的所有员工都成了百万富翁。且不说成本高,员工的积极性也不一定高。这相当于《聪明猪游戏》增量方案中描述的情况。但是,如果奖励力度不大,观众有分成(即使是不干活的“小猪”),曾经很努力的大猪们也就没有动力了——就像《聪明猪游戏》第一期缩减计划中描述的情况。最好的激励机制设计就好比换第三种方案——减员加换班。奖励不是人人共享,而是针对个人(如业务比例提成),既节约了成本(对公司而言),又杜绝了“搭便车”现象,可以实现有效激励。

很多人没看过“聪明猪游戏”的故事,但都在有意识地使用猪的策略。散户在股市里等着庄家上轿;等待产业市场出现有利可图的新产品,然后大规模复制游资牟取暴利;公司里不创造效益但分享成果的人,等等。所以,对于制定经济管理的各种游戏规则的人来说,他们必须明白“聪明猪游戏”的指数变化的原因。

然后就是囚徒困境。

警察逮捕了两个嫌疑犯,A和B,但是没有足够的证据指控他们。于是警方将嫌疑人分开关押,分别与他们见面,并向双方提供了以下选择:

如果一个人认罪并作证指控对方(相关术语称之为“背叛”),但对方保持沉默,这个人会被立即释放,沉默的人会被判处10年监禁。

如果两人都保持沉默(相关术语称为互相“合作”),也将被判6个月监禁。

如果两人都举报对方(“出卖对方”),也要判两年有期徒刑。

汇总在下表中:

沉默(合作)坦白(背叛)

二是沉默(合作),两人都是服刑半年后立即释放;b服刑10年。

b认罪(背叛),A服刑10年;b立即被释放,两人都在监狱服刑两年。

评论

与博弈论的其他例子一样,囚徒困境假设每个参与者(即“囚徒”)都是自利的,即他们都在寻求最大的自身利益,而不关心另一个参与者的利益。如果某种策略的收益在任何情况下都低于其他策略,这种策略被称为“严格劣势”,理性参与者永远不会选择它。此外,没有其他力量干涉个人决策,参与者可以完全按照自己的意愿选择策略。

为了把个人刑期缩短到最短,犯人应该选择哪种策略?两个囚犯被隔离关押,不知道对方的选择;而且就算会说话,也不一定能相信对方不会还嘴。就个人的理性选择而言,举报背叛的刑期永远低于沉默。试着想象一下,两个理性的囚徒会如何在两难中做出选择;

如果对方沉默了,背叛了,我就会被释放,所以我会选择背叛。

如果对方指控我背叛,我也会指控对方获得较轻的刑期,所以我也会选择背叛。

两个人面对的情况是一样的,所以他们的理性思考会得出同样的结论——选择背叛。背叛是两种策略中的主导策略。所以这个博弈唯一可能的纳什均衡是双方参与者都背叛对方,结果两人都服刑两年。

这个博弈的纳什均衡显然不是兼顾群体利益的帕累托最优解。就整体利益而言,如果两个参与者都合作,保持沉默,两个人都只判半年,整体利益更高,结果比互相背叛判两年监禁要好。但根据上述假设,两人都是理性个体,只追求自己的个人利益。均衡的情况会是两个囚徒都选择背叛,结果两个人的判断都高于合作,整体利益都低于合作。这就是“两难”。这个例子漂亮地证明了帕累托最优和纳什均衡在非零和博弈中是冲突的。

梳理囚徒困境的基本博弈结构,可以更清晰地分析囚徒困境。实验经济学经常用这个博弈的一般形式来分析各种话题。下面是实现一般形式的例子之一:

有两个参与者和一个银行家。每个参与者都有两张卡片,一式两份,每张都印有“合作”和“背叛”。参与者每人把一张面朝下放在发牌者面前。脸朝下排除了参与者知道彼此选择的可能性。然后,庄家打开两张参与者卡,并根据以下规则支付利益:

一人背叛一人合作:背叛者获得5分(背叛诱惑),合作者获得0分(骗付款)。

两人合作:各3分(合作奖励)。

两人都背叛了:各得1分(背叛惩罚)。

使用付款矩阵表显示付款,如下所示(两个参与者分别用红色和蓝色表示):

囚徒困境一般形式下支付矩阵的合作背叛

合作3,3 0,5

背叛5,0 1,1

符号“T,R,P,S”表示合作和背叛。

合作R、R、S、T

背叛T,S,P,P

用“输赢”一词表达合作与背叛

合作赢-赢大亏-赢大。

背叛胜利-大负负负

从简单游戏获得的积分可以得出一些一般性的结论。

t,r,p,s符号表

英汉符号分数的解释(非术语)

诱惑背叛了诱惑,背叛了成功。

R 3奖励合作报酬和共同合作所得。

P 1惩罚背叛惩罚常见背叛收入

S 0冤大头被骗要为自己一个人被背叛买单。

如果T(诱惑)=背叛诱惑,R(奖励)=合作奖励,P(惩罚)=背叛惩罚,S(冤大头)=被骗付款,就个人选择得分而言,可以得到以下不等式。

T & gtR & gtP & gtS

(解决方案:从5 & gt3 & gt1 & gt;0以获得上面的不等式)

就总分而言,会得到以下不等式。

2R & gtT+S或2R & gt2P

(溶液:2×3 >;5+0或2×3 >;2x 1;两个人合作得6分,相比之下互相背叛和单独背叛得5分。显然,合作比背叛获得更高的分数。合作是群体中的主导策略。)

重复博弈或者重复囚徒困境会让参与者注意到T & gtR & gtP & gts改为关注2R & gtT+S .也就是说,它会让参与者摆脱困境。上述理论是道格拉斯·霍夫施塔特创立的。

政治的一个例子:军备竞赛

在政治学上,两国的军备竞赛可以用囚徒困境来形容。两国都可以声称有两种选择:增加军备(背叛)或者达成削减武器的协议(合作)。两国都不能确定对方会遵守协议,所以两国最终会倾向于增加军备。矛盾的是,虽然增加军备会是两国“理性”的行为,但结果却是“非理性的”(比如会对双方经济造成损害等等。)这可以看作是遏制论的推论,即以强大的军事力量遏制对手的进攻,以达到和平的目的。

经济例子:关税战。

两个国家在关税上可以有两种选择:

提高关税来保护你的商品。(背叛)

相互达成关税协议,降低关税,以便利各自商品的流通。(合作)

当一个国家因为某些原因不遵守关税协定,自行提高关税(背叛)时,另一个国家也会做出同样的反应(背叛),从而引发关税战,两国的商品失去了对方的市场,也对本国经济造成了损害(共同背叛的结果)。然后两国达成了新的关税协议。反复博弈的结果是,我们会从联合合作中找到最大的利益。)

商业例子:广告战

商业活动中也会出现各种囚徒困境的例子。以广告竞赛为例。

两家公司相互竞争,他们的广告相互影响,也就是如果一家公司的广告更容易被客户接受,就会拿走另一家公司的一部分收入。但如果他们同时发布质量相近的广告,收入增加很少但成本会增加。但是如果不提高广告质量,生意就会被对方抢走。

这两家公司可以有两种选择:

彼此达成协议,减少广告费用。(合作)

增加广告费用,尽量提高广告质量,压倒对方。(背叛)

如果两家公司互不信任,无法合作,背叛成为主导策略,两家公司就会陷入广告大战,广告费用的增加会损害两家公司的利润,这就是囚徒困境。现实中,两家相互竞争的公司很难达成合作协议,大多会陷入囚徒困境。

自行车比赛的例子

自行车赛的竞争策略也是博弈,其结果可以用囚徒困境的研究成果来解释。例如,在每年举行的环法自行车赛中,有以下几种情况:参赛选手在到达终点之前往往以大团队(英语为Peloton)的形式前进,他们采取这种策略是为了让自己不掉队,做出适度的努力。跑在前面的人在迎风时最费力,所以选择前面是最差的策略。通常会出现大家一开始都不愿意前进(共同背叛),使得整个队伍的速度变慢,然后两个或两个以上的队员一般骑到前面,然后互相交换一段时间的前锋位置,共同分担风阻(共同合作),这样整个队伍的速度就提高了。这时候如果前面有一个球员试图保住锋线位置(普通背叛),其他球员和大队就会追上来(普通背叛)。通常情况下,前面(合作)次数最多的玩家,最后通常会被后面的玩家追上(背叛),因为后面的玩家骑在前一个玩家的狂奔中相对不费力。

与囚徒困境相关的事件

[编辑此段落]

幻想

威廉·庞德斯通在他的作品中用一个新西兰的例子来说明囚徒困境。在新西兰,报刊亭既不管理也不上锁,买报纸的人放下钱就拿走。当然,有些人可能会不付钱就拿走报纸(背叛),但这种情况很少发生,因为大家都意识到,如果每个人都偷报纸(联合背叛),将来会造成不便和有害的结果。这个例子的特别之处在于,新西兰人不受任何其他因素的影响,可以走出囚徒困境。没有人特别注意报摊。人们遵守规则是为了避免共同背叛的后果。这种常见的避免囚徒困境的推理或想法被称为“神奇思维”。[3]

“认罪减刑”不可行。

囚徒困境的结论是辩诉交易在许多国家被禁止的原因之一。囚徒困境的结论是,如果有两个罪犯,其中一个犯罪,另一个无罪,罪犯会坦白一切,甚至冤枉无辜的人(单说背叛),以求减刑。在最坏的情况下,如果他们都被判入狱,坦白的罪犯将获得较短的刑期,而无辜的罪犯将获得较长的刑期。

公共物品的悲剧

真实博弈的参与者不止一个,会出现多个参与者的囚徒困境。加勒特·詹姆斯·哈丁的《公共物品的悲剧》就是一个例子:“公共物品的悲剧意味着,属于最大多数人的公共财产,往往是被最少的人看管的东西”。比如捕鱼,公海的鱼属于公众,在不过度捕捞他人的想法下,渔民会过度捕捞,造成海洋生态和渔民生计的破坏(共同背叛的结果)但是多方囚徒困境的提法还有待商榷,因为它总是可以分解成一组组经典的两方囚徒困境。也就是说,囚徒困境只有两面,没有很多面。所谓多方囚徒困境,不过是由多个两方囚徒困境混合而成的假象。