按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
这个规定,尤其是只有两种可能的价格选择这个假设,只不过是为了以尽可能简单的方式,构造出这类博弈的分析方法。在以后的章节,我们将允许公司有更大的价格选择自由。
托马斯·谢林在区分哪个赢利属于哪个参与者时,发明了这种用同一个表格表示两个参与者的赢利的方法。他用过分谦虚的笔触写道:“假如真有人问我有没有对博弈论做出一点贡献,我会回答有的……我发明了用一个矩阵反映双方赢利的方法。”事实上,谢林提出了很多在博弈论中至关重要的概念——聚焦点、可信度、承诺、威胁与承诺、颠覆,等等。在接下来的章节中,我们将会经常引用他和他的研究成果。如果两家公司都把价格降至70美元,结果会怎么样?如果它们都降价1美元,虽然现存的顾客数量不变,但它们各自都得到了20名新顾客。这样,当它们都把价格降低10美元时,就能各自在原先1200件的基础上多销售200件。即每家公司的销售量是1 400件,获得的利润为(70-20)×1 400=70 000美元。
我们希望能够直观地展示出利润结果(即公司在博弈中的收益)。但是,我们无法运用第2章中的博弈树来做到这一点。因为在这里,两个参与者是同时行动的。参与者在采取行动时,都不知道对方做了什么,也预料不到对方将如何回应。相反,每个人都要考虑对方同时在想什么。这种想对方之所想的做法的一个出发点是,列出双方所有同时选择组合的所有结果。因为每家公司各有两个价格选择:80美元或70美元,所以总共存在四个这样的组合。我们可以用一种由行和列组成的类似电子表格的形式简单地把它们表示出来,通常我们称之为博弈表或者赢利表。彩虹之巅(简称RE)的选择表示在行中,比比里恩(简称BB)的选择表示在列中。在这四个单元格中的每个单元格,我们都展示了与每个RE行选择和BB列选择相对应的两个数字——衬衫的销售利润,单位是千美元。在每个单元格中,左下角的数字属于行参与者,右上角的数字属于列参与者。在博弈论术语中,这些数字称为赢利。同时,在这个例子中,为了清楚地区分哪些赢利属于哪个参与者,我们把这些数字用两种不同的阴影表示出来。
一般来说,对参与者而言,赢利数字越高越好。有时则不然。比如对接受审讯的囚徒而言,赢利数字指的是监禁的期限,因此每个参与者都希望数字更小。同样的情况也适用于赢利数字代表排名时,在那里,1是最佳结果。当你观察一个博弈表格时,你应该先弄明白该博弈的赢利数字的含义。在“求解”这个博弈之前,让我们先来观察并强调一下该表格的一个特性。比较一下这四个单元格中的赢利组合。对RE而言较好的结果,并不总是意味着对BB而言是较坏的结果,反之亦然。具体地说,它们在左上角的单元格中的赢利,都优于它们在右下角单元格中的赢利。这种博弈无须分出胜者和败者;因为它不是零和博弈。我们在第2章也曾经指出,查理·布朗投资博弈不是零和博弈,我们在现实生活中遇到的大多数博弈也不是零和博弈。在很多博弈中,比如囚徒困境博弈,主要问题在于如何避免出现两败俱伤的结果,或者如何促成双赢的结果。
txt电子书分享平台
困境
现在我们来考虑一下RE经理的推理。“如果BB选择80美元,那么我可以通过把价格降至70美元,得到110 000美元的利润,而不是72 000美元的利润。如果BB选择70美元,那么,若我也定价70美元,我的赢利是70 000美元;但是,若我定价80美元,我只能得到24 000美元的利润。所以,不论在哪种情况下,选择70美元都优于选择80美元。不论BB如何选择,我的更优选择(实际上是我的最优选择,因为我只有两种选择)都是相同的。我根本不需要考虑他的想法;我只管直接把价格定为70美元就好了。”
在一个同时行动博弈中,如果存在这样的特性:对某个参与者而言,无论其他参与者如何选择,他的最佳选择都是一样的,那么这种特性将大大简化参与者的思考过程以及博弈论学家的分析过程。因此,为了简化博弈求解方法,深入探讨并找出这个特性将很有价值。博弈论学者将这种特性命名为优势策略。如果对于某个参与者而言,无论其他参与者选择什么策略或者策略组合,他的同一种策略总是优于所有其他可选策略,我们就说这个参与者拥有优势策略。于是,我们得到了一个简单的同时行动博弈的行为法则。
在第2章中,我们已经提供了一个简明的法则来制定序贯行动博弈的最佳策略。那就是我们的法则1:向前展望,倒后推理。在同时行动的博弈中就不是这么简单了。不过,同时行动所需的想对方之所想,可概括为三个简单的行动法则。这些法则依次依赖于两个简单的思想——优势策略和均衡。此处列出了法则2,法则3和法则4将在第4章介绍。
事实上,80美元是给双方带来最高联合利润的共同价格;若它们能联合起来,组成企业联盟,这也是它们会选择的价格。这个论点的严格证明需要一些数学知识,所以,暂且先记住我们说的话。希望知道该证明过程的读者,可登录本书的网站。
公司降价的获益者当然是顾客,他们并不是此博弈中的积极参与者。因此,社会常常有更大的利益动机阻挠公司解决其价格困境。这就是美国和一些其他国家反垄断政策的作用。法则2:假如你有一个优势策略,请照办。
囚徒困境是一个更为特殊的博弈——不仅一个参与者,而且两个(或者所有)参与者都有优势策略。BB经理的推理与RE经理的推理完全类似,你应该自己练习运用这个法则,来巩固上述思想。你将发现,70美元也是BB公司的优势策略。
博弈结果是如博弈表右下角单元格中所示的结果。即两家公司都选择了70美元的定价,且每家公司均获得70 000美元的利润。正是优势策略使得囚徒困境成为如此重要的一个博弈。当参与者双方都选择他们的优势策略时,他们得到的结果劣于它们联合起来共同选择另一个策略(劣势策略)时得到的结果。在这个博弈中,它们本来都应该定价为80美元,从而得到博弈表左上角的单元格结果,即每家公司获得利润72 000美元。
只有一方定价80美元是不行的;这样的话,这家公司将损失惨重。在某种程度上,它们必须都制定高价,但在每家公司都有动机制定低于对方价格的情况下,这个结果很难达到。每家公司都追求自身的利益,并没有导致对双方都是最好的结果,这与亚当·斯密(Adam Smith)教给我们的传统经济学大相径庭。
由此产生了很多问题。有些问题属于博弈论的更一般的方面。如果只有一个参与者有优势策略会怎样?如果参与者都没有优势策略又会如何?当每个参与者的最佳选择取决于对方的同时选择时,他们是否能看穿彼此的选择,然后解决这个博弈呢?我们将在以后的章节中继续讨论这些问题,那时我们会介绍一个更一般的解决同时行动博弈的概念——约翰·纳什的美丽的均衡。本章我们集中讨论关于囚徒困境博弈本身的问题。
一般情况下,每个参与者可选的两个策略分别被记为“合作”和“背叛”(或者有时候称为“欺骗”),我们将沿用这个用法。对每个参与者而言,背叛都是优势策略,而对双方而言,他们均选择背叛的策略组合得到的结果,比双方均选择合作得到的结果更糟。
书包 网 。 想看书来
解决困境的初步思想(1)
深知囚徒困境危害的参与者,有强烈的动机达成联合协议,避免陷入这种困境。例如,新英格兰的渔民们可以达成协议,限制捕捞,为将来储备鱼类资源。困难在于,当大家都面临欺骗的诱惑时,例如都想得到超过分配限额的鱼,怎样才使这样的协议比较稳固?关于这个问题,博弈论是如何解释的呢?在实际的这种博弈中,又会发生什么?
自从囚徒困境发明50年来,其理论已经有了很大的进展,而且积累了大量证据,这些证据不仅来自对真实世界的观察,还来自实验室中的可控实验。让我们来考察一下这些资料,看看能从中学到什么。
达成合作的另一面就是避免背叛。通过给予参与者一个适当的奖励,将可以激励参与者选择合作而不是选择最初的优势策略“背叛”;或者,通过制造一种适当的惩罚的可能性,亦可以吓阻参与者选择背叛。
基于以下原因,奖励方法可能会有问题。奖励可以是内部的,一方对另一方的合作进行奖励。有时也可以是外部的,可以由从双方合作中获利的第三方对双方的合作进行奖励。不论哪种情形,都不能在参与者做出选择之前给予奖励;否则,参与者一定会把奖励揣入口袋,然后再选择背叛。如果奖励仅仅是一个许诺,那么这个许诺可能是不可信的:在受诺方选择了合作后,许诺方有可能会食言。
尽管困难重重,有时奖励还是可行的、有用的。发挥最大的创造性和想象力,参与者可以同时、相互许诺,然后通过把许诺的奖金存入由第三方控制的托管账户中,使这些许诺显得可信。更切实际的是,参与者可以在多个方面相互作用,一方在一个方面的合作可以换来对方在另一个方面合作的奖励。比如,在雌性黑猩猩群中,分享食物、帮忙照看幼崽,可以换来梳理毛发的帮助。有时候,博弈第三方可能有非常强烈的利益动机促成合作。例如,为了结束世界范围内的各种冲突,美国和欧盟不时地许诺向战争国提供经济援助,作为对它们和平解决争端的奖励。1978年,美国以这种方式奖励了以色列和埃及,因为它们合作签署了戴维营协议。
惩罚是解决囚徒困境的更为常用的方法。它可能即时见效。电影《洛城机密》中有这样一个场景,警官埃德·埃克斯利向他正在审讯的嫌犯之一雷若伊·方丹许诺,如果他为国家作证,就可以比其他两个嫌疑犯少判几年。但雷若伊知道,一旦他出狱,他会发现另两个人的朋友正等着报复他!
然而,在这种背景下自然而然想到的惩罚,产生于这样的事实,即大多数此类博弈都只是一段持续关系的一部分。欺骗可能使一个参与者获得短期利益,但却会损害这种持续关系,产生更长期的成本。如果该成本非常大,这就可能从一开始就起到了阻吓欺骗的作用。
由于发展了重复博弈中隐含合作的一般理论,罗伯特·奥曼(Robert Aumann)于2005年被授予诺贝尔经济学奖。一个引人注目的例子来自棒球比赛。美国联盟队的击球员被投球击中的概率是11%,而国家联盟的击球员被击中的概率是17%。据道格·德林恩(Doug Drinen)和约翰…查尔斯·布拉伯瑞(JohnCharles Bradbury)所说,这种区别的主要原因在于指定的击球手规则。在美国联盟队,投球手不击球。因此,攻击击球手的美国联盟队投球手,不必担心对手队的投球手会直接报复。虽然投球手不太可能被击中,但如果他们刚刚在上半场攻击了某个人,那么,他们被击中的机会就会增加1/4。担心遭到报复是显然的。就像王牌投球手科特·谢林(Curt Schilling)所解释的:“当你面对兰迪·约翰逊(Randy Johnson)时,你还会郑重其事地向某个人投球吗?”
解决困境的初步思想(2)
大多数人在考虑一个参与者如何惩罚对方过去的欺骗行为时,就会想到“以牙还牙”的说法。这的确是关于囚徒困境最有名的实验结果。让我们详细叙述在实验中发生了什么,以及我们能从中学到什么。
以牙还牙
20世纪80年代初,密歇根大学政治科学家罗伯特·阿克谢罗德(Robert Axelrod)邀请了世界各地的博弈论学者以电脑程序形式提交他们的囚徒困境博弈策略。这些程序两两结对,反复进行150次囚徒困境博弈。参赛者按照最后总得分排定名次。
冠军是多伦多大学的数学教授阿纳托·拉普波特(Anatol Rapoport)。他的取胜策略就是以牙还牙。阿克谢罗德对此感到很惊奇。他又举办了一次比赛,这次有更多的学者参赛。拉普波特再次提交了以牙还牙策略,并再次赢得了比赛。
以牙还牙是“以眼还眼”行为法则的一种变形:人家怎么对你,你也怎么对他。说得更准确点,这个策略在开局时选择合作,以后则模仿对手在上一期的行动。
在《旧约·出埃及记》(Exodus,21:22)中,我们看