从自私走向合作¶

问题的产生¶

这几十年国内发生了翻天覆地的变化，最大的变化是人们的思想。转型期的巨大机会让敢于突破旧思维，捕抓新机会的人脱颖而出，也让不守规矩，急功近利的人获得成功。旧的传统道德观念，被质疑，被嘲笑，被认为是虚伪。个人主义作为个性解放，真情人性，被广泛地认同。然而这个东西方思想轨道的急剧转换，无论是源自对虚伪说教强烈的反叛，还是用先进的旗帜来掩饰损人利己，都没有了解到以个人主义建立起来的西方社会规范，不知道为什么人们愿意自律？只学了西方皮毛急功近利的社会，充满着短视、愚蠢和冷漠的自私，而不知道怎样才能真正为自己、他人和社会获取长远稳定的利益。

这个系列的科普从博弈基础讲起，引用一系列有关合作研究专著论文，直到近年《自然》期刊上的研究结果，解释人类、生物怎么从赤裸裸只求生存自身发展走向合作的内在机制，也引领困惑于自私与道德之间的人们进行思考，并理解人际关系中的常见策略。

我在这里讲：从自私自利的观点出发，用博弈理论来研究他们怎么能够走向合作。

说博弈的目的就是损人利己，这其实有点误解，博弈理论并非只研究你死我活的“零和博弈”。40年代冯·诺依曼（Von Neumann）奠基之作就包含了“零和博弈”和“合作博弈”，50年代纳什（Nash)便扩展到非零和博弈，奠定了“非合作博弈”的基础。非合作博弈讲的是：参加博弈的人没的商量各行其是，在选择策略中不是追求胜过对方，而是考虑在别人也不犯傻的情况下怎么让自己得到最大的好处。当博弈不是“常和”时，利己未必要损人。

下面是一个最为著名的关于合作的例子：

两个强盗Bob和Al持枪抢劫，还来不及做案时就被蹲在那儿的警察逮着了。回到局里，办案的被局长骂得狗血淋头：“你傻呀！还没作案抓什么？他们要都不认，最多算非法持枪判个一年。”办案的苦着脸回去，将强盗隔离关在两处，提溜Bob出来说：“老实招了，给你一个机会。要是Al抵赖，你去做污点证人，立功了就放你出去，他判十五年。要是Al也招了，立功不成也从宽，那就判你们十年。”转头也对Al说类似的话。你说Bob和Al会怎么做？

两个强盗只有“招”与“不招”两条路可走。

Bob想：“要是Al怂了去招，我不招是十五年，不如也招了才十年。要是Al顽抗不招，我就是不招还得判一年，不如招了立功还能抵罪释放。所以无论Al招不招，我溜溜地招了都比不招顽抗到底来得合算。”这个“招”的选择在博弈论上叫“严格优势策略”，无论什么情况都不亏。Bob思虑一番决心不能吃亏，自然选择了招供。
Al也不傻，同样的考虑也选择了招供。他们都不想吃亏，结果都判了十年，错失了相信对方合作一下大家都不招，只判一年更好的结果。

这个故事大约被是研究最多和最有名的博弈，正式的名称叫“囚徒困境（Prisoner's dilemma）”。那是Merrill Flood和Melvin Dresher在兰德研究合作与冲突时构造的一个模型，普林斯顿数学家Albert W. Tucker1950年在斯坦福大学给一群心理学家说明选择的难题时举它作为例子。这个例子写起来不到一页纸，却成为在二十世纪下半叶在社会科学中影响最大的一页，而且在哲学，伦理学，生物学，社会学，政治学，经济学，特别是博弈论各种课题文献中反复提起津津乐道。

上述例子中的囚徒选择是基于经济学中“理性经济人”的前提假设，两个强盗符合自己利益的选择是坦白招供。而对于整体有利的情况就不复存在。

		AI	AI
		沉默（合作）	认罪（背叛）
Bob	沉默（合作）	各判一年	B判十五年，A释放
Bob	认罪（背叛）	B释放，A判十五年	十年，十年

解说：

博弈局（Game）中的合作与背叛是相对于参与方来说的；
参与者都想自身利益最大化而不关心另一参与者的利益；
若对方沉默，而己方选择背叛就可以获释，这时候背叛则可实现利益最大化，己方会选背叛；
若对方背叛，己方有两种选择；选择沉默的话会被判十五年，选择背叛的话则只判十年，己方选择背叛则可实现利益最大化，己方会背叛。
所以，背叛在这场博弈中是“支配性策略”，当两人都选择背叛时，会达到“纳什均衡”，因为“整个情况下，没有任何参与者可以通过独自行动而获得收益”

博弈平衡¶

什么是博弈？生活之中，但有选择，凡是结果不是由单独一方便能决定，就成博弈。这时的选择便不能一厢情愿了，明智的人会考虑对方可能的选择，及自己的选择给对方的影响。博弈教你也要从对方角度看问题，研究怎样才能取得双赢。博弈首先教你要面对现实，学博弈告诉你不要自以为是，聪明是把大家都看作聪明人。世上的事不是一厢情愿就能搞定的，博弈教你的应对不一定都能得到期望的好结果，但学了会让你成为一个明白人。

下面先介绍一下博弈的基本概念和标准术语，以方便以后深入的讨论。尽量用日常语言将博弈论核心思想和论证逻辑揭露出来。

你和某人一起面临着“合作”和“背叛”两种选择。双方都选“合作”，大家都有好处，各得R分（Reward for mutual cooperation）。你选“合作”对方“背叛”，对方占了你的便宜，他得T分（Temptation to defect），你得S分（Sucker's payoff）。反之亦然。大家都不想吃亏，都要“背叛”，各自得了P分（Punishment for mutual defection）。这个局面可以列出一个表格如下：

		某人	某人
		合作	背叛
你	合作	R，R	S，T
你	背叛	T，S	P，P

这个局面叫着一个“博弈(Game)”。

“你”和“某人”叫“局中人(Player)”或者“博弈方”
可能的选择“合作”和“背叛”叫做“策略(Strategy)”
表格中的数值左边是局中人（你）选择相应那一行策略及对方选择相应那一列策略时的得益，右边是对方（某人）的得益
整个表格称为“支付矩阵(Payoff Matrix)”。

从博弈的观点来看，策略的名字并不重要。支付矩阵中的具体数值对定性结果也不重要。重要的是他们之间相对的大小。当数值大小T > R > P > S时，这个博弈就叫做“囚徒困境”。

注：

T（Temptation to defect）：当一方选择合作，另一方选择背叛时，背叛一方的得益
R（Reward for mutual cooperation）：当双方合作时，双方的得益
P（Punishment for mutual defection）：当双方都背叛时，双方的得益
S（Sucker's payoff）：当一方选择背叛，另一方选择合作时，合作一方的得益

博弈研究的是局中人怎样选择自己的策略来最优化自己的得益。用这个方法，前面Bob和Al的局面及公司价格大战的支付矩阵分别表示如下。

		AI	AI
		合作	背叛
Bob	合作	-1,-1	-15,0
Bob	背叛	0, -15	-10, -10

		公司B	公司B
		高价	降价
公司A	高价	5,5	1,6
公司A	降价	6,1	3,3

他们都是囚徒困境博弈。在价格大战中，双方都维持高价都能得5万利润，这个“高价”就是一般化模型中的“合作”策略，R=5。一方降价，采用的是“背叛”策略抢了高价要“合作”方的市场，这里T=6, S=1, P=3。

博弈方的策略可以是可行策略中的某一个，也可以是按某种概率随机选择，前者叫“纯策略”，后者为“混合策略”。
如果博弈各方所选择的策略组合使得博弈处在这样的状况：谁单方面的改变自己的策略都对自己没有好处，那么这个策略组合就称为“纳什均衡（Nash Equilibrium）”。这是非合作博弈的核心概念。
一个有限策略的博弈不一定有严格优势策略，但至少有一个纳什均衡。一旦进入纳什均衡状态，从利益角度就难以单方面改变了。纳什就凭着这个概念和存在性的证明奠定了非合作博弈的基础，因此得了诺贝尔奖。

用前面故事里Bob的相同思路可以证明：囚徒困境双方都会明智地选择“背叛”这个不需要玩概率的“纯策略”。而这一对策略就是“纳什均衡”，并且是唯一的。虽然要是大家都选“合作（招供）”，都会更好些（R > P)。但谁要是一厢情愿相信对方会合作，结果被背叛了就会落入更惨的下场。

这困境就对亚当·斯密的“看不见的手”的原理提出问题了。在《国富论》中说：“通过追求个人的自身利益，他常常会比其实际上想做的那样更有效地促进社会利益。”而囚徒困境中我们看到的却是：从利己出发的决定，结果是损人不利己。要都是这样的话，就会动摇了西方经济学的基石。

但是自然界自私的生物合作现象的确是广泛地存在，这又该怎么解释？

如果上述的一次博弈是“一锤子买卖”，不顾及到长远利益，那么生活中大多数时候的来来往往则需要顾及长久之计，就要用到重复博弈的模型。重复博弈讲的是将相同的博弈重复地来玩，用于一直面对相同局面的情况。

让我们用逆推归纳法来推理：考察最后一次的博弈，比如说第一万次。无论前面怎么样，这最后一次不必为将来打算了，这也就跟一锤子买卖一样，所以大家都自私地选择“背叛”。然后考察倒数第二，第九千九百九十九次。因为最后一次策略已定，那不管怎么委屈自己也换不来回报了，所以还是能合算就多合算点，结果也是“背叛”。一直照此倒推到第一次，结果全是一溜的做小人不要合作的嘴脸。

博弈论的有限次重复博弈的一个定理就是用这个思路来证明的。有限次囚徒困境的重复博弈仍然因为自私而陷入无法合作的局面。

但是自然界中的合作现象仍然成谜，博弈论何解？

有尊严才有和睦¶

有限次的重复博弈的结论有点出乎意外，与人们的直觉经验不大一样。在这论证之中，人可以精到从最后的第一万次不能吃亏算起，一脑门心思栽在最坏的情况，全然没想到变个路子还有多进账的可能，真不知道是聪明还是真傻。虽然现实中的重复博弈次数总是有限，但一般难以知道终点，也就无法从终点倒着算计。所以在现实中的人或自然活物都不见得按照这个有限次重复博弈逻辑进行。

那么，为什么博弈双方不往最好处想呢？为什么不互相信任一起往好处奔呢？

问题是你有什么保障能够信任对方？就拿Bob来说吧，不要说两肋插刀去保Al，就是为了自己抵赖不招。那头Al怂了。最后他出去了，可把你往里埋了十五年。Bob那个悔呀，我干嘛那么傻，指望Al也不会招！心里恨得把Al杀死一百回也不顶用了。

积极的策略光有愿望还不够，必须有切实的办法，让对方是真心要合作才行。还是转回来，看看理论研究有什么结果。

无法知道终点的情况与折现到无限重复博弈在考量上是等价的。我们来考虑这种情况。

重复博弈与一次博弈重大的区别在于：局中人在乎的是多次博弈中总的收益或者平均收益，为此可以暂时牺牲一下眼前的收益。这也需要对方的配合。说教对唯利是图的人是不起作用的。为了使得对方相信有些便宜是不能占的，你必须让对方知道，当善意被认为是可欺的后果，这会得到报复，让他知道如果选择只顾眼前的策略，下一步起就要吃大亏了。让他权衡从此往后的收益，从而改变短视的做法。

这个带有报复威胁的策略在博弈论中叫着“触发策略(Trigger Strategy)”。最简单的触发策略是“冷酷策略（Grim Strategy)”。

现在看一下“冷酷策略”怎么让重复囚徒困境博弈走向合作。这个的冷酷策略是：小子，你要胆敢“背叛”我，从此你就别想有“合作”了！

在这个冷酷策略下，对方都不会愿意破坏双方一直合作的大好局面。
为什么呢？假如你想占便宜，下一步要背叛，就会再想想：触发了报复的冷酷策略，再下一步往后，我都要面对着对方“背叛”的局面了，我以后不论怎么做，这个收益可要比大家都合作来的少，几步下来，那一步占便宜的好处都抵不上这样减少了。所以还是不变的好。
这是每一个精于计算的人都能想明白的事。至于没有这个思考能力的微生物，这个威慑则是在进化过程中，经过残酷的自然淘汰，形成了某种模式识别的本能。因此重复囚徒困境博弈可以在冷酷策略威慑下保持合作。

这便是重复博弈中**“无名氏定理（the Folk Theorem）”**证明的基本思路。

光有善意是不够的，能报复才能维护尊严，威胁才能带来和睦，这对善良人的想法真是一个很大的讽刺，但也十分现实。

在这里有一个关键是：这个威胁必须是“可信的（Credible)”才能吓着对方。对唯利是图的博弈者，没有实现策略能力的问题，只要这个策略在任何情况下都不会让他吃亏，就有可能去做，这个威胁也就是可信的了。这时对手在行动时就要认真地对待这个威胁，掂量一下是不是值得改变既定的默契而遭到报复了。

让我们验证一下真正的冷酷策略的可信性。

当我遭到背叛启动了这个报复策略以后，不管你是什么策略为都报之以“背叛”。
如果这时你是“背叛”，我也是“背叛”，针尖对麦芒，自然比傻乎乎的还再来个“合作”强。
如果你这时悔改了要“合作”，晚了！我的“背叛”就占了你的便宜。
所以无论你怎么着，我这个冷酷策略与其他可能的选择来比都不亏。这个策略是可信的了。

使用报复的先决条件是能提供双方都能得利的合作意愿，当合作的价值不足以克服对抗时，这个报复维持的就不是具有善意的尊严，而不会得到尊重。

“无名氏定理”，有时翻译为“民间定理”或者“俗定理”，其实是一组在重复博弈中寻求可行解决方案（Solution Concept）的定理，有着不同的版本。它的基本思想早在50年代末便不加证明地散见在一些论文中，后来大家发现这个思想对重复博弈非常重要。在1971年Friedman正式在他的论文中用了这个名字。被大家通常引述的Rubinstein 1979年的证明便沿用上述的思路。

重复博弈从某一步开始往后的一系列博弈叫做它的“子博弈”，如果各博弈方的某个策略组合在所有子博弈都构成纳什均衡，那么这个策略组合称为“子博弈完美纳什均衡”。重复博弈一旦进入子博弈完美纳什均衡状态，从利益角度也就难以单方面改变了。谁变了就是不吃亏也没好处。这类比于单次博弈中的纳什均衡状态。

“无名氏定理”其中一个比较含糊通俗的表述是：在无限次重复博弈中，如果局中人对未来足够重视，那么，任何程度的合作都可以通过一个特定的子博弈完美纳什均衡得到。这里“合作程度“定义为整个博弈中合作出现的频率。这个博弈解能够存在的关键，是具备有报复性的触发策略。

这使得重复博弈要比其单一博弈要丰富多彩得多。

宽容比冷酷好¶

“冷酷策略”能够让极其精明自私的对手，从自己的长期利益出发，自觉地放弃眼前短期利益，而走向合作。这里用博弈的逻辑证明了一个重要的手段：在重复博弈中让对方了解自己可信的处事原则就会影响他的决策。

“冷酷策略”是老实人报复性的政策，有阻吓作用，但一旦开动两败俱伤，对方得到的教训是极其惨痛的，但施罚者也赔上了，从此被仇恨蒙住了眼为复仇付出终生。对阵时万一遇上不开眼的马大哈或者纯粹误会，那就掐上了，确实过于冷酷，对自己也不见得好。“不教而诛，谓之虐”。既然让对方了解自己可信的处事原则就会影响他的决策，是不是罚过了给个出路，如果对方改过了，能宽容一点吗？如果能够重归合作，不是对大家都有好处吗？

确实如此，这个触发策略的政策叫做“礼尚往来（Tit for Tat）”。你用“背叛”待我，下一回合我也回敬不合作。待到你什么时候想通了回应“合作”来，下次我还给你“合作”，这是宽容的态度。这个策略有时翻译得更有杀气点叫“以牙还牙”或者“一报还一报”，简写为“TFT”，其实含有宽恕的成分，远比“冷酷策略”要温柔的多。

TFT有威胁阻吓作用吗？

TFT有两个成分，一是“惩罚”，二是“宽恕”。如果把它分开陈述，什么时候使用“宽恕”要看我爽不爽，受阻吓的人当然要考虑最坏的情况，那“惩罚”的政策就有“冷酷策略”的功效。
要是这两个成分捆绑在一起作为一个政策公布，那对方就可能有个投机的心理。
要避免投机，一会儿“背叛”，一会儿“合作”钻政策中宽恕成分的空子。
能持久合作的重复囚徒困境博弈，必须满足 "2 R > T + S"这个条件才行，就是说用“背叛”对“合作”，占便宜和被占便宜的得益平均值要小于共同合作的得益，不然投机分子就会反反复复玩这手来得益，反正被惩罚了挨打也不怎么疼。中国历史上许多部族时降时叛，最典型的是隋唐征高句丽，就是因为该惩罚时没打疼，反叛时收益大，让这个条件不能满足被钻了空子。读者可以自己来证明这个条件的作用。

为了让大家方便对照T，R，P，S的含义，我将囚徒困境的支付矩阵重新罗列如下。注意有T > R > P > S。

		某人	某人
		合作	背叛
你	合作	R，R	S，T
你	背叛	T，S	P，P

是不是有了这些触发策略以后就能做到合作？未必。触发策略是后发制人。它们可以是子博弈完美纳什均衡，也就是说它可以维持已有的合作局面，但不能开创这个局面。对于囚徒困境，无论是单次还是重复，谁先伸手合作，都有可能吃亏。考虑一下对方第一次就使出“背叛”不怎么友好的人，你无论是使用冷酷策略还是温柔些的TFT，到第二步就是用“背叛”来报复了。如果对方也不肯吃亏，那么以后双方就都是用“背叛”来对掐了。我方第一步用“合作”要比“背叛”来的吃亏。即使双方都有触发策略，要扭转对抗的局面，就必须有一方先做出牺牲才行。

这又给我们一个启示：重复囚徒困境博弈中必须至少有一方愿意牺牲才可能开始合作。

是不是愿意作牺牲高尚的一方一定要受损失呢？不一定。他只有在碰到有恶意的对方时，第一下被人占了便宜，以后就不会了。在触发策略启动后，随着交手次数的增加，这个平均收益与不作牺牲最好的对策的差别就会越来越小，交手足够多时以致可以忽略不计。但如果对方也是怀有善意，或者能够改恶从善从而走向合作，那就挣大了。冒一个小损失的风险而可能取得合作双赢的高尚人也是真正一个聪明的人。

所以说：自私一点精于算计的对手并不可怕，就怕你要合作的人不够聪明！

更精明的人有两个疑问：

一是作为现实生活中的重复博弈虽然不知道什么时候结束但都是有限的。
二是现在的收益中与以后的重要性是不同的，对金钱还讲个利息呢。

考虑到这两点对上面的结论有什么影响？

不难看出这两点都使得长远的利益打了折扣，这要使得惩罚威胁的效果降低，合作的难度是要大些。不是很难可以推算出精确的结果。

假如下一次还会相遇的概率为p，现在的收益放到下一次的利息为r，记近利诱惑率$W =（1+r)/p-1$，下一次可能的博弈收益V折现到现在的收益就是 $V/(1+W)$。用这个参数，可以算出当$W<(R-P)/(T-R)$ 时冷酷策略才有威慑力。当 $W<(2R-S-T)/(T-R)$ 时TFT的宽恕成分才不会被人有机可乘。注意到无利息无限重复博弈时 $W=0$，囚徒困境有 $T>R>P>S$，这时冷酷策略威慑力的条件自然满足，具有宽恕成分的TFT的有效条件变为 $2R>T+S$，这与我们前面陈述的一样。

这让我们看到有时人性阴暗的一面发生的原因。自私的人们之所以可以从囚徒困境的悲剧中跳出来，是因为将来还会相遇，将来也很重要，可以用将来长远的利益来影响对手当前的策略选择。在当前的利益比将来重要的多时（r 较大），当将来相聚的机会不大或看不到将来时（p 较小），这导致近利诱惑率W较大，就是说当下的收益被更加看重，不怎么在乎将来。这时，如果对反复无常的人报复的损失 2R-S-T 不大及背叛的诱惑 T-R很大，条件W<(2R-S-T)/(T-R) 就有可能不能满足，这意味着TFT的宽恕不足以挽回想背叛的人走回合作。

在环境更恶劣的情况，如果双方合作与背叛单干的收益的差距 R-P 不大及占便宜与合作的差别 T-R 很大时，$W<(R-P)/(T-R)$ 不满足，意味着连冷酷策略都无法阻止背叛。这在W比较大时就容易发生。这就是为什么在经济危机时公司的合作可能瓦解，国家之间容易发生战争，灾难之中朝不保夕时常见丑恶，高速转型期近利诱惑率W较大时，传统道德往往沦丧。这时老实人吃亏，小人得意，任何的教化和局中的策略都无济于事，局中人为了自保减少损失纷纷走向背叛。只有较小的团体可能在其他力量约束下，保持这种不稳定的合作平衡。**唯一可以改变这个局面的是超脱博弈双方的政策，它可以直接干预改变支付矩阵中部分参数的赋值。**是以乱世用重典，转型期特别要注重宏观调控。利用转型期混乱牟利的利益集团和人则反对控制，用冠冕堂皇的口号，不切合实际的理论来阻止有针对性的政策改变，使得社会群体难以合作陷入长期对抗之中。

这次从2008年开始的美国金融危机让投资人，消费者，银行，公司的合作关系面临崩溃的危险。“看不见的手”的运作已经指向负面，美国政府大力出手干预自由经济。采用一系列比社会主义还要直接的政府干预手段，改变了博弈支付矩阵的赋值，使得局中的合作关系得以维持，不至于让危机进一步扩大。这与1997年亚洲金融危机，以维持自由经济原则来批评香港政府的态度截然不同。

我们在这里看到了：对于重复囚徒困境博弈，采用有反馈的策略可能阻止背叛走向合作。但是当环境恶化，惩罚不足以让背叛者拒绝占便宜的诱惑时，合作将会瓦解。上面的数值关系条件给出合作得以维持的条件。给当权者指出用政策来改变社会风气的方向。

短视的原因¶

上一篇用囚徒困境的两个不等式，解释了高速发展转型期，很多人无论出自贪婪还是自保，纷纷叛离社会合作现象的原因，和可能的应对办法。

这两个支付矩阵赋值的不等式，揭示了现实世界合作环境的许多秘密。有些读者希望对此作更详细的介绍，我就加写了这篇来讲解它们的推导和解读，演示如何应用博弈知识研究实际问题。这些推导演绎，只需要中学的数学知识和逻辑的头脑便能理解。

囚徒困境是这样的一个局势：明知合作可以双赢，利益的诱惑让人们背叛了合作，从可能的双赢走向双输。这是在生物界和人际关系中经常存在的一种局势，在现实中这种局势下的合作还是经常可见，人们常常把它解释为性善或者道德教化的结果，其实这两者只是表面上的一种现象，支撑着它们的背后，必定有着能让信仰者真正受益的道理，否则迂腐无用的教诲，必然会被人耻笑而束之高阁。

这前面两篇解释了囚徒困境，在重覆博弈时采用触发策略，就有可能走向合作。触发策略是一种对背叛行为报复的威慑性警告，它能让唯利是图的人从自己长远利益出发，克服眼前短期利益的诱惑，自觉地进行合作。但是面临着同样的囚徒困境局面，为什么有时候社会十分和谐，合作和诚信能被人们广泛地遵守，有时候则充满着背信和欺诈？这就必须深入考察触发策略促进合作的机制，从量的关系来理解它们的不同。

囚徒困境的支付矩阵表示如下。注意有$T> R > P > S$。T是背叛的获益，R是合作的收益，P是互斗时收益，S是被人背叛后的收益，这些收益也有可能是负值。

		某人	某人
		合作	背叛
你	合作	R，R	S，T
你	背叛	T，S	P，P

对背叛行为报复的威慑性警告能起作用，是因为人们在乎以后再次博弈的收益，所以能够抑制短期利益的诱惑，而继续合作。

记$W$为下次博弈收益的折扣率，这是一个正数，它把下一次可能的博弈收益$V$折算到现在的收益为：$V/(1+W)$，这个$W$的数值越大，下次博弈的收益对现在越不重要，所以也称为近利诱惑率。

触发策略能够阻止背叛，是因为背叛比起合作，额外得到的好处T-R，小于以后从此对抗的损失

$(R-P)/(1+W) + (R-P)/(1+W)^2 + (R-P)/(1+W)^3+ (R-P)/(1+W)^4 + … = (R-P)/W$，即$T-R < (R-P)/W$ 推得$W < (R-P)/(T-R)$。当这个不等式不能保持时，这就无法阻止自私的人们急功近利了。

TFT触发策略，除了对背叛报复外，比冷酷策略来得宽容。惩罚过后，当对方回归合作时也报以合作。但这互利的宽容有可能被反复无常的小人利用，时叛时和，从中牟取好处，为了阻止这种反复无常的行为，背叛得到的好处T-R必须小于下一次博弈时得到惩罚的损失R-S，

这就有$ T-R <(R-S)/(1+W)$，推出 $W < (2R -S-T)/(T-R)$。只有这个不等式成立时，TFT策略才能导致稳定的合作。

$W<(R−P)/(T−R)$ （1）触发策略能阻止背叛的条件

$W<(2R−S−T)/(T−R)$ （2）TFT能阻止反复无常的条件

这两个不等式是重复囚徒困境博弈能够保持合作的关键。这和博弈的局势和博弈人的处境都相关。当博弈中背叛比合作的好处$T-R$很大，合作与和互斗相差$R-P$不多，或受惩罚时损失$R-S$不大时，合作就容易瓦解。当局中人在近利诱惑W较大的处境时合作也不容易维持。

近利诱惑率$W$是由两个因素来决定的：一是下次还会相遇博弈的概率$p$，下一次见面的机会不大，急功近利做一锤子买卖的人就多；另一个是现在的收益放到下一次的利息$r$，利息越大，贪图眼前好处的就越多，这两个因子把下一次可能的博弈收益V折现为$Vp/(1+r)$，由$W$的定义不难推出：

$W=(1+r)/p–1$ （3）近利诱惑率与眼前收益的效益及再次博弈机会的关系

在高速发展的转型期，新技术、新行业、新政策、新职位、新机遇很多，这意味着背离原来旧的合作关系有着很大的 $T-R$ 收益。这让敢于突破旧思维，捕抓新机会的人脱颖而出，也让不守规矩，急功近利的人获得成功。

这时许多博弈的局势恶化比较不利于合作。另一方面，迅速成功的获利者，其新获得的经济和权位上的资本，能在这充满机遇的时期能产生更大的后续效益，即利息r或者说眼前收益的效益很大。而且这迅速成功拉开经济或职位上的差距，使得下一次与同一个人再次博弈的概率p减小。
这时期人员流动率高，也使得与同一个人再次博弈的可能性p减小。所以在高速发展的转型期近利诱惑率W很大。很大的近利诱惑率和恶化的竞争环境造成了人们急功近利，所以这时期社会道德沦丧，老实人吃亏，小人得意，很多人无论出自贪婪还是自保，纷纷叛离社会合作现象。

这三个关系式从微观机制上揭示出社会环境和社会现象之间的连系。制定政策者可以从中找出改变乱像的有效措施，个人也可由此知道趋避。

博弈的理论是用微观机制研究群体、社会宏观现象的数学工具。从理性经济人（有头脑的唯利是图者）的假设开始，研究他们间博弈的均衡。在现实中，生存竞争的淘汰会在竞技场上抹去不明智的失败者，所以群体众多的博弈，在时间的作用下会消除个体间决策的差异，得出由大多数理性经济人最佳选择产生的宏观规律。

是不是在这恶劣竞争环境和很高的近利诱惑力下，人人都必然沦落才得以生存？也不尽然。虽然这个诱惑很大，也能在相当长的时间内获得利益，造成社会群体道德的沦丧。但不少的人还是有着底线，有所为有所不为，君子爱财取之有道。博弈者的眼界、格局、气度和目标，决定了他所构造的博弈模型。这就有着不同目标、范围和时间长度。道德的底线经过历史长河的洗涤，流传至今，仍在人们思考和计算的盲区里闪烁着益人的智慧。焉知追求那些短视的成功都能够幸福？焉知那些成功者现在的作为，不会成为今后不利的原因？后面的章节会给读者更多的思考。

子曰：“不仁者不可以久处约，不可以长处乐。仁者安仁，知者利仁。”

善良的回报¶

博弈理论中的无名氏定理毕竟只是证明了：无穷多种合作的均衡可以在重复囚犯困境博弈中，由理性自利的人作出来。但进入这个合作均衡的第一步必须至少有一方能够忍让牺牲才有可能开始。那么在现实中这合作真的能够做到吗？低等的生物和分子水平的个体并没有多少智力，更谈不上道德，它们能够出现合作吗？

70年代密知根大学教授Robert Axelrod做一个实验，他邀请各个大学心理学，经济学，政治学，数学和社会学专家，在囚徒困境的游戏规则下，各自提供认为最能够取胜策略的程序，进行电脑程序锦标赛。两两程序捉对比赛5次，每次进行200步重复博弈。比赛结果发现，在15个程序中前8名积分最高的优胜者都是善良的，即从不首先背叛，而其他则都不是。在所有善良的程序中，得分最低的是最不宽容的冷酷策略，一但受背叛绝不谅解。

冠军为多伦多大学心理学教授 Anatol Rapoport 得到。他的程序最简单，只有5条Fortran指令：第一次合作，以后就照抄上一回合对手的策略。这就是TFT呀！Axelrod十分惊异这个结果，又组织了一次比赛，有62个参赛加一个随机程序。结果还是它得标。单纯的善良容易受到欺负，进取十足的过于咄咄逼人，老谋深算精于分析都不如这个简单的TFT能够因合作而受益。TFT与每个对手对阵，都没胜过对方，最好的也不过是平局，但它所有的对阵的收益加起来总分最高。不求胜过对方，结果活得最滋润，这才是真正的智慧所在！

这个电脑仿真实验给人们很多启示。

首先，无论是人际关系，公司竞争，生物生存的博弈，真正的目的不是胜过对方而应该是自身的总收益。因此自私明智的策略应该是最大地促进合作而不贪图短视的近利，TFT没有胜过任何对手但得了与所有人对阵后最高的积分。
其次，TFT的策略以合作开始是善意的，受侵犯会报复是尊严的，对方悔改就原谅是宽容的，程序简单是明朗的。这善意，尊严，宽容和明朗的特点也是人们熟知的最好的处世之道。

这个以合作为开始以后照抄对方行为的TFT策略是如此的简单，不需要多么高级的智力就能实现，任何生物以致分子团都能于生俱有。这就解释了为什么在自然界合作能够如此广泛地存在。

“等等！你前面推理说的是：TFT软硬兼施，弄得精于算计的小人都要合作。后面实验说的是：TFT与其他各种死不改悔的策略过招，结果积分最高。这哪儿跟哪儿呀，怎么闹到一块了？”

“后面实验的结果说明：TFT和其他策略竞争时有生存的优势。而它是靠合作的成果来取胜的。前面的推理是说：要是对手足够聪明，经过一番推理后，他会选择与你合作。要是对手不够聪明或者没有智力，那采用其他策略时就会遭到实验一样的结果，终将被自然淘汰。聪明的人在头脑里过了一遍各种可能，是不需要碰了壁才想明白的。博弈的均衡是自然淘汰后的结果，或是聪明人能想明白的状态。”

“那么，像TFT和冷酷策略，要宣示出来让对手知道吗？”

“不说出来，策略的优势表现在博弈的结果上。就像上面实验一样。但这是血淋淋的战后统计结果。宣示出来，策略的优势表现在影响对方聪明人的决策上，防止误判，达到不战而屈人之兵的结果。”

这里几个最典型策略的对阵情形，不需要计算机模拟实验，也还是很容易想象的。这也是人们在生活中经常遇到的。

一律不合作好战的恶人AllD (All Devil) 与同类交手，则互斗，双方都得了次差的收益。与TFT和冷酷策略（Grim）对阵也基本如此。但遇上对方怀有善意伸手合作的都能占了便宜，收获大。对方善意越多，恶人得分越多。所以恶人得势是仰赖于好心人的姑息养奸。
非常善良一味合作的AllC (All Collaboration)与同类、TFT和Grim相遇时都能合作，各得了次好的收益。遇上无视你的善意的AllD和其他比较狡猾的策略，只能被予取予夺，对方得到最高，自己落得最惨下场。所以单纯的善良只能生活在备受保护的环境，遇到坏人总是受欺。
Grim，与TFT或单纯的AllC相处还好，遇上其他不太安分的策略，最终多会互相掐上了。这家伙苦大仇深，心眼较小。眦仇必报，一但发作，没完没了，自己的人生也赔上去了。
TFT与Grim最初的应对相同，遇上善良的能够合作共荣，遇上恶意的则报复不容欺侮，但遇对方不安分但尚能见风使舵的还会走向合作共赢。唯宽可以容人，这对大家都好。

其他更狡猾复杂的策略至多在AllC或比较善良的策略间讨点便宜。对AllD，TFT，Grim及其他比较狠辣的策略得不偿失。

当然Grim和TFT，严格地以牙还牙，还是显得过于狭隘。双方都持有这种策略在如电脑一样毫不差错的对局中都还能合作下去。但在现实世界中偶而的错失和误解是难免的，一个误会就引起惩罚，惩罚带来报复，报复又受反击，这样以牙还牙的一直互斗下去。现代的战争和人事无谓的争斗大多是如此引起的。为此各种修正的TFT应运而生，比如说受到对方背叛时不一定非要报复，有时偶尔再次伸手合作，具有额外的宽容可以在误会等等具有噪音环境里，也能稳定地走向合作。

邪不胜正的根本道理在于：邪道追求的是胜过对方，而正道追求的是合作共荣。在每次博弈时，邪也许能胜了正，从中得利，但在与各种人长期相处中，坚持正道的，则累积了最多的收益。

善良的空间¶

Axelrod的电脑仿真实验，可以解释促进合作的TFT策略，比其他在生存之道上更有优势。但是这电脑比赛是一对一的交往，而在生物竞争中的个体是生活在一群同类和异类的环境中，一个人可能落入一个充满恶意的群体中。TFT的最初善意在一对一的比赛中遇上了AllD只是在第一下吃了点亏，以后重复就打平了，它的善意能够在和别人合作时得到了补偿。但你如果落入一群白眼狼中，每遇一个新的白眼狼都吃一个亏，累积起来伤痕累累，还能活下去吗？

这个比赛也没有解释，这个策略是否可能在进化中产生。没解释，如果你身处一个全是短视不愿合作的团体，有没有可能用TFT的思想来影响转变他们。

进化中能够产生的新种，都是微小的变异偶然在原有的群体中发生。它必须比原来个体更有适应环境的优势，才可能得以在竞争中生存发展。也就是说，新的策略如果它可以具有更多的收益的优势，就可以侵入原有的群体，它也就可以在进化中产生。

“白眼狼绝境”¶

一种新的思想也如同生物一样，在人群中被模仿、竞争和扩张。在一个都习惯于一种思想的团体，如果一种新的思想能够影响几个人，从而使得他们的收益大于守旧的人，那么这种新思想就能在团体中站住脚，并得到发展。不然的话，这个群体中的原来策略，或者团体中的旧思想就会扼杀新思想。能够抵御异类入侵的物种和思想，称为“进化稳定策略（Evolutionarily Stable Strategy)”，简称ESS。

ESS概念是John Maynard Smith在1972年首先引入的。一个群体如果都采用某一ESS策略，那么采用任何一个其他策略的少量个体，都不能入侵它。也就是说，自然选择的力量会消灭群体中ESS策略的变种。这个概念起先用在博弈论，行为生态学，经济学上，后来广泛地被用到人类学，进化心理学，哲学和政治学上。Maynard Smith因此在1999年得了在基础研究中荣誉不下于诺贝尔奖的Crafood奖。

探求自然界合作之谜，在上个世纪八十年代就开始有很多的研究。在囚徒困境的环境下，持有AllD和TFT策略的物种都是ESS的。也就是说，当着两种物种混在一起，只有TFT占有足够多的数量，自然选择的压力才会让TFT占据优势，从而一统天下。否则，AllD将消灭TFT。
进化都是从简单开始的，最简单的策略是毫无记忆不知变通的AllD和AllC。在全是AllC的群体，它们都是非常善良总是合作，个个都有很好的收益，这就像在伊甸园。但是如果偶然变异产生了一个AllD的恶魔，或者来自外面的入侵。
这个总是不合作的AllD，在遇见AllC时占尽便宜得到更多的收益，所以在进化中具有竞争优势，产生出更多的后代，进而侵吞了整个AllC的世界。这个需要拥有记忆比较复杂一点的TFT在变异中产生时，必须面对着全是恶魔的AllD地狱世界，按照上面ESS的结果是无法生存下去的。

“进化之变”¶

Nowak，Sasaki，Taylor，Fudenberg等人在2004年《自然》期刊上发表一篇论文“Emergence of cooperation and evolutionary stability in finite populations"带来了新的希望。他们认为进化中的个体不需要面对整个世界，而仅仅是局部的有限群体，所以ESS的结果并不是TFT不可逾越之壁。他们用一个0到1之间的参数k，来表示竞争的收益对自然选择影响的程度，0代表着毫无影响，1是唯一的影响，就像在ESS中一样。他们证明了TFT可以在全是恶魔AllD有限群体的地狱中进化产生，合作这时就在自然中涌现。

论文证明了当这群体只有两个个体时，AllD与TFT直接对决，TFT不占优势。但个体数大于三，在它们中间有一定的概率变异产生的TFT能够入侵原来的AllD群体。当群体中个体数大到几百时，入侵速度也随之变大。当自然选择压力k较大，随着群体进一步加大到几千，入侵速度则随之回落直至入侵被消灭而没有善良生存的空间。

这个结果十分有意思。它告诉我们：礼尚往来的TFT与只想占便宜的AllD两个相处时，不占上风。随着群体人数增加，即使原来大家全是斗鸡似的不合作，礼尚往来的风气终将会占了上风，大家都走向合作。在竞争压力不是那么大的小镇乡村，合作容易产生。在竞争压力大的大城市里，人际关系趋向冷漠不大合作。对于千人的大公司，如果将业绩作为升职去留唯一考量的标准，人际关系将会空前的紧张，友善合作就会输于冷漠自私。这一点非常符合人们的经验。

小地方小单位人们抬头不见低头见。人数不是太少时，你不和我合作有人和我合作。你占了合作人的便宜，大家很快又会遇上，就没那么客气了。所以这种情况有利于合作是可以想象的。有没有比较具体的数字结果？有。例如囚徒困境的收益矩阵中R=3，T=5，P=1，S=0时，在三个人的情况，如果相互间都有十次以上交往，合作就易于占上风。四个人，六次以上。很多人，三次以上就足以让礼尚往来TFT蔚然成风。

这个结论不难通过数学计算，或者计算机模拟计算来验证，也能通过实例来理解。想象一下这样的场景：有个公司在外地有几个推销员，每过一段时间推销员去公司汇报时把产品带回，在同一个城市的推销员有两种选择：只带自己的和帮另一个人带回他的产品。这时有三种情形，一是得到好处的人礼尚往来，谁去公司都把对方的产品带来；一是两人都不合作时，大家去公司各带各的回来；还有的是一方合作，替对方把产品带来，不合作的那个占了便宜，轮到他时，只带回自己的那份。从销售的业绩来看，这是个囚徒困境的局面。大家互不认识时，为了自己的业绩，起先都是AllD只管自个儿的想法。先表示善意替人带产品的TFT思想随机出现，这时如果只有少数几个人在同一个城市，经过多次交往后，大致都会替对方带产品，这种TFT策略的做法慢慢就会蔚为风气。人数多几个，这做法流行得更快，即使是全无心机总是助人为乐的AllC也会很好过。人多到一定程度，每回碰到刚好有同样想法的人概率比较低，主动先帮忙的风气形成较费时间。如果公司按照业绩来提职裁员的考核压力提高（相当于k较大），那么这种主动帮忙占上风的难度就会大大地提高。

好了，让我们总结一下讫今为止研究的结果。

自然选择的压力决定了采用什么策略的个体能够在囚徒困境的环境下生存。

当个体没有记忆能力时，善良的AllC群体必然被无情的恶魔AllD入侵所淘汰，留下一个绝不合作个个互斗的冷漠世界。
当个体拥有一点记忆能够记住对手的表现时，只要环境不是特别恶劣，友好又具有报复能力的个体在竞争中因为相互合作又能对抗AllD而赢出。它能入侵AllD的群体，让合作的现象涌现。它能保护AllC与之共荣，从而使得单纯的善良也有了生存的空间。

规范和自律¶

生物在比较简单低级时，所有的行为策略都建立在本能反应上。本能和情感层次上各种可能的策略在严酷的生存竞争中经历了筛选，拥有收益累积较差策略的物种和族群，在自然选择的压力下被消灭，留下对于生存有利的包括TFT及类似的策略。

合作是生物在自然竞争中进化的取胜之路，被铸进了生物的本能。有利于基因传承和团体共同利益的合作需要，随着进化发展出“感情”的追求，必要时它可以压制个体自私的短视反应，以保护家庭、血缘、团体、种族的利益，在更高层次和统计意义上有益于个体。幸全下来的生物，按本能和情感反应行事是很多情况下最好的策略。但这仅仅是动物本能的水平。

自从人类有了意识，开始用头脑来审视纠正各种本能，用理性做决策，以面对更复杂，更长远的追求。没有足够阅历和智慧的人们，一般只能看清眼前的利弊，简单的利害计算往往急功近利，在困境中难以合作，反而不如千万年进化中铸入内心的情感反应，能够克服这种短视。因此人们常鄙视精于算计的考量，喜欢用心而不用脑的性情中人。

现代的人们具有较多的理性，理论上我们可以完全基于对局势和现状的准确判断，来做出最佳的决策，但在实践中并非容易。因为考量可能是狭隘的，忽略了感情、现实或其他的因素，眼光也许是短浅的，看不清容忍之后真正的好处。除非人们真能洞明世事客观冷静，未必能够判明情况。在实践中真正让理性思考超越感情用事的，不是利益精细的计算，多是对经验的借鉴和对后果的推测。

经过千百年时间的经验的累积和沉淀，那些对生存有利的，特别是对集体有利的策略思想都以格言，传统，道德教诲流传下来，形成一个远比现实世界要简单的价值体系。在这价值体系中追寻现实世界问题的答案，通常要比短视的算计更有利于合作，有更好的长期收益，也比情绪反应来得客观和稳定。当我们不能确信时，传统的道德作为无数经验留下的智慧，能够纠正人们短视的计较，成为决策的指南。

但是仅仅是博弈者将这些道德教诲作为应对的策略，并不足以造成社会上的广泛合作。当博弈者不知变通，过于单纯善良时侯，不能阻止急功近利的人取得暂时的优势。当对方不按善良规则行事时，正确的应对也只能是以牙还牙，与愚蠢的对手一起陷入互斗。人类社会在恶劣环境下，仍然能够保持合作不沦为霍布斯丛林，是因为有着社会规范（norm）形成个体对合作行为的自律。这个社会规范是被人们广泛认同的行为规则，不遵循这行为规则的将受到公众的惩罚。

人们文化中的价值观念，形成具有强大约束力的社会规范。包含有种种利于合作双赢美德的社会规范，成为有益于家庭、亲朋、团体、国家、种族生存的文化基因。在社会竞争中产生和保存下来，缺乏这些的文明则在竞争中淘汰灭绝。

当道德的教诲成为具有约束力的社会规范时，世俗的大众对背信弃义，急功近利的谴责和厌弃，会让背叛者遭受额外的损失，这个规范赏罚作用叠加在博弈收益矩阵上，改变了赋值，让人们从自身短期综合利益出发也更倾向于合作，从而走出囚徒困境。所以道德教诲具有改变环境，改善社会风气的力量。这个力量主要不在于心灵的感化，而在于形成社会规范后，那种由群体产生要大家共同遵守的压迫力量。

除了基本是共通的促进和谐合作的道德教诲外，不同的文化还具有不同的社会规范。例如决斗，在儒家文化认为使用武力来解决争执是粗鄙的，在西方却被认为是维护尊严和荣誉的骑士精神，这个西方社会规范延续了几世纪，屡禁不绝直到近代。俄国伟大的诗人普希金，法国天才的数学家伽罗华都在无谓的决斗中丧生。1804年美国的副总统亚伦·伯尔（Arron Burr）向美国创始人之一亚历山大·汉密尔顿（Alexander Hamilton）提出挑战，汉密尔顿在决斗前夜列出了五种反对决斗的理由，包括被法律禁止、有家庭责任、不反感伯尔、不想无谓的牺牲、怕树立坏榜样等等，但在公众的偏见面前，他还是为不受鄙视不得不遵从规范，最后为之失去了生命。可见规范约束力之大。

在西方道德的教诲，基本是通过宗教来形成社会规范，约束着人们来弃恶从善，所以西方人认为没有宗教信仰的人是邪恶的，因为没有道德约束可以为所欲为。其实中国道德的教诲主要通过儒家的学说，仁义礼智信，温良恭俭让，两千多年来一直是中国社会稳定和合作的规范。

博弈学者RobertAxelrod对社会规范的研究，被选为1985年美国政治科学年会的最佳论文后，引起了社会科学学科，包括社会学、人类学、政治学、心理学以及经济学的关注。Axelrod发现各种规范在人类和国际社会广泛地存在，认为规范是合作困境的一种解决方案。规范的存在也很好地解释了：为什么在囚徒困境时，无论是文明社会还是黑道帮派，都还有不少人能舍弃眼前利益的诱惑，自律地进行合作。

Axelrod研究了规范的形成、维持和崩溃的过程。

基本规范的模型是n个人的博弈，每个人都有两类选择，一类是与他人是合作还是背叛，另一类是否惩罚被发现有背叛行为的人。用变量“冒失”表示背叛的数量，“报复”表示惩罚背叛的概率，当报复水平高到一定程度，冒失水平低于一定程度时，规范就建立起来了。这时候自律的现象随处可见。

他用计算机模拟，人们在利益驱动下用随机试错来学习调整自己的策略，实验发现：规范中最初冒失水平在下降，因为人群中有惩罚背叛的报复心理，接着报复率也在慢慢地下降，因为惩罚对方也需要付出一定的代价，在没有有效的激励下，大家倾向于不做牺牲去惩罚背叛，让坏人在别人手里恶贯满盈，这样子冒失的水平就开始回升，越多的背叛，人们越倾向于不管闲事，直至规范的崩溃。崩溃是稳定的结果，也就是说没有外力，规范是不可能自动建立起来；没有有效的激励机制，已有的规范必然走向崩溃。

研究维持规范稳定的机制时，他发现“元规范（metanorm）”是最有效的，元规范指惩罚（谴责）看到违反规范不作为的人。这也是我们几千年来就一直有过的道德说教，我们因为曾被强制受过其害，物极必反了，这个机制连同道德规范，现在都被人们以反封建老古董的名义鄙视了，这也解释了我们公共道德缺失的现状。同样的中国人到了国外，融入社会时基本都能遵守公共道德，不是这么短时间里觉悟就提高了，而是感受到规则的压力自律了。

研究还发现其他支持规范的机制，包括支配、内化、威慑、社会认同、成员身份、法律以及声誉。在某些情况下，规范的结果是等级制而非平均化，合作带有强迫而非完全自愿。它们无一不与个性解放的旗帜背道而驰。

规范研究的结果被社会学家和政治家重视，尤其是美国用来建立各种世界的秩序，反对不干涉的观点，用元规范来制裁对秩序不给力的例子，这可以在很多国际事务上看到。

君子与规范¶

在道德规范对人们行为有强大的约束力时，人们对决策的考量可能不再着重于利益，而更习惯于从道德规范的角度着眼。在生活中应用博弈时，经常听到的批评是：“你所说的纯粹是从利益考虑，TFT不外乎威胁利诱，但那是小人之道。君子喻于义，不肖为之！”要怎么喻于义呢？孔子在《论语?宪问》里说：“君子道者三，我无能焉，仁者不忧，知者不惑，勇者不惧。”这纯粹是人品上的修炼了。追求的目标是和利益考量有着不同。这个人品上的追求能带来利益吗？

不管君子如何，至少君子求义不求利，不背信弃义，这对于无论采用何种策略的博弈对手，都是最受欢迎的伙伴。自然界中生物进化，但凡有那么一点智慧都首先用于模式识别来分辨敌我。对于人来说，行为难测，合同不足为持，唯有品性比较稳定。这好人修炼到始终如一，不怕吃亏，经得住考验，追求的不是利益而是怎么做人。这就成为最可信赖的合作伙伴了。想占便宜的，可以欺之以方。真心追求双赢的，可以引为同道来合作。不需要花费代价来猜疑防范。对于善良对手，双方都收益巨大。尤其是大道盛行，在道德规范强制力下，小人只能在眼瞅不到的地方贪点小利，君子则为有势上位者之所钟，厚利重要处之所请，朋党舆论之所誉，这得到的好处可比小人大的多了。所以在道德规范的环境中，获利最多的不是精于算计的聪明人，而是谆谆不言利的君子。孔子说“知者利仁”，有智慧的人权衡利弊后，都会选择做这仁者。

有人嗤之以鼻说：“仁者安仁。与你说的是不同的境界。君子处世只凭良心，不知道算计也不想算计。”

从博弈者的角度来看，人品的追求和社会的道义是不是可以代替博弈的思考，成为促进合作有益于集体和个人的最佳策略依据？

在良性环境对大部分情况，是。毕竟这价值体系在进化中赢出。特别是处在道德规范被广泛遵守的环境里，不守规范为众矢之的备受打击时。在恶劣的，特别是在不同规范的环境，则不是。毕竟利和义是两个不同的目标。

“以德报怨”行得通吗？这样额外的宽容，不外乎想争取比较顽劣的对手合作，那要看你和对手所处的环境是不是认同这个规范。如果没有这个规范，他人就不能给对手产生压力，就看你自己有没那实力了。在八十年代美国政治科学有一些论文对策略的稳定性讨论研究。依进化博弈论的观点，这只有你在生存竞争的博弈积分胜过对方时，才有这个余力行这王道。中国近代史、现代史中，在与列强交锋时，那些习惯于温良恭俭让的君子，应对失措层出不穷，就是没明白这个道理。弄得该讨回公道时放弃权利。该奋力一战时依此退却，徒唤公理。

以德报怨，无论善恶的伙伴或者对手，人人都是真心喜欢的。无数文艺作品都讴歌赞美这美丽的品性。希望这心灵鸡汤能够营养感动着我们遇见的每一个人。这个最大的希望，很多人当然是指博弈中的对方，或者标榜自己也是这样的。但是现实世界中，当这善人的反制力量如果不足以威慑对手的背叛决策时，他的命运就不在自己的手中了，而在对方善恶之念中。善则幸甚，恶则怨命。

有人把这君子之道夸为“仁者无敌”，那是糊涂了。连孔老先生都说：“我无能焉”，尤其是在乱世。其实圣人处世并没有那么迂腐。《论语》中一段对答就明白如话，“或曰：‘以德报怨，何如？’子曰：‘何以报德？以直报怨，以德报德’。”圣经对这种情况是直截了当地说：“以牙还牙，以眼还眼”（《旧约全书?申命记》）。穆罕默德更是一手拿经一手持剑纵横世界。唯有佛陀最慈悲，能够割肉喂鹰，舍身饲虎，那是他不重视这个皮囊。身死国灭后，现在哪座大寺两旁没有几个凶神恶煞的罗汉金刚？前面还挡着一个手拱武器的护法韦陀。现实之中，没有金刚怒目，哪得菩萨低眉！

所以当这个君子，需要有相应的道德规范的外力来维护，或者自己有这个实力来惩治不按这个准则行事的对手。这个君子才活得滋润，这个规范才得以信守。

既然当君子有这么大的好处，那模仿君子的特征宣称标榜自己是个君子就是一个廉价的策略了。借用规范中群众的外力来牟利，是借势的策略。将道德规范加严拔高利己制敌，是制定规范造势的战略。这从十字军东征到极左思潮无不如此，在社会上伪君子也到处可见。

这就产生如何辨识真君子与伪君子的问题，如何对待道德规范的问题，在策略中就要考虑防范伪君子带来的变数。这不仅在人际关系，在生物界中欺骗与防范的博弈也经常可见。在政治斗争，商业竞争，国家冲突等方面，心智成熟的博弈者就不会轻信这一类易于装扮和廉价反悔的宣言，不会迷惑于冠冕堂皇的口号，他们宁愿相信对方以实在的利益得失作为自己策略风险的抵押。

Brembs在1996年OIKOS一篇Mini-Review论文中描述了生态环境的复杂性。一个群体如果有些孤僻苛刻的个体STFT（首先不合作，然后照抄对方行为）存在，那么具有加倍宽容的个体TF2T（连续受背叛两次才还击一次）在这个群体中要胜过严格的TFT。不难计算收益 $(TF2T|STST)>V(TFT|STFT)$。TF2T加倍的宽容比起直爽的TFT，更能得到过分防卫的STFT的合作。用这个思路不难证明其他多种策略都存在的情况。例如，只有TFT和善良的AllC的群体，看不出它们积分的不同。当有恶魔AllD入侵时，如果AllC较少，AllD被TFT压制打击成不了气候。如果滥好人AllC很多，养虎遗患，AllD得到充分营养增长积分可以胜过TFT，以致侵吞了整个群体。

单纯善良宽容的AllC虽然人人喜欢，却要依赖于敢于报复的TFT才能得以生存。高尚善良的人愿意牺牲自己帮助别人，但也许会不分场合地给罪犯更多权益，打压必要的报复，自己的牺牲纵容了恶行，让他们有足够的能量继续为祸。道德规范的维持，需要对违反者的惩罚。以正义的名义推行规范，也可能被伪善者利用谋求私利。

在竞争的世界，从私利出发，因为合作可以共荣，涌生出善来克服短视；急功近利莫过于背叛，滋生出恶来损人利己；恶人欺负好人，报复制止恶行，宽容胜过严苛，规范赐福善良，善良滋养邪恶。人们总在所处的环境中学习，寻找最合适的策略，人们策略的变化又改变了生态环境，对于变化的环境，没有最好的，只有更好的策略。这是一个无休无止进化变动的世界，不审时度势，无法知道什么对个人最有利，但大家都知道，善是追求共荣，恶是损人利己。于是产生道德规范来抑恶扬善，问题是我们真能知道善恶吗？

今后向何方¶

在变化的环境中，博弈中的个人没有一个不变应万变制胜的策略。对于群体，合作共荣无疑比互斗内耗有着更大的总体效益，群体中的个体也能在集体对外优势中受益。规范便由此产生来影响人们的思想，改变对价值的判断来走出囚徒困境。这也是人类高度组织起来的基础。道德规范总结了一种文化中无数经验留下的智慧，它帮助人们克服短视，促进合作，被内化成为一种自觉的感受，形成善恶的观念。

规范是被人们广泛认同的行为规则，不遵循的人将受到公众的惩罚。深入了人心成为善恶观念的道德规范，是大多数人的共同信念。卫道人士惩治怀疑者，作为一种元规范让道德规范保持经久不衰的稳定。中国自汉朝以来两千多年来崇儒，杂以道释把这些教诲打造为中华民族的道德规范。

清末的落后和屈辱，激励了西方思想在中国的传播，以革命图强，五四以来在反封建的旗帜下打倒了孔家店，文化革命触及到每个人的灵魂，则彻底地摧毁了这有着封建标记的儒家道德信条，企图代之以革命的新观念。但是革命是摧毁旧规范的利器，而不是谦让合作的教诲，这导致无休止的猜疑和斗争，只有靠政府的强力才能保持暂时的稳定。

转型期巨大利益的诱惑着背叛，社会变革思想解放，对传统的反叛更蔚为风潮，追求自由、平等、个性解放、鄙视世俗被推崇为高雅的精神追求。遇上旧的道德观念被摧毁，新的规范还未建立起来的空窗期，人们普遍地急功近利和社会群体道德沦丧便不足为奇了。

中国近百年的战乱和折腾，导致落后和失望，摧毁了很多人对自己文化的信心。那么“自由、平等、民主、人权”能不能成为新的道德规范？不能，因为它们是对社会的理想，而不是能够落实到个人遵守的合作规范。这是革命的旗帜，是打破困局的利器，只有在旧规范存在时，它们作为一种制衡的力量才有积极的意义。没有一种能够产生广泛合作的道德规范存在，它们只能带来不合作的猜忌。

社会的秩序是建立在道德和法律的基础上。道德规范必须具有不容置疑的权威，才具备有强大的约束力量。世界各国的道德规范，几乎都是由宗教来维持。西方的道德观念基本是建立在基督教的戒律上，宗教的信条是不容置疑的。这种不容置疑作为原规范的约束保持了它的稳定。虽然有些人不信教或者怀疑这些说教，但是大部分群众的共同信仰足以维持这个规范的社会强制力和善恶观念。

我们正站在十字路口面临着一个困境：没有一种道德规范的社会是不能阻止日益严重的内部冲突，无论是经济发展还是政治改革都不能弥补这个道德基础的缺失。过去强烈的批判使得传统的儒家道德规范难以恢复，新的种种倡导如同无根之木无法殖入人心，我们的今后将向何方？

没有一个道德基础的文化必将被人厌弃。难道我们要全面西化到最终接受其宗教？我们反对儒家的道德规范，认为忠孝愚昧禁锢思想，今后改信上帝为其羔羊，用追求极致一元的真理观来取代儒家的中庸之道和“己所不欲，勿施于人”的兼容并蓄，就会是进步了？

深入阅读¶

这个系列从博弈的角度来研究合作是如何产生的，这是我几年前一个博弈普及系列的增订版。这里关键词都是正规术语，内容来自一些研究的论文和博弈的应用。为了让大家省点力气搜索，我将主要的参考资料介绍如下。

关于博弈的基本概念，囚徒困境问题，纳什均衡，重复博弈，触发策略，冷酷策略和无名氏定理（the Folk Theorem）在一般博弈论的大学和研究生的教科书都有介绍。下面的链接是 Shoham 根据Osborne 和 Rubinstein 给出无名氏定理的数学证明的框架，十分简明清晰，对了解无名氏定理很有帮助（ http://www.cs.ubc.ca/~kevinlb/teaching/cs532a%20-%202003-4/folk.pdf）

进化稳定策略（Evolutionarily Stable Strategy)，简称ESS，最好的参考书当然是John Maynard Smith 1982年那本书《Evolution and the Theory of Games》，有中译本，2008年的《演化与博弈论》。

Nowak，Sasaki，Taylor，Fudenberg等人 2004年《自然》论文　“Emergence of cooperation and evolutionary stability in finite populations" 见链接（https://dash.harvard.edu/bitstream/handle/1/3196331/fudenberg_emergence.pdf）

Brembs 1996年　OIKOS Mini-Review论文的链接（　http://expertvoices.nsdl.org/cornell-info204/files/2010/04/brembs-1996-prisoners-dilemma-solutions.pdf　）

对“囚徒困境（Prisoner'sDilemma）和合作现象研究最多的是密知根大学的政治学教授Robert Axelrod。他早在1970年便设计了那个著名的电脑囚徒困境策略竞赛。1981年与生物学家W. D. Hamilton在《科学》期刊上发表了“The Evolution of Cooperation”论文。1984年Axelrod更是将几篇论文编辑成书，同样也以《The Evolution of Cooperation》之名发表。这部书成为一本经典，在二十多年来产生了重大影响，形成一个新的领域。中译本《合作的进化（修订版）》也在2007年出版。很可惜，几年前，我一直等到写完这个题目后，才读到这本书，让我费了不少时间从不同地方挖掘到这些研究结果。我推荐有兴趣想进一步学习的人看这本书。他阐述了与这里很相似的内容，而且附有两次电脑仿真实验数据结果。所不同的，他是政治学者，原创者，热情地用电脑仿真和博弈论来证明和鼓吹合作可以从霍布斯丛林中产生。我则始终用博弈的逻辑引导读者思考合作问题。

Robert Axelrod的第二本书，1997年的《The Complexity of Cooperation: Agent-Based Models of Competition and Collaboration》集合了他几篇的论文，作为上一本书的延续。在这里他继续发挥了所擅长的，用计算机模拟人群决策的研究。主要内容有：遗传算法演化新策略，在噪音环境下TFT策略的几个变种，社会规范的产生，阵营和标准的形成，霸权的兴衰和文化的传播。中译本在2008年出版，书名为《合作的复杂性——基于参与者竞争与合作的模型》。喜欢他计算机模拟人群决策研究方法的人，可从这书进一步了解他工作的成果。