善与恶的计算：为什么要做好人

奥鹏网院作业 · 发表于 2021-2-14 14:34:39

善与恶的计算：为什么要做好人
朱万润
〔摘要〕 “为什么要做好人？”在道德哲学中可转化为“为什么要遵守道德规则？”本文将是否要遵守道德规则置于囚徒困境模型之下，籍此，可应用博弈论尤其是进化博弈论的成熟研究深化对道德规则的理解。在既有的囚徒困境研究中，应用计算机模拟的方法，科学家们发现了多种有效的、个人博弈策略。同时，由于集体竞争的存在，每个集体都有采用更成功策略的压力，这可以解释道德规则的来源。做好人、遵守道德规则是个人与集体共同追求其最大预期收益的结果。
〔关键词〕道德规则；囚徒困境；进化博弈论；集体竞争
社会生活中，我们时常会观察到这样多少带有悖论性的现象：一方面，人们常常抱怨“好人没好报”；另一方面，几乎所有人在教育自己子女的时候都会教他们做一个“好孩子”，长大成为一个好人。这与社会生活中人们经常问到的一个问题有关：对大多数人来说(不考虑基督教的圣徒、儒家的圣人、佛教中成佛的人)，如果做好人没有什么好处，那又为什么要做好人？如果做坏人更有利，我们为什么不去做坏人，并且教育我们的子女做好人？
从道德哲学的角度看，这个问题大体上等同于“为什么要遵守道德规则？”西方道德哲学对此问题的回答主要有两种，即后果论和义务论。①不论后果论还是义务论的回答，道德哲学对此问题的回答都是规范性的，即回答为什么人们“应该”遵守道德义务。作为道德哲学的核心问题之一，对此问题的讨论已经比较充分。不过，道德哲学的回答有很多不足。比如，不同道德哲学理论呈现出“神仙打架”的状况(或者，用韦伯的话说是价值观领域的“诸神之战”)，对几乎所有重大的道德问题都莫衷一是、争论不休，让普通人无所适从。再比如，道德哲学既不关心道德规则的内容，也无法回答道德规则从哪里来的问题。此外，对普通人而言，道德哲学过于抽象、晦涩而远离日常生活。本文试图从进化博弈论的角度回答，为什么人们大多数情形下实际上会遵守道德规则；换句话说，为什么多数情况下人们实际上会做好人？本文研究路径不是规范性的，而是着眼于事实与逻辑，从社会科学的视角试图发现人们行为模式背后的机制。
一、什么是好人
为下文讨论的方便以及避免不必要的误解，此处要做些铺垫：明晰要讨论的问题、排除一些特殊情况，并对什么是好人给出粗略定义。
首先，本文将要探讨的并非康德的“德福一致”问题。有德的人是否一定有福，是一个形而上学问题。并且，在多元主义的背景之下，对“德”与“福”的定义是多种多样的。什么样的人是有德的，什么样的人是有福的，对于天主教徒、新教徒、穆斯林、佛教徒、无神论者来说，回答是不一样的。本文的探讨将聚焦于道德规则和人的行为，并不涉及“德福一致”这样的形而上学问题。
其次，在对好人给出尝试性定义之前，我们要对人及其理性做一些规定。博弈论对人的假定是经济学中常用的“理性人”，即人们会最大化自身的利益或偏好。不过，进化博弈论却并不要求人们具有完美的理性，或者能够计算出哪种选择能够最大化自己的利益或偏好。进化博弈论只要求初始策略的多样性、基因或行为选择的突变，成功的策略在自然选择过程中会自然涌现(下文将有详细讨论)。尽管如此，一个自利的、虽然不具备完美理性，但当面对两种不同行为选择时，依然会选择能够导致更大偏好或利益满足的选项，这样的理性人依然是本文讨论所有问题的基础。
一直以来，理性人假定都面对很多批评，尤其是来自心理学家的批评。在此，我想对理性人假定做四点辩护。第一，到目前为止，理性人是人文与社会科学领域中唯一能够被清晰定义的关于人的假定。实际上，理性人是一个量化概念，它从对偏好或利益满足的量化比较和排序推出行为选择的排序，即它假定人们总是会选择带来更大量化满足的选项。对量的定义是简单明晰、并且很容易做到的(3个苹果>2个苹果)，但是对“质”的定义就很困难(试想，什么是“道德”“文化”“政治”“社会”？)。相反，不管其他对人的假定多完美(“道德人”“文化人”“政治人”“社会人”)，只要不可定义，就无法成为探讨社会科学的可靠出发点。第二，与第一点相关，人们能够对理性人的行为选择做出确定无疑的预期。这一点是极端重要的，甚至可以说正是这一点决定了理性人是一个有意义的假定。当选项A带来的偏好或利益满足大于选项B带来的满足，我们可以确定无疑地预期理性人会选择与A相对应的行为。这就使得我们据此做出的预判是可证伪的，只有具备可证伪性，一个判断才可能是科学的。与此相对照，我们能够对“道德人”“文化人”“政治人”“社会人”的行为选择做出何种预期呢？第三，理性人假定是我们建构严格理论所必需的。任何理论皆始于假设。社会科学的研究对象是人和人的行为，因此要建构严格的理论，首先就要对人及其行为给出适当假设。基于以上两个优点，理性人假定足以成为社会科学中构建严格理论的阿基米德点。社会科学中最具严格性的是经济学，经济学便建基于理性人假定(虽然近年来也有非理性经济学的发展)。第四，理性人在社会生活中是大概率事件。尽管有以上优点，如果理性人假定在社会生活中从来都与事实不符或者相符的概率很小，这一假定恐怕也早被理论家们抛弃了。在经济学应用所指向的领域，比如，个人理财决策、企业决策、经济政策制定等等，理性人假定无疑都是适用的。此外，如果对偏好或利益做更宽泛的解读，则理性人适用范围会更广。当然，人们的理性并不完美，人难免有糊涂犯错的时候，但这并不能否定人们在大多数情况下是理性的。总之，理性人假定并不完美，但却是社会科学中唯一可定义的、可靠的出发点。不管人们如何批评理性人假定，可曾有人能够提出一个足以替代它的选项吗？基于以上四点，答案是否定的。
与对理性的讨论相关，为避免特殊偏好扭曲博弈策略的收益，此处要排除特殊偏好。第一种要排除的是“极恶”的偏好，比如，以杀人为乐的连环杀手、施虐狂等等，他们从给他人带来伤害的行为本身就可以得到满足，并不是为了抢夺财产或与他人争利。另一种要排除的是“极善”的偏好，比如，特蕾莎修女(1979年诺贝尔和平奖得主)的慈善偏好：她在帮助贫苦人们的行为本身得到满足，名与利都是外在的甚至是无关的。博弈论中对收益的描述以及利益的估算适用于大多数人，但并不适用于这些持有特殊偏好的人。
最后，我们要出给一个粗略的、大多数人都能接受的对“好人”的定义。评价善与恶、对与错的根本标准是道德哲学中最根本、也是最富争议的问题，给出一个评价善恶的根本标准进而定义什么是“好人”并不是本文的兴趣所在。这里将采用一种策略性的方法来回应此问题。想象这样一个大多数人都能承认的、恶行的集合：{恶行 | 杀人、放火、抢劫、诈骗、强奸、盗窃、撒谎、施加酷刑、言而无信、不忠……}。对这些恶行的禁止实际上构成道德规则的主体。据此，我们可以得到一个道德规则的集合：{道德规则 | 不得杀人、不得放火、不得抢劫、不得诈骗、不得奸淫、不得偷盗、不得撒谎、不得施加酷刑、守信、忠诚……}。以这些道德规则为依据，我们可以给“好人”下一个初步的定义：好人就是遵守其所在共同体所公认的道德规则的人。当然，不同的共同体其道德规则会有很多差异，不过上述给出的道德规则的集合可以大体上看作多数共同体都会恪守的最低的道德底线。不同共同体间道德规则的差异并不会对我们的探讨构成障碍，因为不论道德规则的内容是什么，是否遵守道德规则都面临囚徒困境。
有了上述准备，此处可以将本文试图回答的问题做更精确陈述：假定大多数人都是自利的理性人，既没有做圣人的动机也没有做恶棍的偏好；但是，如果杀人放火的生活方式更有利，他们就会去杀人放火；对于这样的人们，为什么要遵守道德规则，要做好人？
二、道德规则与囚徒困境
如果将是否遵守道德规则视作只进行一次的博弈，那么它将是一个典型的囚徒困境。关键在于，对于理性人而言，上述提到的每一种恶行都对应着短期利益的诱惑：杀人可能是为了复仇或夺取他人财产、官职，抢劫、诈骗、盗窃可以获得财物，撒谎是为了达到特定目的，施加酷刑可以从对方身上获得至关重要的信息等等。因而，在最简单的只有甲、乙两个玩家的博弈中，如果每个人的策略选择仅限于遵守和不遵守道德规则，那么四种结果的排序如下：
1.最好的结果是对方遵守道德规则，而我不遵守，我的收益是T(Temptation)。
2.其次的结果是两个人都遵守道德规则，每个人的收益是R(Reward)。
3.再次的结果是两个人都不遵守道德规则，每个人的收益是P(Punishment)。
4.最坏的结果是我遵守道德规则，而对方不遵守，我的收益是S(Sucker’s Payoff)。
这样我们有：T>R>P>S(这一排序基于序数功利的概念，即相关选项仅代表偏好排序的优先次序而不代表功利值的绝对度量)。另外，我们假定都遵守道德规则的集体收益大于一个人遵守而另一个人不遵守的情况，这样R+R>T+S，即R>(T+S)/2。如此，我们有如下的收益矩阵(矩阵中标示的是甲的收益)：

这是一个典型的囚徒困境。当然，以上情境是假定没有国家和政府、没有中央权威存在的情况下，即类似于霍布斯所说的自然状态中，一个理性人会做何种选择。在这一困境中，如果两人都采取合作性的行为，即遵守道德规则，是集体最优的也是最值得期望的结果。但是，对于理性人而言，不管对方做何种选择，唯一能够最大化自身收益的行为只能是不遵守道德规则。因而，两个人都困于这样一种窘境中：如果两个人都遵守道德规则，两个人的状况都会更好；但是出于自利的、追求自身利益最大化的动机，两个人都必然选择不遵守，因而两个人的境况都变得更差了。②
囚徒困境理论模型的建构及解决是20世纪下半叶社会科学领域的重大进步之一。囚徒困境揭示了一般社会合作的普遍障碍：凡是涉及个体利益与集体利益之张力的情景往往会有情况困境结构的存在。著名的例子，比如，哈丁的“公地悲剧”③、奥尔森的“集体行动的困境”，奥斯特罗姆因为在“公共池塘资源”管理方面(与“公地悲剧”相关)的贡献而获得2009年诺贝尔经济学奖。社会生活中囚徒困境的例子更是俯拾皆是：军备竞赛、核威慑、广告投入竞赛、商业竞争、美国两党制下预算赤字问题、抑制排放与全球变暖、关税与贸易战、竞争性货币贬值……同时，囚徒困境的发现也曾经对哲学家造成极大震撼，例如，高希尔就认为人类的全部道德都是为了克服囚徒困境从而达成社会合作。④
借用博弈论的术语，在单次博弈中遵守道德规则(做好人)会被剥削(收益为S)，这种情形是社会生活中“好人吃亏”的一大来源。根据囚徒困境模型，在单次博弈中，唯一的均衡就是两个人都选择不合作的行为，即不遵守道德规则。这种情景在生活中很常见，即所谓的“一锤子买卖”：如果两个陌生人的交互只进行一次，每个人都有很强的动机不遵守通常的道德规则。比如，景区饭店招待的客人通常一辈子只来一次，因此，饭店并不期望招揽“回头客”，它就有很强的动机“宰客”。另外一个典型的例子就是老人摔倒了，要不要扶的问题，这也是一个囚徒困境：如果两个人都做好人，都遵守通常的道德规则，见到老人摔倒去扶、被扶的老人表示感谢不去敲诈扶他的人，大家的境况都会变好；但是，现实中的均衡有时是，见到老人摔倒不扶，被扶的时有敲诈好人。
如何克服这一困境呢？
三、进化博弈与策略选择
如果是否遵守道德规则的问题是囚徒困境，现有的研究告诉我们任何有限次数的博弈都不能逃脱这一困境。⑤在没有外在权威的情况下，只有通过重复博弈才能逃脱这一困境。理论上，这是一种无限重复的博弈，但是现实中只要双方都不能明确知道博弈将何时终止，就可以近似地看作是无限重复博弈。例如，小区附近的便利店，只要店主和顾客都没有预期便利店在短期之内关门，就可以将顾客与店主之间的博弈近似地看作是无限重复博弈。
那么，从个体角度，采用什么样的策略才能使个人收益最大化？假设是否遵守道德规则的博弈进行N回合，每个回合参与者都有遵守和不遵守两个选项，那么N回合中，每个参与者可能的策略组合都有2n个。如何从这2n个可能策略中，选择收益最大化的策略？实际上，没有人知道该选哪个策略。在这里，“选择”是一种幻象：一方面，没有人能够穷尽2n个策略，对每一个策略做彻底的研究；另一方面，在博弈中，每个人的收益既取决于自身的策略选择也取决于对方的策略选择。因此，收益最大的策略并不能靠事先的计算被“选择”出来。在进化机制中，通过人们不断地试错，收益更大的策略在优胜劣汰的竞争中浮现才是更现实的路径。那么，进化机制又是如何发挥作用的呢？
在N回合的是否遵守道德规则的囚徒困境中，我们用V(A|B)来指代策略A与B博弈时A的收益，用w代表参与博弈双方再次进行博弈的概率。在2n种策略中，有一些极为简单的情形，其收益是可以直接计算的。比如，双方都选择完全遵守道德规则，那么根据以上收益矩阵，则每个回合双方都得到R的收益，将未来收益做一个折现，则有：
V(完全遵守|完全遵守)=R+wR+w2R+w3R…wnR=R/(1-w)
类似地，如果双方都完全不遵守道德规则，则有：
V(完全不遵守|完全不遵守)=P+wP+w2P+w3P…wnP=P/(1-w)
如果w足够大(比如，0.9)，即双方未来重复博弈的概率足够大，则可以直观地看出，双方都完全遵守道德规则的收益要远远大于双方都不遵守的情况。理论上，R/(1-w)是个人在长期重复博弈中所能期望的最大预期收益。虽然，V(完全不遵守|完全遵守)=T+wT+w2T+w3T…wnT=T/(1-w)>R/(1-w)，但是，现实中没有人能够忍受长期的剥削而不改变策略。笔者在课堂上所做的实验中，T/(1-w)的收益值从未出现过。
那么，不同策略所对应的不同预期收益值意味着什么呢？在进化博弈论中，这些预期收益值可以做两种解释：(1)在生物界中，不同的预期收益代表着不同的适应水平，而不同的适应水平将决定个体所能繁衍后代的数量；(2)在人类社会中，不同策略的收益值代表相应策略在人群中出现的频率，因为人类可以复制他人的成功策略，预期收益越高的策略在人群中出现的频率越高，预期收益低的策略会被人们抛弃。关键在于，囚徒困境博弈是非零和博弈，彼此合作的行为将产生增量，从而使参与双方的境况都变好。例如，如果两匹狼能够彼此合作，它们将能够捕获比它们单独捕猎更大更多的猎物，从而养活更多后代，因此它们的适应水平都提高了。在人类社会中，因为人们可以相对容易地复制预期收益更高的策略，被淘汰的不是人类个体而是策略本身。
至此，我们已经了解基本的原理，但我们还是不知道在2n种策略中哪些是更成功的。1980年代，随着计算机的日益普及，科学家们开始使用计算机模拟的方式来寻找答案。其中，最引人注目的研究来自政治科学家罗伯特·阿克塞尔罗德。阿克塞尔罗德举办了两次锦标赛，让计算机科学家、生物学家、心理学家、政治学家、经济学家、数学家以及计算机爱好者提交计算机程序，这些计算机程序会执行不同的、参与重复博弈的囚徒困境的策略。在这两次锦标赛中，一个非常成功的策略脱颖而出，在所有策略中获得了最高的平均分数。这个策略就是著名的“以牙还牙”策略(Tit For Tat，下文简称TFT)。令人惊讶的是，TFT是一个非常简单的策略：第一个回合总是合作(遵守道德规则)，接下来的每一个回合都简单拷贝对方上一个回合的策略。TFT有很多优点，比如，当两个参与者都执行TFT的策略时，他们的预期收益是：
V(TFT|TFT)=R+wR+w2R+w3R…wnR=R/(1-w)
可以看到，当双方都执行TFT策略时，他们达成了合作(都遵守道德规则)并且达到了最高的预期收益R/(1-w)。基于此，当TFT遇到友善的策略时，它能够达到很高的预期收益。同时，当TFT遇到“坏人”的时候，它并不会受到剥削：
V(TFT|完全不遵守)=S+wP+w2P+w3P…wnP=S+wP/(1-w)
当w足够大，这一预期收益近似等于P/(1-w)，与V(完全不遵守|完全不遵守)=P/(1-w)相同；因此，即便在“坏人”中执行TFT策略的个体也不会吃亏。⑥
阿克塞尔罗德基于TFT做出的最重要的结论在于：基于进化博弈论，即便没有中央权威的干预，TFT也将促使合作在非合作的人口当中出现并使其成为集体稳定策略(Collective Stable Strategy)——这便是合作的进化。可以想象这样一个类似于霍布斯自然状态的共同体(规模不能太大)，在其中，所有人都是“坏人”：他们彼此攻击、伤害，每个人的策略都是完全不遵守道德规则，所以他们的平均预期收益是P/(1-w)。只要给这个共同体中的人们足够长的时间去试错，这样的情形迟早会出现：一小部分人最终发现了一个有效的策略，即TFT。在这个共同体中，当TFT策略的执行者遇到一个完全不遵守道德规则的人，他所得到的预期收益仍然近似于P/(1-w)，近似等于共同体平均值；但当他遇到另一个TFT策略的执行者时，他的预期收益将是R/(1-w)远远大于共同体平均值。这样，当他遇到另外一个TFT策略执行者的概率越高，他的预期收益就越大于共同体平均值。但不论如何，他的预期收益都要大于共同体平均值。这样，当其他人注意到TFT策略收益更高时，TFT策略将很快在人群中传播开来，并被大部分人采用。这样，基于逐利的动机，“坏人”的共同体很快会转变为一个“以牙还牙”的共同体。用进化博弈论的术语说，TFT的策略“入侵”了执行完全不遵守道德规则这一策略的人口。并且，TFT策略具有集体稳定性，它可以入侵完全不遵守道德规则的策略，但是完全不遵守的策略却不能入侵TFT，因为在执行TFT策略的人口中使用完全不遵守的策略其收益低于平均值。
1990年代，马丁·诺瓦克同样用计算机模拟的方法为我们揭示了一个更大的图景，并发现了几个比TFT更成功的策略。⑦在这个更大的图景中，合作的策略与不合作的策略在整个人口中表现为一个大的循环。应用于是否遵守道德规则的问题，则颇有几分中国文化中天道循环的意味。想象一个小的共同体，一开始，在是否遵守道德规则的问题上，自利的理性人谁也不知道哪种策略更有效，所有人都在随机试错。很快，友好的策略因为受到恶劣策略的剥削而慢慢消亡，整个人口被完全不遵守道德规则的策略占据，此时整个人口的平均预期收益很低。经过很多代的演化，基于策略的随机突变，在某个时刻会出现数量足够多的TFT玩家，此后TFT策略很快在这个小共同体中传播并占据整个人口。TFT具有一定的稳定性，它不能被完全不遵守道德规则的策略入侵。不过，不论在自然界还是人类社会，人和动物都会有偶尔犯错的时候；如果两个玩家的一方因为偶尔犯错而没有遵守道德规则，将导致TFT策略一长串的报复行为。这将降低TFT策略的预期收益。这样，在TFT所占据的人口中，更友好的策略，比如“慷慨的以牙还牙”⑧“帕夫洛夫”⑨策略会入侵TFT人口。最终，这个小的共同体将进化到一个所有人都完全遵守道德规则的阶段。这将是这个小共同体的“黄金时代”。但遗憾的是，所有人都遵守道德规则的策略不具有稳定性，它很容易受到完全不遵守道德规则策略的剥削和入侵。因为此时完全遵守道德规则的平均预期收益为R/(1-w)，但是完全不遵守的收益为：V(完全不遵守|完全遵守)=T/(1-w)，它大于平均收益。在这个人人都遵守道德规则的黄金时代，突变而来的、完全不遵守道德规则的策略有丰富的猎物可供其剥削。这样，这个“黄金时代”在经历仅仅4到5代的演化，就会返回最初的混沌状态。因而，在没有外在权威干预的情况下，是否遵守道德规则的博弈将呈现出周而复始的大循环。
四、个体理性与集体规则：道德规则从哪里来
以上我们展示了理想情况下理性人对善与恶的计算。不过这种计算有两个主要的限制：第一，这一机制要起作用，共同体的规模不能太大；第二，囚徒困境是非零和博弈，对于零和博弈的情形无效。
第一个限制是共同体的规模，因为上述讨论的前提是w足够大，这意味着参与博弈的双方未来再次博弈的概率足够大；而共同体的规模越大任意两个成员再次博弈的概率越低，这将限制共同体的规模。共同体理想的规模是500人左右，超过2000人之后这一机制将越来越难以发挥作用。⑩借鉴奥斯特罗姆对“公共池塘资源”的研究，我们可知：在小型共同体中实现自治是可能的，这并不需要政府的干预。实现“公共池塘资源”有效管理的机制也同样适用于对道德规则的维护，因为二者所面对的深层问题是相通的，其背后都存在囚徒困境。对道德规则的维护可能是更为迫切的。一方面，在小型共同体中遵守道德规则的策略可以通过重复博弈的自然进化而为所有人采用，并且能够维持相当的稳定性；另一方面，共同体能够找到维持道德规则的机制从而逃脱遵守与不遵守之间的大循环。换句话说，根据以上模型所揭示的机制，在小型共同体中形成民风淳朴的良好道德风气几乎是必然的。这或许就是老子更倾向于“小国寡民”的原因。
第二个限制是零和博弈的情形。在零和博弈中，合作并不能产生增量，即给双方带来额外增加的收益。社会生活中存在很多这样的情形，这是做好人没有好处的另一大来源。例如，对皇位的争夺、对官职的争夺、后宫争宠、一定时期内政治与经济利益的分配、地方对中央预算分配的竞争等等，在这样情形中遵守道德规则并不能带来收益。
因此，对于一个完全自利的理性人来说，总是存在着各种例外情形，在其中遵守道德规则并不能带来收益。但是出于自利的动机而不遵守道德规则，对于个人所在的集体是有害的，这就造成了个人和集体之间的一种紧张关系。如上文所述，在N回合的重复博弈中，个人的策略选择可以有2n种；作为对照，集体的规则选择可以有多少种呢，答案是只有一种，即要求所有人完全遵守道德规则。一方面，由以上的计算可知，完全遵守是集体最优的，它对应着最高的集体收益；另一方面，集体规则的多样性会让人无所适从，事先指出各种例外情形既不现实也不能被允许。依康德的观点，道德规则只能是直言式的(例如，基督教十诫：要遵守安息日、不可杀人、不可撒谎等)，而不能是假言式的(如果遵守道德规则对我有利，我就遵守)。所以，虽然“以牙还牙”的策略对于个人而言是十分有效的策略，但我们从日常经验可以观察到，没有哪个共同体会鼓励人们将“以牙还牙”作为道德准则。因为，道德规则作为集体的规则，它并不会优先考虑个人利益，它只会要求个人为集体的规则做出牺牲。这就不难理解，为什么在强调集体价值的社会，都会强调“牺牲”“奉献”这样的价值。
既然集体的策略选择只能是一种，即要求所有成员完全遵守道德规则；但由上文可知，在没有外在权威的情况下，完全遵守道德规则并不是集体稳定策略，这就使得个人与集体的紧张关系格外凸显。因为在集体道德规则要求所有个体都完全遵守道德规则的情形下，不遵守道德规则的个体其收益反而远远高出平均值，这就使得集体作为外在权威施加对违规者的惩罚变得十分关键。因为，个体的最优策略和集体的最优策略总是不重合的，自利的个人与集体的道德规则总是处于一种张力关系中。这就不难解释，为什么大多数规范性道德理论都试图改变人们的自利偏好而培养更“高尚”的偏好。
但是，在人类进化的过程中，人们未必知道完全遵守是集体收益最高的规则，他们又如何能够采用这样的规则呢？答案是，他们不需要知道，因为还有集体竞争的存在。如上文所述，进化博弈论并不需要假定人们拥有理性更不需要完美的理性，失败的策略会在竞争中自然地被淘汰。依据上文所做的计算，在一个完全遵守道德规则的共同体中，每个人的平均预期收益是R/(1-w)，而在一个完全不遵守道德规则的共同体中平均预期收益是P/(1-w)，完全遵守的集体收益要远远大于完全不遵守(其他共同体的收益依据遵守道德规则的普遍程度而处于二者之间)。如果把每个小共同体看作自然界中一个小的单位，那么完全不遵守道德规则的共同体集体收益极低，因而在集体竞争中处于非常不利的地位。
以“不可杀人”这一道德规则为例，虽然我们今天早已对其习以为常，但同类相食在人类早期历史中十分常见，如果不是十分普遍的话。人类如何发展出“不可杀人”这样的道德禁忌呢？由上文所述模型可知，发展出“不可杀人”这一道德禁忌的群体与没有这一禁忌的群体其预期收益是天差地别的。假定在相邻的地区生活着人数相同的两个群体(比如，都是100人)，一个群体仍然是同类相食的，另一个群体已经发展出“不可杀人”这一禁忌(群体内部)。很难想象同类个体之间相互猎食的群体能够进行有效的集体合作，即便不考虑同类之间因打斗而受伤的个体(以及被同类吃掉的个体)，他们也无法抵御已经发展出“不可杀人”禁忌的、能够进行有效集体合作的群体的进攻。或许在狩猎采集阶段早期人类各个部落之间相隔较远，这种竞争压力并不大；但当地球上人口增加，各个部落间的接触与冲突逐渐增加时，这种竞争的压力会越来越大。同类相食与“不可杀人”作为不同的集体策略将导致不同的集体预期收益，这对群体的生存是生死攸关的。不过对人类群体而言，竞争中被淘汰未必是作为群体的人本身，而是群体的策略。群体间的生存竞争越激烈，类似“不可杀人”这样更成功的群体策略传播和被拷贝的速度也越快，同类相食作为失败的群体策略会很快为人们抛弃。当然，人类道德的实际进化过程可能是极其复杂的，但是，依据上文所述的机制基本的道德规则在人类社会进化过程中是必然会出现的。
所以，即便像“不可杀人”这样简单的道德规则也并不是我们一开始就“知道”的，更不是什么“理性选择”的结果，先知与圣人教化更像是晚近的杜撰，进化机制才是现实中道德规则得以产生的更可能的路径。进化机制产生道德规则的条件只要两个：人类实践的多样性和生存竞争。不管对集体还是个人，只要初始状况中人们实践的策略是多种多样的——整齐划一在没有强力中央集权的情况下反而是难以想象的，假以足够长的时间试错，成功的策略会自然地涌现出来。相对于个人漫长的试错过程而言(在2n个策略中试错)，集体的试错过程反而简单得多：发现那些对集体有害的甚至具有毁灭性的行为，并将其一律禁止；同时，鼓励那些更倾向于社会合作的规则。随着人口增加，生存竞争的加剧，对于人类群体社会合作的程度和范围的要求也越来越高，一个群体的策略与规范越是“亲社会”、倾向于社会合作就越是在群体竞争中处于更有利的位置：“但是这正是文化的群体选择可能发挥重要作用的地方：一旦存在文化上具有显著特征的多个群体，就会有选择的压力倾向于使那些具有广义的“亲社会”(prosocial)特征的文化更持久和繁荣。一个其文化价值系统演化到在脑袋上戴一个南瓜的群体，总体上以及从长远看，将输给一个看重群体内部和平以及为同胞福利承受一定程度自我牺牲的群体。”
当然，对于今天的个人而言，没有人经历过从同类相食到不可杀人的试错过程，如果不是考古人类学的发现这个阶段甚至已经湮灭在人类历史的长河之中。个人的道德观念是从家庭、周边社会环境和传统中习得的——对大多数人而言，做好人还是坏人并不是一个审慎反思和有意识选择的结果。同时，如果没有这些道德规则，社会合作尤其是今天超大规模的社会合作就不可能维持。所以，任何共同体都有维护其道德规则的压力，并对违反道德规则的行为给予相应的惩罚。同时，道德规则演化的历史过于久远，那个同类相食的时代早已淡出人类的记忆。如此一来，道德规则与道德观念很容易成为某种神秘的东西：人们被告知应遵守一些基本的道德规则，但为什么要遵守的理由却五花八门甚至相互矛盾。今天，有各种各样的规范道德理论给出为什么我们“应该”遵守道德规则的理由，一定程度上，这些理论都带有虚构的性质，因为它们并不是建立在对道德规则背后机制的透彻了解之上。
好消息是，对于今天的个人而言，有诸多因素会让好人更好过、受到更多奖励以及得到更多机会。第一，当今的生产生活方式使人们有更多机会参与到增量的生产与创造活动中，而非卷入对存量的争夺。工业经济以及后工业时代的知识经济，经济产出每年都会以一定的速度增长(例如，GDP以每年2%左右的速度增长)，一个工业国家的经济规模在几十年内翻倍是很正常的现象。这种增长在农耕时代是很难想象的。农耕时代每年的经济产出虽有波动，但大体上是一个恒量，其产出主要取决于耕地面积，而耕地面积不可能像工业产出那样长期持续增长。第二，相关的，今天的人们都生活在超大规模的社会，进行着超大规模的社会合作，这种合作对于一个共同体道德水准的要求会越来越高而非相反。因而，一个更善于与他人展开合作的个人会得到更多机会，一个“坏人”的名声并不能招徕好运。正如英语中一句谚语所说，“好人最先完成”，好人会更适应展开大规模合作的社会，因为我们都是“超级合作者”。第三，信息时代的信息传播成本越来越低，这就使得以往单次博弈、做一锤子买卖的场合越来越少。例如，网店买家与卖家的交易因为有评价机制的存在使得单个买家与网店的单次博弈变成了所有买家与网店的重复博弈，因而单次欺骗行为与长期收益相比就变得不划算。再比如，在某个遥远地方以“碰瓷”为生的人，只要一次曝光，他很快就会被几乎所有人认识，他的“一锤子买卖”就很难继续做下去。
结论
综上所述，基于进化博弈论的视角，我们可以得出如下几点结论：
第一，做好人、遵守道德规则首先是一项集体的要求。这一要求优先考虑的是集体的收益而非个人的收益，只有共同体的所有成员都遵守道德规则才能达到最优的集体收益。所有人都做坏人、都不遵守道德规则乃是集体的不可承受之重，这样的共同体在面对生存竞争时是无法生存下去的。恶人不可成邦：一个完全由十恶不赦的恶棍组成的共同体从原理上就不可能。
第二，我们不需要过于担心“礼崩乐坏”“人心不古”之类所谓的道德退化。进化机制能够保证道德规则在人类社会合作的演化中出现，它也能保证道德规则的存续——只要有社会合作就必然有道德。并且，随着人类社会合作的水平和规模的提高，道德规则与观念只会进化而不会退化。
第三，对个人而言，做好人的最重要理由在于社会合作。在个人的“熟人圈子”中，做一个好人的益处毋庸讳言。在更广阔的社会生活中，有诸多机制促使一个人遵守道德规则、成为一个潜在的合作者。比如，名誉的机制，一个人即便对陌生人横眉冷对也会被身边的人观察到，从而影响到对其“人品”的判断；比如，社会生活的极度复杂与不确定性，让人很难判断与一个陌生人的交往是否会发展成长期合作，以一以贯之的方式行事反而省心省力；再比如，社会作为一个整体也会有很多手段和途径惩罚违规者，这就是中国古语所说的“多行不义必自毙”。总体上，做一个好人能够赢得更多参与社会合作的机会，即便除去少数情况下好人吃亏的情形，其长期总体收益也会更高。
① 姚大志：《我们何以负有服从规则的道德义务》，《哲学研究》2017年第10期，第92页。
② Robert Axelrod，“The Evolution of Cooperation，”Science, 1981(vol.211)，pp.1390-1396.
③ Garrett Hardin，“The Tragedy of the Commons，”Science, 1968, 162(3859),pp.1243-1248.
④ David Gauthier，Morals by Agreement, Oxford University Press on Demand, 1986, Preface.
⑤ R.D. Luce and H， Raiffa，Games and Decisions, New York: John Wiley & Sons, 1957,pp.94-102.
⑥ Robert Axelrod，“The Emergence of Cooperation among Egoists”,American Political Science Review, 1981(75.2),pp.306-318.
⑦ Lorens A. Imhof, Drew Fudenberg, Martin A. Nowak，“Evolutionary Cycles of Cooperation and Defection，”Proceedings of the National Academy of Sciences, 2005 (102.31),pp.10797-10800.
⑧ Martin Nowak, Karl Sigmund, “Tit For Tat in Heterogeneous Populations，”Nature,1992(355.6357),pp.250-253.
⑨ Martin Nowak, Karl Sigmund,“A Strategy of Win-Stay, Lose-Shift that Outperforms Tit-For-Tat in the Prisoner’s Dilemma Game，”Nature, 1993 (364.6432),pp.56-58.
⑩ Martin Nowak, et al. “Emergence of Cooperation and Evolutionary Stability in Finite Populations，”Nature, 2004 (428.6983),pp.646.
Elinor Ostrom, James Walker, and Roy Gardner, “Covenants with and without a Sword: Self-Governance is Possible，”American Political Science Review, 1992(86.2),pp.404-417.
因为老子所说的“国”并不是国家而是城市。考虑到老子时代城市的规模，“小国”则更接近本文所说的小型共同体的规模。
Fernández-Jalvo, Yolanda, et al. “Evidence of Early Cannibalism，”Science-AAAS-Weekly Paper Edition, 1996 (271.5247),pp.275.
Gat Azar,War in Human Civilization, New York: Oxford University Press Inc., 2006,pp.13-16.
Richard Joyce,The Evolution of Morality, MIT press, 2007,p.42.
Martin Nowak, Roger Highfield,“Supercooperators: Altruism, Evolution, and Why We Need Each Other to Succeed，”Simon and Schuster, 2011, Chapter 14.

〔中图分类号〕B82
〔文献标识码〕A
〔文章编号〕1000-4769(2020)02-0150-08
〔基金项目〕教育部人文社会科学重点研究基地重大项目“制度文明的哲学理念创新”(16JJD720008)
〔作者简介〕朱万润，吉林大学社会公正与政府治理研究中心暨行政学院副教授，吉林长春 130012。
(责任编辑：颜冲)

		自动登录	找回密码
密码			立即注册