考虑情感的三策略囚徒困境博弈模型与合作演化

2022-04-13 11:38:20谢能刚代亚运
运筹与管理 2022年3期
关键词:强者弱者收益

谢能刚, 代亚运, 王 萌, 王 璐, 暴 伟

(1.安徽工业大学 管理科学与工程学院,安徽 马鞍山 243002; 2.安徽工业大学 商学院,安徽 马鞍山 243002)

0 引言

合作共赢是“构建人类命运共同体”的重要理念、意识和模式之一[1]。那么在由利己的相互竞争的个体所组成的社会中,合作行为是如何产生和演化的呢?被誉为“新时代达尔文”的Nowak教授提出[2]:合作的产生有亲缘选择、直接互惠、间接互惠、网络互惠和种群选择5种物理机制,并认为自然合作与自然选择、遗传变异居于同等地位,是演化理论的第3条基本规则。

目前关于合作行为发生和进化机制的分析大都是建立在个体理性基础上的,最近关于最后通牒博弈的社会学实验表明[3],个体理性的假设很难解释实验结果,而基于脑功能活动的认知神经科学研究对该实验结果的神经生理机制做出了有益的探索,从中发现负性情感和情绪反应是影响个体合作的重要因素。Nowak指出[4]:“尽管竞争是自然选择的天然特性,但在直接和间接互惠的赢家策略中,以下的‘慈善’属性却是必不可少的:心存希望,慷慨大方,宽宏大量”。同时,Rao等[5]也率先提出“弱势导致亲社会行为”这一潜在机制来解释合作行为的产生。因此,人类的理性从来就不是冷酷的、不带情感的理性,从情感角度研究合作的演化机制,将丰富人们对社会困境中合作行为涌现的认知,从而发现某些社会现象背后的“情”、“理”逻辑。

基于社会比较理论的观点,个体之间竞合行为的发生及结束可能源于个体对自身适应度和他人适应度的相对比较(将此称为相对适应度),并由此产生同情、漠然、欺凌、尊敬、畏惧及嫉妒的内生情感和相应行为。我们在文献[6]中将情感类型分为四种,即对强者的尊敬与嫉妒和对弱者的同情与欺凌,基于遗传算法的种群演化结果显示:情感的多样性能有效促进合作的产生,其中,同情和尊敬的情感更具进化优势。在随后的研究中[7],进一步将情感类型拓展为六种,采用三策略囚徒困境博弈模型,基于格子网络的演化博弈结果显示:随着背叛诱惑的增强,社会系统逐渐从“敬上爱下”的良性氛围转变为“畏强凌弱”的恶性状态。

由于个体之间的相互作用需依托网络载体开展,因此空间网络结构影响演化博弈的进程与结果。据《美国科学院院报》(PNAS)报导[8],以及最近关于社会困境的行为实验结果也表明[9],网络群体能够有效地促使处于劣势的合作者聚集成团簇,从而维持稳定的合作水平,使群体获得较高的收益。

本文将基于考虑情感的三策略囚徒困境博弈模型,采用二维格子网络、随机网络和无标度网络等三种网络模型,通过演化博弈仿真分析,研究社会合作状态、情感类型分布和网络拓扑特征之间的关系。

1 模型与方法

1.1 三策略囚徒困境博弈模型

采用一种考虑自愿参与的囚徒困境博弈模型,其中博弈方的策略分为参与博弈状态下的合作、背叛策略和不参与博弈的孤独策略三种。表1为两个博弈方的收益矩阵[10](博弈方1收益在前)。其中R为双方合作的奖励;P为相互背叛的惩罚;T为背叛成功的诱惑;S为合作失败的代价;σ为不参与博弈的福利。

表1 博弈收益矩阵

1.2 个体情感特征的定量表达方法

人类的情感丰富多彩,本文将情感集限定为个体对相对适应度的关注而产生的情感。我们假设面对“弱者”(即对手的收益小于或等于自己的收益)时,个体产生的情感集合为{同情、欺凌和漠然}。当面对“强者”(即对手的收益大于自己的收益)时,个体产生的情感集合为{尊敬、嫉妒和畏惧}。

用四个参数{W,α,V,β}对个体的情感特征进行表达。W表示对弱者的情感标签,取值为0或1,α∈(0,1)表示相应的情感程度;V表示对强者的情感标签,取值为0或1,β∈(0,1)表示相应的情感程度。(1)当W=0时,α表示个体对弱者同情的程度,α越大表示对弱者的同情心越强,漠然感越弱。(2)当W=1时,α表示个体对弱者欺凌的程度,α越大表示对弱者的欺凌心越强,漠然感越弱。(3)当V=0时,β表示个体对强者尊敬的程度,β越大表示对强者的尊敬心越强,畏惧感越弱。(4)当V=1时,β表示个体对强者嫉妒的程度,β越大表示对强者的嫉妒心越强,畏惧感越弱。

1.3 情感与博弈行为策略之间的对应表达机制

定义六种情感与三种策略之间的定性对应关系为[10]:同情和尊重对应合作策略;欺凌和嫉妒对应背叛策略;漠然和畏惧对应个体选择不参与博弈的孤独策略。假设Ui和Uj分别表示个体i和个体j在当前轮次的收益,个体i的情感特征为{Wi,αi,Vi,βi}。当个体i和个体j进行博弈时,个体i的情感和博弈策略之间的定量表达机制为(个体j同理):

(1)当个体j相对于个体i是“弱者”(即Ui≥Uj)时,1)若Wi=0,即个体i对弱者的情感为同情或漠然;αi表示个体i对弱者同情的程度,代表了将和个体j合作的概率。如果p1≤αi(p1为[0,1]之间服从均匀分布的随机数),则合作;否则个体i选择不参与博弈的孤独策略;2)若Wi=1,即个体i对弱者的情感为欺凌或漠然;αi表示个体i对弱者欺凌的程度,代表了将对个体j背叛的概率。如果p1≤αi,则背叛;否则个体i选择不参与博弈的孤独策略。

(2)当个体j相对于个体i是“强者”(即Ui

1.4 博弈动力学演化算法

网络载体采用构建的社会网络(节点总数为N),采用蒙特卡洛(Monte Carlo)方法对三策略囚徒困境博弈模型进行演化仿真。

(1)初始阶段,每个个体被随机分配一个表征其情感特征的四个参数组合{W,α,V,β} 以及初始收益U0。W和V被随机赋值为0或1;α和β被随机赋值为(0,1)区间上的数;U0被随机赋值为区间[S,T]上的数。

(2)在每一个博弈轮次,从群体中随机选择一个个体i与其所有邻居分别进行一次博弈,博弈中个体i及其邻居采取的策略按照1.3节的方法确定,获得其平均收益Ui(个体i和所有邻居博弈后所获收益的平均值),然后用该收益替换个体i之前的收益。

(3)个体i进行情感模仿更新,采用依赖收益差别的情感学习方法,即参与者模仿“收益更高”的邻居情感特征。个体i从他的邻居中随机选择一个邻居(记为个体j)进行收益的比较,个体i以某个概率q(为i、j两个体收益差的函数)模仿个体j的情感特征,一般取为q={1+exp[(Ui-Uj)/κ]}-1,其中:κ为噪声参数,本文取0.1。具体学习模仿过程为:在[0,1]区间生成两个随机数γ1和γ2,如果γ1≤q和γ2>q,个体i只模仿个体j的情感特征{Wj,αj}并保持自身原有的情感特征{Vi,βi};如果γ1>q和γ2≤q,个体i只模仿个体j的情感特征{Vj,βj}并保持自身原有的情感特征{Wi,αi};如果γ1≤q和γ2≤q,个体i同时模仿个体j的情感特征{Wj,αj}和{Vj,βj};如果γ1>q和γ2>q,则个体i保持自身原有的情感特征{Wi,αi}和{Vi,βi}。

(4)重复上述博弈N轮,使每个个体在概率上平均有一次机会更新情感特征和收益。

(5)将以上过程作为一个蒙特卡洛步,重复基于蒙特卡洛步的迭代过程,直至系统演化达到稳定状态(一般以群体情感类型的分布达到稳定)。

2 演化分析

2.1 计算说明

群体规模N取为40000,采用相应的网络构造方法生成二维格子网络、随机网络和BA无标度网络,3种网络的度分布如图1所示。参数取值为:R=1,S=0,P=0,σ=0.3以及T=1.5。为对个体情感类型进行归类,本文分别将α∈(0,1)和β∈(0,1)均分为10段,当不同个体的W(以及V)相同且α(以及β)的数值落在同一个区间段时,则认为属于同一种情感类型,这样群体中一共有2*2*10*10=400种情感类型。同时,根据W和V的取值将群体的情感类型分为4个区域,即:区域P1(W=1,V=1)、区域P2(W=0,V=1)、区域P3(W=1,V=0)和区域P4(W=0,V=0)。

图1 网络的度分布

2.2 计算结果及分析

2.2.1 格子网络

图2显示了合作、背叛和孤独3种策略的演化趋势,同时也给出了群体平均收益的演化趋势。从图2可看出,系统中合作策略首先消亡,背叛和孤独策略最终取得均衡,大约各占50%;最终系统的平均收益为0.33。

图2 基于格子网络的博弈系统中三种策略占比和平均收益的演化

图3为4个情感区域内个体数占群体比例的演化图,图4为400种情感类型的迭代演化,其中P(α,β)表示属于某情感类型的个体数占群体的比例。从图3和图4可以看出,由于背叛诱惑T=1.5,大于合作的奖励R=1,因此在演化初期,合作策略将受到背叛策略的剥削,使得具有较高概率采取合作策略的情感类型及个体(区域P4)迅速减少,而具有较高概率采取背叛策略的情感类型及个体(区域P1)迅速增加;随着良性情感类型及个体(区域P4)的消亡,不良情感类型失去了剥削对象,尤其是对强者和弱者都具有较高概率采取背叛策略的情感类型{W=1,α∈[0.9,1.0),V=1,β∈[0.9,1.0)}及个体,在面对以较大概率采取孤独策略的情感类型{W=1,α∈[0.9,1.0),V=0,β∈(0.0,0.1)}和个体时,失去了进化优势(因为前一种情感类型的两个个体进行博弈的收益是背叛的惩罚P=0,而后一种情感类型的两个个体进行博弈的收益是不参与博弈的福利σ=0.3),也开始逐渐减少;随着演化的进行,情感类型{W=1,α∈[0.9,1.0),V=0,β∈(0.0,0.1)}取得了进化优势并占据种群。

图3 基于格子网络的四个情感区域内个体占比的演化

图4 基于格子网络的群体中情感类型占比的迭代演化(图a、b、c、d分别对应迭代步为1、100、1000和7944即最终稳态)

图5显示了群体情感特征空间分布情形的演化,本文定义两个指标(-1)Wα和(-1)Vβ,(-1)Wα的值从1变化至-1,表示对弱者的情感从同情→漠然→欺凌的变化,(-1)Vβ的值从1变化至-1,表示对强者的情感从尊敬→畏惧→嫉妒的变化。从图5可看出,在背叛诱惑的激励下,首先是个体对弱者的同情心失去进化优势,从同情转化为欺凌,然后失去的是个体对强者的尊敬和嫉妒,取而代之的是对强者的畏惧和躲避博弈。

图5 格子网络中个体情感指标(-1)Wα和(-1)Vβ的空间分布特征演化(图a、b、c、d、e分别对应迭代步为1、10、100、1000和7944即最终稳态)

2.2.2 随机网络

图6显示了随机网络中合作、背叛和孤独3种策略和群体平均收益的演化趋势,从图6可以看出,系统中合作策略首先消亡,背叛策略占比逐渐增长,然后在背叛策略和孤独策略的对抗中,孤独策略取得一定优势,最终状态为孤独策略和背叛策略共存,其中孤独策略占比略高于0.5,背叛策略占比略低于0.5;最终系统的平均收益为0.30。

图6 基于随机网络的博弈系统中三种策略占比和平均收益的演化

图7为4个情感区域内个体数占群体比例的演化图,图8为400种情感类型的迭代演化。从图7和图8可以看出,演化初期与格子网络相似,但在后续的演化过程中出现与格子网络的两个不同点:(1)P3区域的个体占比持续减小,没有像格子网络那样在演化中期出现增长并逐渐占据进化优势;(2)演化中期系统呈现P1和P2区域个体共存的局面,占比波动较小,演化中后期(104代左右),P1区域的个体占比突然上升和P2区域的个体占比突然下降,并最终表现为情感类型{W=1,α∈(0.0,0.1),V=1,β∈[0.9,1.0)}占据群体的主导地位。为了分析图7中P1和P2区域的个体占比突然反转的原因,根据节点的度,将群体分为3个子群体:度<4、4<=度<10和度>=10。图9给出了P1和P2区域中三类子群体的占比演化情况,从中可以看出:度>=10的子群体在演化过程中的占比不稳定,显示出容易激发和大幅波动,因此可能是该反转的驱动因素和先行者。

图7 基于随机网络的四个情感区域内个体占比的演化

图8 基于随机网络的群体中情感类型占比的迭代演化(图a、b、c、d分别对应迭代步为1、100、1000和20000即最终稳态)

图9 三类子群体的占比演化(a.P1情感区域;b.P2情感区域)

2.2.3 BA无标度网络

图10显示了BA无标度网络中合作、背叛和孤独3种策略和群体平均收益的演化趋势,从图10可以看出,系统中孤独策略逐渐消亡,背叛和合作策略最终取得均衡,大约各占50%;最终系统的平均收益为0.52。

图10 基于BA无标度网络的博弈系统中三种策略占比和平均收益的演化

图11为4个情感区域内个体数占群体比例的演化图,图12为400种情感类型的迭代演化。从图11和图12可以看出,演化初期与格子网络和随机网络相似,但后续演化进程中不同的是,区域P3的个体占比一直呈上升趋势,且主要表现为{W=1,α∈[0.9,1.0),V=0,β∈[0.9,1.0)}的情感类型(图12b所示),由于该情感类型的个体面对弱者时大概率欺凌(背叛策略),面对强者时大概率尊敬(合作策略),强者和弱者在博弈对局中的收益体现了弱者向强者的朝贡模式,而无标度网络存在中心节点(拥有比较多的邻居),使这种朝贡模式得到发展和繁荣,具体原因为:一旦中心节点为该情感类型,中心节点在与其邻居中的弱者博弈时就会取得收益优势,这样使得中心节点的情感类型被邻居节点模仿的概率增大,同时由于中心节点的邻居数目多,导致中心节点的情感类型可以快速和广泛扩散。

图11 基于BA无标度网络的四个情感区域内个体占比的演化

图12 基于BA无标度网络的群体中情感类型占比的迭代演化(图a、b、c、d分别对应迭代步为1、100、1000和20000即最终稳态)

根据节点的度,将群体分为3个子群体:度<4、4<=度<10和度>=10。定义a3和b3分别为P3区域内所有个体情感指标(-1)Wα和(-1)Vβ的均值。图13给出了P3区域内三类子群体的情感指标a3和b3的演化情况,图14给出了P3情感区域中三类子群体的占比演化情况,从图13和图14可以看出:度>=10的子群体的情感指标b3和占比均大于且先行于其他2个子群体,说明度>=10的子群体是整个网络情感演化的发动机,也验证了上面对中心节点的分析。

图13 P3区域中三类子群体的情感指标演化

图14 P3区域中三类子群体的占比演化

3 结论

本文基于个体对相对适应度的关注,设定了强者和弱者之间的同情、欺凌、漠然、尊敬、嫉妒和畏惧等6种情感类型,建立了个体情感特征的定量表达方法。将情感引入到三策略囚徒困境博弈模型中,设计了6种情感类型与合作、背叛及孤独3个博弈策略之间的对应关系和定量表达机制。构建了基于情感模仿规则的博弈动力学演化算法,采用二维格子网络、随机网络和BA无标度网络等三种网络模型进行演化博弈仿真分析,结果显示了情感类型及社会合作状态与网络拓扑特征之间的关系。

(1)较大的背叛诱惑促进了采取背叛策略的情感类型的演化繁荣,三种网络的演化结果表明,系统的最终演化状态都体现出程度不同的负性情感特征,其中无标度网络结构能够导致具有一定良性特征的情感类型演化稳定,并带来较高的合作水平。1)基于格子网络的最终稳定状态是情感类型{W=1,α∈[0.9,1.0),V=0,β∈(0.0,0.1)}占据整个群体,个体的行为方式体现出对弱者欺凌和对强者畏惧的“欺软怕硬”特征,群体中采取背叛策略和孤独策略的概率基本一致(0.5左右)。2)基于随机网络的最终演化状态表现为情感类型{W=1,α∈(0.0,0.1),V=1,β∈[0.9,1.0)}占据群体的主导地位,个体的行为方式表现为对弱者漠然和对强者嫉妒的“憎人富贵嫌人穷”特征,群体中背叛策略和孤独策略共存。3)基于BA无标度网络的最终演化状态表现为情感类型{W=1,α∈[0.9,1.0),V=0,β∈[0.9,1.0)}占据群体的绝对主导地位,个体的行为方式体现出对弱者欺凌和对强者尊敬的“敬上欺下”特征,群体中采取背叛策略和合作策略的概率基本一致(0.5左右)。

(2)在二维格子网络中,由于所有个体的环境资源相同,个体为维护其积极的自我概念,一般倾向于进行下行比较(同弱者相比)并产生对比效应,比较对象(弱者)的失败将导致个体产生自豪和高兴的正性情绪,从而达到增强自尊和主观幸福感的目的,因此,这可能是格子网络中对弱者欺凌和对强者畏惧的情感类型{W=1,α∈[0.9,1.0),V=0,β∈(0.0,0.1)}取得进化优势的原因。

(3)在随机网络中,大部分节点的邻居数目大致相同,接近“平均数”,邻居数高于或者低于平均数的节点都较少,这类似一种依靠朋友、熟人等强链接关系建立的网络。在具有强链接的关系情境中,个体一般倾向于进行上行比较(同强者相比)并产生对比效应,朋友的成功将导致个体产生嫉妒、憎恨等负性情绪,马克·吐温就曾经说过:“你的好友的成功有时会带给你不快”,因此,这可能是随机网络中对弱者漠然和对强者嫉妒的情感类型{W=1,α∈(0.0,0.1),V=1,β∈[0.9,1.0)}在系统演化中取得主导地位的原因。

(4)在BA无标度网络中,由于具有较多邻居数目的中心节点的存在,以及大量的节点只有很少的邻居,使得个体在进行上行比较时(同强者相比,强者一般为中心节点),基于自我完善的动机产生同化效应,强者的成功会使个体产生敬仰并备受激励;在进行下行比较时(同弱者相比,弱者一般不为中心节点),出于自我满足的动机产生对比效应,弱者的失败会使个体产生自信和提高自尊。因此,这可能是BA无标度网络中系统最终演化为对弱者欺凌和对强者尊敬的{W=1,α∈[0.9,1.0),V=0,β∈[0.9,1.0)}情感类型的原因。

猜你喜欢
强者弱者收益
强者和弱者
螃蟹爬上“网” 收益落进兜
今日农业(2020年20期)2020-12-15 15:53:19
弱者
强者对话
车迷(2016年1期)2016-05-30 11:07:47
跨省“人身安全保护令”,为弱者保驾护航
2015年理财“6宗最”谁能给你稳稳的收益
金色年华(2016年1期)2016-02-28 01:38:19
再生资源行业持续整合 龙头企业强者恒强
东芝惊爆会计丑闻 凭空捏造1518亿日元收益
IT时代周刊(2015年8期)2015-11-11 05:50:38
弱者生存
如何解开设计院BIM应用的收益困惑?