ung(1993)等等。
注意到,进化稳定性准则没有解释种群是如何达到这种策略的。然而,一旦达到这种策略,则这样的策略对进化压力来说是稳健的。同时,人们发现,进化稳定性没有处理种群中具有两个或更多“变异”同时出现的情况。因而,它隐含地把变异当成稀少事件,以致于种群有时间在另一个变异出现之前响应这种状况。
虽然,进化稳定性准则是一个生物学上的概念,但是它为各种各样的人类行为提供一种有关的稳健性准则。这样,进化稳定性要求人类群体中企图采用可选择的策略的任何一个小团体不比已经采用“固有”策略的那些个体所构成的团体收益好。相反,采用固有策略的那些个体所构成的团体缺乏激励来改变他们的策略。但是,那些采用可选策略的小团体却受激励而具有转变固有策略的行为。在这种社会背景下,进化稳定策略被人们看成是传统习惯或者已经确立起来的行为规则。比如,社会风气、企业管理模式等都可以看为是某种人类群体的规则,而极个别的人群社会行为、习气的变化就会被认为是“变异”。当然,在这种背景下,如果那些极少数的人群或企业的收益比不变异的人群或企业高时,那么这些变异分子会生存得更好!反之,则被淘汰掉。
可惜的是,许多博弈没有进化稳定策略。于是,研究人员探讨各种比进化稳定性稍弱一些的形式,以及集值形式的进化稳定性概念等。此外,ESS概念不能推广到n人对策的情况上。在本质上,ESS要求强的纳什均衡来实施,也就是每一个策略对于策略组而言应是唯一的最佳反应。
(二)复制动力学。复制动力学是选择过程的显性模型,它说明种群是如何分配博弈中有联系的不同纯策略随时间而演化的。复制动力学的数学公式是由Taylor和Jonker于1978年在“进化稳定策略和对策动力学”一文中提出的。他们认为由随机配对的个体所构成的一个大种群执行有限对策的两人博弈,犹如进化稳定性的设置一样。然而,此处的个体仅仅采用纯策略。种群状态是指在纯策略上的一个分布x。这种状态在数学上与博弈中的混合策略是等价的。
如果博弈中的收益表示成生物学上的适合性,也就是后代的数目,同时每一个后代继续其父母的策略,因此,采用纯策略i的个体数目(在大的种群中)将以某一比率指数增长,而此等于对纯策略i的预期收益u(ei,x),当执行着表示种群中当前策略分布的混合策略x时,采用任何纯策略i的种群分布的增长率等于此策略的收益与种群中平均收益的差。后者,等同于混合策略x当与其自身博弈时的预期收益u(x,x)。这是一个单种群的对称两人博弈的复制动力学。
Xi=[u(ei,x)-u(x,x)]xi………………(2)
注意到,对当前种群状态x的最佳反应具有最高的增长率。第二最佳反应具有第二高的增长率,如此等等。然而,虽然更成功的纯策略比欠成功的纯策略增长得快,但是种群中的平均收益不必随时间而增长。产生这一原因的可能性是,如果一个个体由采用最佳策略的个体所代替,那么遇见这个新个体的成员会得到比较低的收益。例如,这正是囚徒困境博弈的情况。如果最初几乎所有个体采用“合作”,那么个体中将逐渐地转向“抵赖”,从而平均收益将下降。然而,如果博弈在两个人总是获得相等的收益意义上是一个双对称的,那么自然选择的基本规律将成立:种群中收益随时间而增长,即使没有必要成为全局最大的。例如,这就是合作博弈的情况,其中所有个体逐渐地转向到执行同一个纯策略上。复制动力学能够推广到n人博弈的情况上,这可以看成是来自于 n种群、中的个体随机地以n类型配对,其中每一个参与者的地位状况正如纳什所给出的群体行为解释的那样。目前,存在两种形式的n种群复制动力学,其中一个是由Taylor在 1979年提出的,另一个是由Maynard Smith在1982年给出的。
(三)学习模型与选择动力学
人们把学习模型分成三种类型,即基于信念的学习、强化学习以及模仿学习。最近的一些研究表明,复制动力学是由后面两类的某种模型所促成的。
1.强化学习模型
心理学上的有关个体学习文献的中心模型是所谓的强化模型,这是由Bush和Mosteller在1951年提出的。然而,它的思想可以追溯到Thorndikede的“导致过去好的选择在将来最有可能重复”。当然,人们注意到这里的选择隐含地作为概率上的一种说法。
Bush和Mosteller的强化学习模型及其他的推广形式,已经在一系列的人类主观执行博弈中得到运用。可惜,这些模型的通常数学性质,人们还知道得很少。然而,Borgers和Sarin在1997年发表的“通过强化和复制动力学的学习”文章把Cross的Bush—Mosteller学习模型的形式与Taylor的两种群复制动力学进行了理论上的对比研究。虽然这种学习过程在离散时间背景中是随机的、演化的,而复制动力学在连续时间背景中是确定的、演化的。他们证明,在适当地构造连续时间的界限下,他们的学习过程在有限时间区间内可通过复制动力学来*近。
更确切地讲,他们研究在多次博弈回合中(n=l,2,…),在一个固定的两人参与者采用混合策略对中有限两人博弈的情况。每一个参与者凭借由其所运用的纯策略来记录概率如下。如果参与者1(同样的考察参与者2)在博弈的n次回合中运用纯策略k,并且获得一个正的收益Vk(n),这里Vk(n)作为随机变量,它依赖于参与者2所做出的随机选择,那么参与者1对于运用这个策略的未来概率将越增加,其收益也就越高。参与者2以同样的方法记录其选择概率向量Y。所有收益均假设处于单位开区间上,不过,这里的收益不能解释成N—M(冯·诺依曼和摩根斯藤)效用。因此,一旦所用策略的概率是递增的,那么所有选择均是强化的。
从任何一个初始概率向量X(0)=x0和Y(0)=Y0开始,方程(3)定义出博弈的混合策略空间中的一个马尔可夫链{X(n),Y(n)}∞n=1。其中参数δ>0表示博弈的两次回合之间的时间:t=nδ是n次博弈回合中的“真实”时间。Borgers和Sarin得到这一过程的连续时间界限,通过设n→∞和δ→0以便有δn=t,在任何有限的“真实”时间上来估计价值。因此,博弈在越来越短的时间区间上执行,同时概率以相称的较小数值得以适应。他们证明,在这个界限内,此过程以状态(x(t),y(t))的形式出现在单位区间概率上,其中如果复制动力学的初始状态在时间0处以(x0,y0)开始,那么复制动力学会在时间t达到。在这个意义上,复制动力学在有限时间区间上近似于强化动力学(3)。
然而,这两类模型的渐进性质却十分不同。例如,为了在直观上理解这点,假设参与者1的收益既是恒定独立于他的策略选择又独立于参与者2的策略选择。设参与者1在强化动力学中的初始状态指派概率等于参与者1的所有可获得纯策略的概率。同样的,设复制动力学的初始状态指派种群的各部分采用策略的概率等于所有可获得纯策略的概率。显然,复制动力学的解是一个常量:所有种群的各部分分得的收益永远相等。然而,强化动力学的实现会容易随时间而收敛到参与者1可获得的任何一个纯策略上。由于在博弈的第一个回合中选用策略的概率将高于在下一次博弈回合中所选用的策略概率,所以强化动力学的性质更有可能把参与者1“锁定”到他的任何一个纯策略上。Borgers和Sarin证明,任何有限两人博弈的强化动力学以概率1收敛到一个纯策略组合上,而不像复制动力学那样。
2.模仿学习模型
博弈论学者Gale,Binmore和Samuelon在1995年提出一个所有个体参与者都采用纯策略的大群体,但是有限博弈的社会学习的简单模型。每一个参与者在博弈中都赢得一个渴望水平的收益。在离散时间0,δ,2δ,…上,任意从群体中抽取个体δ部分,把其当前收益与他们的 上一页 [1] [2] [3] [4] [5] [6] 下一页
Tags:
|