跳转至

贝叶斯决策理论基础

博弈论、理性和智能性

从本讲起我们进入博弈论(game theory)的讨论。博弈论可以被定义为对智能理性决策者之间冲突与合作的数学模型研究。博弈论为分析那些涉及两个或多个参与者且其决策会影响相互间福利水平的情况提供了一般性的数学方法。接下来的内容我们主要参考如下教材:

  • [1]《博弈论:矛盾冲突分析》[美] 罗杰·迈尔森
  • [2]《博弈论》[以] 迈克尔·马希勒,埃隆·索兰,什穆埃尔·扎米尔

当然我们也会参考一些其它的论文或者讲义,届时我们会在文中列出参考的材料。下面我们回到博弈论的基本概念。前面我们给出了博弈论的一个定义,当然事实上这一定义并非数学性质的严格定义,因此不同的人可能会有不同的描述方式,但基本的博弈定义都会包含如下要素:

  1. 参与人(player):博弈的参与主体;
  2. 策略(strategy):参与人的行动选择;
  3. 效用(utility):也就是我们前面所说的“福利水平”。

注意到以上只是定义博弈的几个基本要素(之后可能还会见到其它的要素,目前最简单的版本就是这些要素),形成博弈我们还有人如下几个要求需要满足:

  1. 多个参与者之间的策略选择是互相影响的。首先是必须有多个参与者,这一点无需过多解释。其次是参与者之间的行动选择是影响相互的福利的,例如下象棋、打扑克都是符合这一点的,但是很多人一起在考场上完成试卷虽然也是多人参与,但是他们的行动选择并不会影响到他人的福利,因此这种情况并不是博弈;
  2. 参与者的行动选择是理性(rational)的。理性的含义是,参与人做出的决策与其所追求的目标是一致的;在我们接下来即将介绍的贝叶斯决策理论中,每个人的目标是效用最大化,因此理性人的决策是使得自己的效用最大化的行动;
  3. 参与者是智能(intelligent)的,因此参与人需要对博弈有一个全局的判断。这一点可以用前面介绍的微观经济学中的价格理论来进行对比,在一般均衡模型中,每个人都是追求个体效用最大化的理性决策者,但每个人都不需要知道市场的完整结构就能做出决策;但在象棋或者扑克游戏中,我们需要对整个博弈的情况有一个全局的认识,并基于此做出决策。

一个自然的批评是,这些要求看起来有些苛刻:我们要求博弈中的参与者都是理性和智能的,这显然在现实中无法实现。这的确是一个问题,但我们以后介绍的一些例子将会体现出近似现实的特点,并且很多博弈理论也在现实中广泛应用;另一方面,我们也应该怀疑那些不符合这些要求的博弈模型的有效性,如果一个理论预测,某些人将经常被愚弄或者做出代价极高的错误行动,埃米尔这些人应当对整个博弈有更好的理解,因此前面这些理论也就会逐渐失效。博弈论在社会科学中的重要性很大程度上就来源于这样一个事实。

决策理论的基本概念

博弈论的逻辑根源在于贝叶斯决策理论(Bayesian decision theory)。事实上,博弈论可以被看作是决策理论(对两个或两个以上决策者情形)的一种推广,或者作为决策理论在本质上的逻辑完备。因此,要理解博弈论的根本思想,我们应该从研究决策理论开始。本章余下部分将集中介绍贝叶斯决策理论基本思想,这里从期望效用最大化定理的一般推导及其相关结论开始。

我们的目标是将博弈中一个人的行为做简化,事实上在之前的微观经济学部分我们已经研究过类似的问题,我们的手段是通过公理刻画人的偏好,然后证明满足某些性质的偏好可以被表示为效用函数,这样每个理性人的行为就被简化为了效用函数的最大化的行为。在博弈论中,我们也会采用类似的方法,只是这里我们需要考虑不确定性下的决策问题,因此我们还需要引入主观概率分布(subjective probability distribution)来描述,并且当有一个新的信息可以被决策者利用时,这一主观概率应当根据贝叶斯公式进行更新。

不确定性条件下的决策通常是用下述两个模型之一描述的:概率模型(probability model)和状态变量模型(state-variable model)。在每一种模型中,我们所说的决策者都是在彩票(lotteries)中进行选择的人,两者的区别在于其对彩票的定义不同:

  • 概率模型适用于描述报酬依赖于具有明显客观概率的事件这一类赌博,我们称这样的事件为客观未知(objective unknowns)事件,例如掷一枚硬币之前我们不知道是正面还是反面,但是我们知道正反面的概率是相等的;
  • 状态变量模型适用于主观未知(subjective unknowns)事件,例如一项未来运动赛事的结果或者股票市场未来的行情都是不具有明显概率的主观未知事件的很好的例子。这时状态变量模型允许我们描述彩金是如何由不可预见的事件决定,而不必事先明确这些事件发生的概率。

事实上,我们的决策模型是同时包含了这两种模型的,因此我们研究的未知事件的效用既依赖于客观未知事件(可以直接由概率描述),又依赖于主观未知事件(需要由状态变量描述,或者说存在外生概率)。或许这里的抽象概念有些难以理解,我们举一个简单的例子,比如明天A与B队的足球比赛,如果我们知道一些状态,例如谁是主队,两队的伤员情况,最近的表现等,直到我们知道的状态信息多到包含了所有可能影响到最后结果的主观未知事件(尽管这看起来不太可能),那么两支队伍胜负的概率就只有客观概率的成分了,因此可以确定两队的胜负概率。

接下来我们形式化地描述一下我们的决策模型。首先,我们用 \(Z\) 表示一个有限集合,用 \(\Delta(Z)\) 表示集合 \(Z\) 的概率分布,即

\[\Delta(Z) = \{q: Z \rightarrow \mathbb{R} \mid \sum_{y \in Z} q(y) = 1, q(z) \geqslant 0, \forall z \in Z\}.\]

其中 \(\Delta(Z)\) 的每个元素 \(q\) 就是一个离散概率分布。

\(X\) 表示由决策者最终可能获得的彩金(prizes,这里我们将未知事件统一描述为彩票)所组成的集合:令 \(\Omega\) 表示可能的状态(states)所组成的集合,其中之一是世界真实状态(true state of the world)。为了简化数学分析,我们假定集合 \(X\)\(Ω\) 均为有限集。我们将彩票定义为某个函数 \(f\),对 \(X\) 中的每个彩金 \(x\)\(\Omega\) 中的每个状态 \(t\)\(f\) 都给出一个非负实数 \(f(x\mid t)\),使得对 \(\Omega\) 中的每个 \(t\) 都有 \(\sum_{x\in X}f(x\mid t)=1\)。令 \(L\) 表示由所有这样的彩票(lottery)所组成的集合,就是

\[L = \{f:\Omega \to \Delta(X)\}\]

\(\Omega\) 中的任一状态 \(t\)\(L\) 中的任一彩票 \(f\)\(f(\cdot\mid t)\)表示在状态 \(t\) 下由 \(f\) 确定的 \(X\) 的概率分布,即当状态 \(t\) 确定之后,彩金 \(X\) 只余下客观概率,其概率分布就是 \(f(\cdot\mid t)\)

\[f(\cdot \mid t)=(f(x\mid t))_{x\in X}\in \Delta(X)\]

这里的每个数 \(f(x\mid t)\) 都可以被理解为若 \(t\) 是世界真实状态,则彩票 \(f\) 得到彩金 \(x\) 的客观条件概率是 \(f(x\mid t)\)。回忆我们前面给出的足球比赛的例子,为使这种解释合乎情理,状态必须被定义得足够广泛,以至包括所有可能影响到所获得的彩金的主观未知事件。从而,一旦确定了某一状态,余下的只有客观概率没有确定,而对于任何一个规范界定的赌博而言,其可能彩金集合的客观概率分布总是可以被计算出来的。因此,我们对彩票的规范定义可用于表示任何一项赌博,其从中获取的彩金既依赖于客观未知事件又依赖于主观未知事件。

在规定了我们研究的决策模型之后,也就是描述了我们研究的彩票后,我们就可以开始研究博弈参与人对于不同彩票的偏好了。事实上我们所说的彩金可以是任何商品组合或资源配置。我们假定,根据彩金集合 \(X\) 的定义,不同彩金之间相互排斥,且穷尽了决策者各种决策的可能结果。并且,我们假定X中的每一个彩金完整地描述了决策者在由其决策所导致的情形中他所关心的各方面情况。因而,在拥有有关世界情形的任何信息的条件下,这一决策者应该能够估算出其在彩票集合上的偏好次序。

决策者关于世界真实状态可能拥有的信息可以用一个事件(event)来描述,每个事件都是所有可能状态 \(\Omega\) 的一个非空子集。我们用 \(\Xi\) 表示所有事件组成的集合,则

\[\Xi = \{S \mid S \subseteq \Omega, S \neq \varnothing\}\]

对于 \(L\) 中的任意两个彩票 \(f\)\(g\),以及 \(\Xi\) 中的任一事件 \(S\),当且仅当决策者知道了世界真实状态在 \(S\) 中,则对他来说,\(f\) 至少是和 \(g\) 一样的理想选择的时候,我们才得到 \(f \succeq_S g\)。这就是说,当且仅当决策者在只知道事件 \(S\) 已经发生而又必须在 \(f\)\(g\) 之间选择其一时,他自愿选择了彩票 \(f\),才有 \(f \succeq_S g\)。给定这个关系(\(\succeq_S\)),我们可以定义关系(\(\succ_S\))和(\(\sim_S\)),事实上这与微观经济学部分是完全类似的:

偏好

  1. \(f \sim_S g\) 当且仅当 \(f \succeq_S g\)\(g \succeq_S f\)
  2. \(f \succ_S g\) 当且仅当 \(f \succeq_S g\)\(f \nsim_S g\)

我们可以用 \(\succeq\)\(\succ\)\(\sim\) 相应地代替 \(\succeq_\Omega\)\(\succ_\Omega\)\(\sim_\Omega\),即 \(\Omega\) 的某个状态被观察值排除之前,在没有谈到条件事件时,假定彩票集合的偏好是先验偏好,在一些简化的研究,如微观经济学的框架下便是如此,因此我们这里的整套框架实际上也蕴含了之前所研究的框架。因此类似的,我们也有彩票组合的概念,对于满足 \(0 \leqslant \alpha \leqslant 1\) 的任意数 \(\alpha\)\(L\) 中任意两个彩票 \(f\)\(g\)\(\alpha f + (1 - \alpha)g\) 表示 \(L\) 中这样的彩票,使得

\[(\alpha f + (1 - \alpha)g)(x \mid t) = \alpha f(x \mid t) + (1 - \alpha)g(x \mid t), \forall x \in X, \forall t \in \Omega\]

为了解释这一定义,考虑从一个瓮中取一个球,瓮中黑球的比例是 \(\alpha\),白球的比例是 \((1 - \alpha)\)。设想若取出的是黑球,则决策者抽取彩票 \(f\);而若取出的是白球,则这个决策者抽取彩票 \(g\)。于是,如果 \(t\) 是真实状态,该决策者最终得到彩金 \(x\) 的概率是 \(\alpha f(x \mid t) + (1 - \alpha)g(x \mid t)\)。因而,\(\alpha f + (1 - \alpha)g\) 表示基于 \(f\)\(g\) 并按照随机的彩票选择过程而生成的复合彩票。

对任一彩金 \(x\),我们令 \([x]\) 表示一个总是一定能给出彩金 \(x\) 的彩票。即,对每个状态 \(t\) 都有

\[[x](y \mid t) = 1, \text{若 } y = x, [x](y \mid t) = 0, \text{若 } y \neq x\]

因而,\(\alpha [x] + (1 - \alpha)[y]\) 表示分别以概率 \(\alpha\)\((1 - \alpha)\) 给出彩金 \(x\) 和彩金 \(y\) 的彩票。

期望效用最大化定理

我们目前已经定义了我们的决策模型(由状态变量和客观概率共同决定),定义了我们感兴趣的研究对象(也就是彩票),说明了在我们的决策模型下各个博弈参与人对于各个事件具有偏好。接下来类似于我们在微观经济学中的研究,我们需要对偏好进行一些公理化的描述,从而在上面定义效用函数和条件概率函数(这是不确定性决策特有的),从而使得参与人最偏好的行为就是期望效用最大化的行为。为了达成我们的目标,我们首先对偏好公理进行定义。

偏好公理

如下公里 1.1A 和 1.1B 是微观经济学中就已经研究过的公理,即我们要求决策者对彩票集合的偏好构成一个完备且可传递的序列。

公理 1.1A + 1.1B

  1. 公理 1.1A(完备性):对于任意两个彩票 \(f\)\(g\),有且仅有一个关系 \(f \succeq_S g\)\(g \succeq_S f\) 成立。
  2. 公理 1.1B(传递性):对于任意三个彩票 \(f\)\(g\)\(h\),如果 \(f \succeq_S g\)\(g \succeq_S h\),则 \(f \succeq_S h\)

和我们在微观经济学中的情况一致,公理 1.1B 还暗含了一些其他的传递性结论。例如,若 \(f \sim_S g\)\(g \sim_S h\),则有 \(f \sim_S h\)。若 \(f \succ_S g\)\(g \succeq_S h\),则有 \(f \succ_S h\) 等。

公理 1.2 断言,只有可能的情形才是与决策者相关的,因此,给定事件 S,只在 S 以外的状态有所不同的两个彩票对决策者而言将是无差异的:

公理 1.2

公理 1.2(相关性):若 \(f(\cdot \mid t) = g(\cdot \mid t), \forall t \in S\),则 \(f \sim_S g\)

公理 1.3 认为,得到一个较好的彩票的概率总是越高越好。

公理 1.3

公理 1.3(单调性):若 \(f \succ_S h\)\(0 \leqslant \beta < \alpha \leqslant 1\),则 \(\alpha f + (1 - \alpha)h \succ_S \beta f + (1 - \beta)h\)

基于公理 1.3,公理 1.4 断言 \(\gamma f + (1 - \gamma)h\) 总是随着 \(\gamma\) 的增大而连续地变得越来越好。因此,对偏好次序介于 \(f\)\(h\) 之间的任一彩票,总存在某个由 \(f\)\(h\) 随机产生的复合彩票与之一样好。

公理 1.4

公理 1.4(连续性):若 \(f \succeq_S g\)\(g \succeq_S h\),则存在某个数值 \(\gamma\),使得 \(0 \leqslant \gamma \leqslant 1\)\(g \sim_S \gamma f + (1 - \gamma)h\)

替代性公理(也被称为独立性公理或肯定性公理)在下述意义上或许是公理系中最重要的一个:即使没有其他公理,替代性公理也能对决策者偏好应具有的性质产生很强的限制。替代性公理也应该是很直观的公理,其表达的基本思想是,如果决策者必须在两个选择中取其一,又存在两个互斥事件且其中之一必然发生,而他在每个事件下都偏好于第一个选择,那么,在知道哪个事件发生之前,他一定偏好于第一个选择(否则,他将表现出一种偏好,按照这种偏好,必然存在某个事件使得他在知道该事件是真实的之后,肯定想颠倒偏好顺序转而偏好于第二个选择)。在公理 1.5A 和公理 1.5B 中,这些事件在随机的彩票选择过程中是被客观随机化的,而在公理 1.6A 和公理 1.6B 中,这些事件是主观未知事件,具体如下:

公理 1.5A + 1.5B + 1.6A + 1.6B

  1. 公理 1.5A(客观替代性):若 \(e \succeq_S f\)\(g \succeq_S h\)\(0 \leqslant \alpha \leqslant 1\),则 \(\alpha e + (1 - \alpha)g \succeq_S \alpha f + (1 - \alpha)h\)
  2. 公理 1.5B(严格的客观替代性):若 \(e \succ_S f\)\(g \succeq_S h\)\(0 < \alpha \leqslant 1\),则 \(\alpha e + (1 - \alpha)g \succ_S \alpha f + (1 - \alpha)h\)
  3. 公理 1.6A(主观替代性):若 \(f \succeq_S g\)\(f \succeq_T g\)\(S \cap T = \varnothing\),则 \(f \succeq_{S \cup T} g\)
  4. 公理 1.6B(严格的主观替代性):若 \(f \succ_S g\)\(f \succ_T g\)\(S \cap T = \varnothing\),则 \(f \succ_{S \cup T} g\)

通俗而言,1.5A 的含义就是,现在有两类彩票,第一类以概率 \(\alpha\) 可以中 100 元,以概率 \((1 - \alpha)\) 可以中 1000 元,第二类以概率 \(\alpha\) 可以中 50 元,以概率 \((1 - \alpha)\) 可以中 500 元,那么尽管这两个都是彩票,具有结果不确定性,第二类彩票的最优情况比第一类好,但因为在以 \(\alpha\)\(1 - \alpha\) 概率发生的两件互斥的事情中,第一类彩票都比第二类好,所以第一类彩票在整体上是比第二类彩票好的。1.6A 的含义就是,现在有两个不同的世界状态,在两种状态下第一类彩票都比第二类彩票好,那么在这两种状态合并下的彩票选择中,第一类彩票也是比第二类彩票好的。

为了充分地了解替代性公理的重要性,考虑一下在决策理论中,我们试图去掉替代性公理可能引起的困难是有帮助的。设想一个人偏好 \(x\) 胜于 \(y\),但他又偏好 \(0.5[y]+0.5[z]\) 胜于 \(0.5[x]+0.5[z]\),从而违背了替代性公理。再假设 \(w\) 是他认为好于 \(0.5[x]+0.5[z]\) 而又差于 \(0.5[y]+0.5[z]\) 的某个彩金,即

\[x \succ y\ \text{但}\ 0.5[y]+0.5[z] \succ [w] \succ 0.5[x]+0.5[z] \]

现在考虑下述决策场景:决策者必须首先决定是否接受彩金 \(w\)。若他不要彩金 \(w\),那就如同掷一枚硬币。如果正面朝上,他将获得彩金 \(z\),而当反面朝上时,他将在彩金 \(x\)\(y\) 之间选择其一。

这个决策者应该怎样做呢?他面临三个可能的决策策略(注意硬币正面朝上后决策者不需要做决策,因此不列举):

  1. 接受 \(w\),获得彩票 \([w]\)
  2. 拒绝 \(w\),但若硬币反面朝上则选择 \(x\),即获得彩票 \(0.5[x]+0.5[z]\)
  3. 拒绝 \(w\),但若硬币反面朝上则选择 \(y\),即获得彩票 \(0.5[y]+0.5[z]\)

事实上如果决策者的“理性层次”有差别,他们做出的选择也会不同,甚至上面三种决策结果都可能出现:

  1. 如果决策者一开始就能看到这个结果,由于在这三个彩票中他最喜欢 \(0.5[y]+0.5[z]\),因此他应该拒绝 \(w\),然后若硬币反面朝上则选择 \(y\)
  2. 决策者在拒绝 \(w\) 之后,他回想起其实他本身在 \(x\)\(y\) 中是更喜欢 \(x\) 的,那么他此时应该应该拒绝 \(w\),然后若硬币反面朝上则选择 \(x\)
  3. 如果决策者发现了自己有可能出现第二种倾向,那么他应该在一开始就接受 \(w\),因为 \(w\)\(0.5[x]+0.5[z]\) 好。

由此可以看出,如果我们在没有替代性公理的情况下谈论“理性的”决策,那么我们必须明确理性的决策者能否保证自己采用改变的策略(如果能,在本例中“理性的”行为将导致 \(0.5[y]+0.5[z]\),即他意识到自己虽然喜欢 \(x\),但最终最优是这一个)。如果他们不能作出这样的承诺,那么我们还必须明确他们是能预见他们未来行为的不一致性(在此种情况下,本例的结果应该是 \([w]\))还是不能预见他们未来行为的不一致性(在此种情况下,本例的结果应该是 \(0.5[x]+0.5[z]\))。如果这些假定没有一个是合情合理的,那么为了避免这种困境,我们必须接受替代性公理作为我们对理性所下定义的一部分。

接下来的公理 1.7 要求决策者绝不会对所有彩金的偏好都是无差异的。这个公理只是一个正则性条件,以保证在每个状态下都会多少有点利害关系发生。

公理 1.7

公理 1.7(利害性):对于 \(\Omega\) 中的每种情况 \(t\)\(X\) 中都存在彩金 \(y\)\(z\),使得 \([y] \succ_{\{t\}}[z]\)

接下来的公理 1.8 比较特殊:有没有公理 1.8,我们只是在表述主要结论时在形式上有所不同,并不影响这些主要结论的成立与否,在这种意义上,它对于我们的分析而言是可有可无的。公理 1.8 断言,决策者在世界所有情况下对客观赌博总是具有相同的偏好次序。如果这个公理不成立,那是因为同样的彩金在不同的状态下可能有不同的评价值。

公理 1.8

公理 1.8(状态中性):对于 \(\Omega\) 中的任意两个状态 \(r\)\(t\),若 \(f(\cdot \mid r) = f(\cdot \mid t)\)\(g(\cdot \mid r) = g(\cdot \mid t)\),且有 \(f \succeq_{\{r\}} \ g\),则 \(f \succeq_{\{t\}} g\)

看起来有些复杂,但表达的含义实际上就是,在任意的世界状态之下,决策者对两个客观概率相同的彩票之间的偏好是完全一致的。事实上在微观经济学中我们就是采用了这一结论,因为在微观经济学中我们并没有考虑世界的状态,事实上就等价于世界的状态不会影响我们对客观概率的偏好。

期望效用最大化定理

在定义了偏好公理后,沿着微观经济学的思路,我们知道直接通过偏好研究决策者的行为非常复杂的,因此我们需要定义与偏好等价的效用函数,通过选择效用最大化的结果来表达决策者选择最偏好的结果的行为。除此之外,因为这里研究的是有主观概率的决策,我们还需要定义条件概率函数,最后我们定义的效用最大化也是期望效用最大化。接下来我们就开始给出这些定义,并证明期望效用最大化定理。

条件概率函数

集合 \(\Omega\) 的一个条件概率函数(conditional-probability function)是 \(p: \Xi \to \Delta(\Omega)\) 中的任何一个函数,表示对于 \(\Omega\) 中的每个状态 \(t\) 和每个事件 \(S\) 都存在非负的条件概率 \(p(t \mid S)\),且使得

\[p(t \mid S) = 0, \text{若 } t \notin S, \text{且 } \sum_{r \in S} p(t \mid S) = 1\]

给定任一这样的条件概率函数,我们可以得到

\[p(R \mid S) = \sum_{r \in R} p(r \mid S), \forall R \subseteq \Omega, \forall S \in \Xi\]

效用函数

集合 \(X\) 的一个效用函数(utility function)可以是从 \(X \times \Omega\) 到实数集 \(\mathbb{R}\) 的任一函数,也就是说,效用函数将每个(彩金,状态)的组合映射到一个效用值。对于效用函数 \(u: X \times \Omega \to \mathbb{R}\),当且仅当它实际上不依赖于状态时,\(u\) 被称为是状态独立的(state independent),这时存在某个函数 \(U: X \to \mathbb{R}\) 使得对所有的 \(x\)\(t\) 都有 \(u(x \mid t) = U(x)\),即此时无论什么状态,相同的彩金带来的效用值都是一样的。

给定任一上述条件概率函数 \(p\) 和任一效用函数 \(u\),再给定 \(L\) 中的任一彩票 \(f\)\(\Xi\) 中的任一事件 \(S\),那么 \(E_p(u(f) \mid S)\) 表示由 \(f\) 所决定的彩金的期望效用值,其中 \(p(\cdot \mid S)\) 为世界真实状态的概率分布,即

\[E_p(u(f) \mid S) = \sum_{t \in S} p(t \mid S) \sum_{x \in X} u(x, t) f(x \mid t)\]

这是很容易理解的,因为效用函数 \(u(x, t)\) 有两重不确定性,其一是彩金 \(x\) 的不确定性,其二是状态 \(t\) 的不确定性,因此我们用两层期望就可以得到最终的期望效用值。

期望效用最大化定理

公理 1.1AB、公理 1.2、公理 1.3、公理 1.4、公理 1.5AB、公理 1.6AB 以及公理 1.7 同时满足的充分必要条件是存在一个效用函数 \(u: X \times \Omega \to \mathbb{R}\) 和一个条件概率函数 \(p: \Xi \to \Delta(\Omega)\) 使得

\[\begin{align} \max\limits_{x \in X} u(x, t) = 1, \text{且 } \min\limits_{x \in X} u(x, t) = 0, \forall t \in \Omega \tag{1} \label{regular} \\ p(R \mid T) = p(R \mid S)p(S \mid T), \forall R \subseteq S \subseteq T \subseteq \Omega, S \neq \varnothing \tag{2} \label{bayesian} \\ f \succeq_S g\ \text{当且仅当}\ E_p(u(f) \mid S) \geqslant E_p(u(g) \mid S), \forall f, g \in L, \forall S \in \Xi \tag{3} \label{maximize} \end{align}\]

进一步而言,如果除公理 1.1A~1.7 之外,同时满足公理 1.8 的充分必要条件是:式 \(\eqref{regular}\) ~ \(\eqref{maximize}\) 对一个状态独立的效用函数也成立。

在这个定理中,条件 \(\eqref{regular}\) 是一个规范化条件,它是指在任一状态下,我们可以选择取值介于 0 和 1 之间的效用函数(回顾 \(X\)\(\Omega\) 都被假定为有限集)。条件 \(\eqref{bayesian}\) 是贝叶斯公式的一个变形,它给出了一个事件下所确定的条件概率是如何与另一个事件下所确定的条件概率有必然联系的。不过,定理中最重要的部分是条件 \(\eqref{maximize}\),它表示决策者的偏好可以被一个效用函数和一个条件概率函数(也就是他的主观概率)来描述,并且决策者总是偏好于具有较高期望效用的彩票。根据条件 \(\eqref{maximize}\),我们一旦确定了 \(u\)\(p\),就可以预测决策者在决策行为中的最优选择:决策者将利用他由 \(\Omega\) 中已观察到的任一事件而形成的主观概率,从可供选择的彩票中,挑选出那个可获得最高期望效用的彩票。需要注意的是,在 \(X\)\(\Omega\) 都是有限集时,我们只能计算有限多个效用和概率值。因而,决策者对集合 \(L\) 中无限多个彩票的偏好可以表示为有限多个均值。

为了能在实践中应用这个结论,我们需要一个对所有 \(x, t\)\(S\) 都能够确定效用 \(u(x, t)\) 和概率 \(p(t \mid S)\) 的程序,即给定偏好,我们能给出描述偏好的效用函数和条件概率函数。正如雷法(1968)所强调指出的那样,这样的程序确实存在,并构成了实际决策分析的基础。为了明确表示这样的一个计算程序并证明定理 1.1,我们假设决策者的偏好满足公理 1.1AB~1.7,首先定义一些特殊的彩票。

\(a_1\) 表示一个在任何状态下都给决策者带来最优彩金的彩票;让 \(a_0\) 表示一个在任何状态下都给决策者带来最差彩金的彩票。即对于任一状态 \(t\) 以及彩金 \(y\)\(z\) 都有 \(a_1(y \mid t) = 1 = a_0(z \mid t)\),其中对 \(X\) 中每个 \(x\)\(y\)\(z\) 满足 \(y \succeq_{\{t\}} x \succeq_{\{t\}} z\)(即 \(y\)\(z\) 是最好和最差的彩金)。并且在任一状态下都存在最优彩金和最差彩金,因为偏好关系(\(\succeq\))在有限集 \(X\) 上构成完备的传递序列。

对于 \(\Xi\) 中的任一事件 \(S\),令 \(b_S\) 表示这样的彩票,使得

\[\begin{align} b_S(\cdot \mid t) = a_1(\cdot \mid t), \text{若 } t \in S \\ b_S(\cdot \mid t) = a_0(\cdot \mid t), \text{若 } t \notin S \end{align}\]

\(b_S\) 是“针对 \(S\) 的赌注”,如果 \(S\) 发生,则得到最优可能的彩金,否则,得到最差可能的彩金。现在,在给定满足公理 1.1AB~1.7 的偏好后,我们就可以定义确定满足定理 1.1 的效用和概率的程序了:

  1. 对每个 \(x\)\(t\),首先问决策者:“如果知道 \(t\) 是世界真实状态,\(\beta\) 等于多少时,你感到 \([x]\)\(\beta a_1 + (1 - \beta)a_0\) 之间是无差异的?”由连续性公理可知,这样的数值一定存在。那么,让 \(u(x, t)\) 等于他所回答的 \(\beta\),则

    \[[x] \sim_{\{t\}} u(x, t)a_1 + (1 - u(x, t))a_0 \tag{4} \label{u}\]

    这是很合理的,因为当 \(u(x,t) = 1\) 的时候表明 \(x\) 是最优的,当 \(u(x,t) = 0\) 的时候表明 \(x\) 是最差的。

  2. 对每个 \(t\)\(S\),再问决策者:“如果知道真实状态在 \(S\) 中,你认为 \(\gamma\) 等于多少时,你觉得 \(b_{\{t\}}\)\(\gamma a_1 + (1 - \gamma)a_0\) 之间是无差异的?”同样由连续性公理可知,这样的数值 \(\gamma\) 一定存在(主观替代性公理保证了 \(a_1 \succeq_S b_{\{t\}} \succeq_S a_0\))。令 \(p(t \mid S)\) 等于他所确定的 \(\gamma\),则

    \[b_{\{t\}} \sim_S p(t \mid S) a_1 + (1 - p(t \mid S))a_0 \tag{5} \label{p}\]

    这也是非常合理的,因为 \(b_{\{t\}}\) 就是针对 \(\{t\}\) 的赌注,所以上式非常直观。

在定理的证明过程中,我们发现用这种方式定义的 \(u\)\(p\) 确实满足定理的所有条件。因而,有限多个提问就足以确定那些完备描述决策者偏好的概率和效用。为了证明我们的结果,我们还需要额外引入一些彩票的定义,并为了我们陈述的方便,需要首先证明一些引理。

对于任一彩金 \(x\) 和任一状态 \(t\),令 \(c_{x,t}\) 表示一个彩票,那么

\[\begin{align} c_{x,t}(\cdot \mid r) = [x](\cdot \mid r), \text{若 } r = t \\ c_{x,t}(\cdot \mid r) = a_0(\cdot \mid r), \text{若 } r \neq t \end{align}\]

\(c_{x,t}\) 除了在状态 \(t\) 得到彩金 \(x\) 之外,在其余状态下都得到最差的彩金。我们可以证明下面的引理:

引理

  1. 对于每个事件 \(S\)\(c_{x,t} \sim_S u(x,t)b_{\{t\}}+(1-u(x,t))a_0\)
  2. \(f\) 表示任意彩票,\(|\Omega|\) 表示 \(\Omega\) 中的状态个数,那么 \(\dfrac{1}{|\Omega|}f + \left(1 - \dfrac{1}{|\Omega|}\right)a_0 = \dfrac{1}{|\Omega|}\sum\limits_{t \in \Omega}\sum\limits_{x \in X} f(x \mid t)c_{x,t}\)

引理的证明

  1. 根据主观替代性公理,我们只需证明,对于每个状态 \(r\) 都有 \(c_{x,t} \sim_{\{r\}} u(x,t)b_{\{t\}}+(1-u(x,t))a_0\)。根据相关性公理,这等价于证明

    \[c_{x,t}(\cdot \mid r) = u(x,t)b_{\{t\}}(\cdot \mid r)+(1-u(x,t))a_0(\cdot \mid r)\]

    我们根据 \(r = t\)\(r \neq t\) 分别讨论,并结合 \(u(x,t)\) 的定义(式 \(\eqref{u}\))即可证明。

  2. 我们只需观察右边的求和式,观察当外层求和到状态为 \(t\) 以及不为 \(t\) 时的情况即可证明。

接下来我们便可以证明期望效用最大化定理:

期望效用最大化定理的证明

\(u\)\(p\) 的定义满足 \(\eqref{u}\)\(\eqref{p}\),我们首先证明条件 \(\eqref{maximize}\)。根据公理 1.5A 和 1.5B,\(f \succeq_S g\) 的充分必要条件是

\[\dfrac{1}{|\Omega|}f + \left(1 - \dfrac{1}{|\Omega|}\right)a_0 \succeq_S \dfrac{1}{|\Omega|}g + \left(1 - \dfrac{1}{|\Omega|}\right)a_0\]

根据引理的第二个结果,我们只需证明

\[\dfrac{1}{|\Omega|}\sum\limits_{t \in \Omega}\sum\limits_{x \in X} f(x \mid t)c_{x,t} \succeq_S \dfrac{1}{|\Omega|}\sum\limits_{t \in \Omega}\sum\limits_{x \in X} g(x \mid t)c_{x,t}\]

结合引理的第一个结果,并反复应用客观替代性公理

\[\begin{align} \dfrac{1}{|\Omega|}\sum\limits_{t \in \Omega}\sum\limits_{x \in X} f(x \mid t)c_{x,t} & \sim_S \dfrac{1}{|\Omega|}\sum\limits_{t \in \Omega}\sum\limits_{x \in X} f(x \mid t)(u(x,t)b_{\{t\}}+(1-u(x,t))a_0) \\ & \sim_S \dfrac{1}{|\Omega|}\sum\limits_{t \in \Omega}\sum\limits_{x \in X} f(x \mid t)(u(x,t)(p(t \mid S)a_1+(1-p(t \mid S))a_0)+(1-u(x,t))a_0) \\ & = \dfrac{1}{|\Omega|}\sum\limits_{t \in \Omega}\sum\limits_{x \in X} f(x \mid t)u(x,t)p(t \mid S)a_1 + (1-\sum\limits_{t \in \Omega}\sum\limits_{x \in X} f(x \mid t)u(x,t)p(t \mid S)/|\Omega|)a_0 \\ & = (E_p(u(f) \mid S)/|\Omega|)a_1 + (1-(E_p(u(f) \mid S)/|\Omega|))a_0 \end{align}\]

类似地有:

\[(1/|\Omega|)g+(1-(1/|\Omega|))a_0 \sim_S (E_p(u(g) \mid S)/|\Omega|)a_1 + (1-(E_p(u(g) \mid S)/|\Omega|))a_0\]

因此,根据传递性公理,\(f \succeq_S g\) 的充分必要条件是

\[(E_p(u(f) \mid S)/|\Omega|)a_1 + (1-(E_p(u(f) \mid S)/|\Omega|))a_0 \geqslant (E_p(u(g) \mid S)/|\Omega|)a_1 + (1-(E_p(u(g) \mid S)/|\Omega|))a_0\]

根据利害性公理以及主观替代性公理有 \(a_1 \succ_S a_0\),因此根据单调性公理,上述偏好成立的充分必要条件是 \(E_p(u(f) \mid S) \geqslant E_p(u(g) \mid S)\)。因此,条件 \(\eqref{maximize}\) 是可以满足的。

接着,我们通过公理来推导条件 \(\eqref{bayesian}\)。对任意事件 \(R\)\(S\),根据客观替代性公理可得出

\[\begin{align} \dfrac{1}{|R|}b_R + \left(1 - \dfrac{1}{|R|}\right)a_0 & = \dfrac{1}{|R|}\sum\limits_{r \in R} b_{\{r\}} \\ & \sim_S \dfrac{1}{|R|}\sum\limits_{r \in R} (p(r \mid S)a_1 + (1-p(r \mid S))a_0) \\ & \dfrac{1}{|R|}(p(R \mid S)a_1 + (1-p(R \mid S))a_0)+(1-\dfrac{1}{|R|})a_0 \end{align}\]

其中 \(|R|\) 是集合 \(R\) 中的状态数。那么,根据公理 1.5A 和 1.5B,我们得到

\[b_R \sim_S p(R \mid S)a_1 + (1-p(R \mid S))a_0\]

由相关性公理,我们有 \(b_S \sim_S a_1\),且对于不在 \(S\) 中的任何 \(r\)\(b_{\{r\}} \sim_S a_0\),因此,上式(应用单调性公理和利害性公理)意味着,\(p(S \mid S) = 1\),且若 \(r \notin S\),则 \(p(r \mid S) = 0\)。因此,如前面所定义的那样,\(p\) 是条件概率函数。

现在假设 \(R \subseteq S \subseteq T\),再根据 \(b_S \sim_S a_1\),我们得到

\[b_R \sim_S p(R \mid S)a_1 + (1-p(R \mid S))a_0 \sim_S p(R \mid S)b_S + (1-p(R \mid S))a_0\]

另外,由于 \(b_R\)\(b_S\)\(a_1\)\(S\) 之外都给出相同的最差彩金,相关性公理意味着

\[b_R \sim_{T\S} p(R \mid S)b_S + (1-p(R \mid S))a_0\]

于是,由主观替代性公理和客观替代性公理可知

\[\begin{align} b_R & \sim_T p(R \mid S)b_S + (1-p(R \mid S))a_0 \\ & \sim_T p(R \mid S)(p(S \mid T)a_1 + (1-p(S \mid T))a_0) + (1-p(R \mid S))a_0 \\ & = p(R \mid S)p(S \mid T)a_1 + (1-p(R \mid S)p(S \mid T))a_0 \end{align}\]

\(b_R \sim_T p(R \mid T)a_1 + (1-p(R \mid T))a_0\)。又因为 \(a_1 \succ_T a_0\),单调性公理意味着 \(p(R \mid T) = p(R \mid S)p(S \mid T)\)。因此,通过公理系可以推导出 \(\eqref{bayesian}\)

如果在状态 \(t\)\(y\) 表示最优彩金而 \(z\) 表示最差彩金,则 \([y] \sim_{\{t\}} a_1\)\([z] \sim_{\{t\}} a_0\),由单调性公理可知 \(u(y, t) = 1\)\(u(z, t) = 0\)。因而我们所构造的效用函数也满足取值条件 \(\eqref{regular}\)

如果又给定了状态中性公理,则我们在状态 \(t\) 确定 \(u(x, t)\) 时,决策者所给出的答案与我们在任意另一个状态 \(r\) 下确定 \(u(x, r)\) 时所给出的答案将是相同的(因为此时相同的彩票在不同状态下有相同的偏好,故 \([x] \sim u(\cdot, t)a_1 + (1 - u(\cdot, t))a_0\) 意味着 \([x] \sim u(\cdot, r)a_1 + (1 - u(\cdot, r))a_0\),且单调性公理和利害性公理保证了其答案的唯一性)。于是,公理 1.8 意味着 \(u\) 是状态独立的。

为了完成定理的证明,余下要证明的是,满足定理中条件 \(\eqref{regular}\)\(\eqref{maximize}\) 的函数 \(u\)\(p\) 的存在性,是足以让所有公理成立(只有对公理 1.8 的证明用到状态独立性)的充分条件。如果我们运用期望效用公式的基本数学性质,验证这些公理是轻而易举的。作为说明,我们只给出主观替代性这一公理的证明过程,而将其余公理的证明留作读者做练习。

\(f \succeq_S g\)\(f \succeq_T g\)\(S \cap T = \varnothing\),则由条件 \(\eqref{maximize}\) 得到 \(E_p(u(f) \mid S) \geqslant E_p(u(g) \mid S)\)\(E_p(u(f) \mid T) \geqslant E_p(u(g) \mid T)\)。但是,根据式 \(\eqref{bayesian}\) 可以得到

\[\begin{align} E_p(u(f) \mid S \cup T) & = \sum_{t \in S \cup T} \sum_{x \in X} p(t \mid S \cup T) f(x \mid t) u(x, t) \\ & = \sum_{t \in S} \sum_{x \in X} p(t \mid S \cup T) f(x \mid t) u(x, t) + \sum_{t \in T} \sum_{x \in X} p(t \mid S \cup T) f(x \mid t) u(x, t) \\ & = p(S \mid S \cup T) E_p(u(f) \mid S) + p(T \mid S \cup T) E_p(u(f) \mid T) \\ & \geqslant p(S \mid S \cup T) E_p(u(g) \mid S) + p(T \mid S \cup T) E_p(u(g) \mid T) \\ & = E_p(u(g) \mid S \cup T) \end{align}\]

等价表示

当我们去掉取值条件 \(\eqref{regular}\) 后,可能存在不止一对效用与条件概率函数,它们在条件 \(\eqref{maximize}\) 的意义上都表示相同的决策者偏好。从决策理论的性质来说,这样的等价表示是完全不可区别的,因此,对于任何一个要求在这样的等价表示之间加以区别的经济行为理论,我们都应该表示怀疑。于是,能否辨认这样的等价表示或许有其理论重要性。

给定任一主观事件 \(S\),当我们说一个效用函数 \(v\) 与一个条件概率函数 \(q\) 一起表示(represent)了偏好序 \(\succeq_S\) 时,我们的意思是说,对每一对彩票 \(f\)\(g\),当且仅当 \(f \succeq_S g\) 时,\(E_q(v(f) \mid S) \geqslant E_q(v(g) \mid S)\)。本节我们就希望研究一起表示的函数之间有什么关联,事实上答案是类似于线性的关系。

等价表示

\(\Xi\) 中的 \(S\) 是任一给定的主观事件。假设决策者的偏好满足公理 1.1AB~1.7,且 \(u\)\(p\) 是满足定理 1.1 中式 \(\eqref{regular}\)\(\eqref{maximize}\) 的效用函数和条件概率函数,则 \(v\)\(q\) 一起表示偏好序 \(\succeq_S\) 的充分必要条件是:存在正数 \(A\) 和函数 \(B: S \to \mathbb{R}\) 使得

\[q(t \mid S)v(x, t) = Ap(t \mid S)u(x, t) + B(t), \forall t \in S, \forall x \in X \tag{6} \label{equivalent}\]

等价表示的证明

首先假设如定理所描述的 \(A\)\(B(\cdot)\) 真实存在,那么,由于 \(\sum_{x \in X} f(x \mid t) = 1\),故对任一彩票 \(f\) 都有

\[\begin{align} E_q(v(f) \mid S) & = \sum_{t \in S} \sum_{x \in X} f(x \mid t) q(t \mid S) v(x, t) \\ & = \sum_{t \in S} \sum_{x \in X} f(x \mid t) (Ap(t \mid S)u(x, t) + B(t)) \\ & = A \sum_{t \in S} \sum_{x \in X} f(x \mid t) p(t \mid S) u(x, t) + \sum_{t \in S} B(t) \sum_{x \in X} f(x \mid t) \\ & = AE_p(u(f) \mid S) + \sum_{t \in S} B(t) \end{align}\]

所以,关于 \(q\)\(v\)-期望效用是关于 \(p\)\(u\)-期望效用的线性增函数,因为 \(A > 0\)。于是,当且仅当 \(E_p(u(f) \mid S) \geqslant E_p(u(g) \mid S)\) 时,\(E_q(v(f) \mid S) \geqslant E_q(v(g) \mid S)\),故而 \(v\)\(q\) 一起表示了 \(u\)\(p\) 所表示的同一个彩票集上的偏好顺序。

相反,若 \(v\)\(q\) 一起表示的偏好序和 \(u\)\(p\) 一起表示的偏好序相同,则任取一个彩金 \(x\) 和一个状态 \(t\),令

\[\lambda = \dfrac{E_q(v(c_{x,t}) \mid S) - E_q(v(a_0) \mid S)}{E_q(v(a_1) \mid S) - E_q(v(a_0) \mid S)}\]

那么,按照期望值算子的线性特征,得到

\[\begin{align} E_q(v(\lambda a_1 + (1 - \lambda)a_0) \mid S) & = E_q(v(a_0) \mid S) + \lambda(E_q(v(a_1) \mid S) - E_q(v(a_0) \mid S)) \\ & = E_q(v(c_{x,t}) \mid S) \end{align}\]

因此,\(c_{x,t} \sim_S \lambda a_1 + (1 - \lambda)a_0\)。在期望效用最大化定理的引理中,我们已经构造了 \(u\)\(p\) 使得

\[\begin{align} c_{x,t} & \sim_S u(x, t)b_{\{t\}} + (1 - u(x, t))a_0 \\ & \sim_S u(x, t)(p(t \mid S)a_1 + (1 - p(t \mid S))a_0) + (1 - u(x, t))a_0 \\ & = p(t \mid S)u(x, t)a_1 + (1 - p(t \mid S)u(x, t))a_0 \end{align}\]

单调性公理保证了 \(a_1\)\(a_0\) 之间只有一个随机彩票与 \(c_{x,t}\) 相等,因此

\[\lambda = p(t \mid S)u(x, t)\]

\(c_{x,t}\)\(a_0\) 只在状态 \(t\) 有所不同,此时 \(c_{x,t}\) 给出彩金 \(x\),而 \(a_0\) 给出最差彩金,于是

\[E_q(v(c_{x,t}) \mid S) - E_q(v(a_0) \mid S) = q(t \mid S)(v(x, t) - \min\limits_{z \in X} v(z, t))\]

因此,代回到 \(\lambda\) 的定义中,我们得到

\[p(t \mid S)u(x, t) = \dfrac{q(t \mid S)(v(x, t) - \min\limits_{z \in X} v(z, t))}{E_q(v(a_1) \mid S) - E_q(v(a_0) \mid S)}\]

现在令

\[A = E_q(v(a_1) \mid S) - E_q(v(a_0) \mid S), \quad B(t) = q(t \mid S)\min\limits_{z \in X} v(z, t)\]

则有

\[Ap(t \mid S)u(x, t) + B(t) = q(t \mid S)v(x, t) \tag{7} \label{vq}\]

注意,\(A\) 是与 \(x\)\(t\) 无关的常数,而 \(B(t)\) 又是与 \(x\) 无关的函数,而且由于 \(a_1 \succ_S a_0\) 意味着 \(E_q(v(a_1) \mid S) > E_q(v(a_0) \mid S)\),所以 \(A > 0\)

从上述定理显而易见,给定某个事件 \(S\),能用来表示决策者信念的概率分布不止一个。事实上,在式 \(\eqref{equivalent}\) 中,只要我们对 \(v\) 做与 \(q\) 相互的变动,我们就能使概率分布 \(q(\cdot \mid S)\) 几乎为任意的,而保持该式的左边不变。消除这种不定性的办法是假定公理 1.8 成立,并要求效用函数为状态独立函数。

状态独立的等价表示

\(S\)\(\Xi\) 中的任一给定主观事件。假设决策者的偏好满足公理 1.1AB~1.8,且 \(u\)\(p\) 分别是满足定理 1.1 中条件 \(\eqref{regular}\)\(\eqref{maximize}\) 的状态独立的效用函数和条件概率函数。若 \(v\) 是一个状态独立的效用函数,\(q\) 是条件概率函数,且 \(v\)\(q\) 一起表示偏好序 \(\succeq_S\),则 \(q(t \mid S) = p(t \mid S), \forall t \in S\),并且存在数值 \(A\) 和函数 \(C\) 使得 \(A > 0\),且

\[v(x) = Au(x) + C, \forall x \in X\]

[为了简化分析,这里用 \(v(x)\)\(u(x)\) 分别代替 \(v(x,t)\)\(u(x,t)\),因为 \(v(x,t)\)\(u(x,t)\) 都是状态独立的函数。]

状态独立的等价表示的证明

\(A = E_q(v(a_1) \mid S) - E_q(v(a_0) \mid S)\)\(C = \min\limits_{z \in X} v(z)\)。由于 \(v\) 是状态独立的,则由式 \(\eqref{vq}\) 可得

\[Ap(t \mid S)u(x) + q(t \mid S)C = q(t \mid S)v(x), \forall t \in S, \forall x \in X\]

将上式对 \(S\) 中所有的 \(t\) 求和,我们得到 \(Au(x) + C = v(x)\)。然后将此式代回上一式,并令 \(x\) 表示最优彩金,则有 \(u(x) = 1\),从而得到

\[Ap(t \mid S) + q(t \mid S)C = Aq(t \mid S) + q(t \mid S)C\]

由于 \(A > 0\),所以 \(p(t \mid S) = q(t \mid S)\)

贝叶斯模型

我们的决策模型被称为贝叶斯决策模型,事实上就是因为其中有一个满足贝叶斯公式的条件概率函数。本节我们展开描述什么事我们感兴趣的贝叶斯条件概率系,以及贝叶斯模型的局限性。

贝叶斯条件概率系

我们定义有限集 \(\Omega\) 的一个贝叶斯条件概率系(Bayesian condition-al-probability system)[或简称为条件概率系(conditional-probability system)]为集合 \(\Omega\) 上满足 \(\eqref{bayesian}\) 的任何一个条件概率函数 \(p\)。也就是说,如果 \(p\)\(\Omega\) 上的一个贝叶斯条件概率系,则对 \(\Omega\) 的每一个非空子集 \(S\)\(p(\cdot \mid S)\) 都是 \(\Omega\) 上的一个概率分布,使得 \(p(S \mid S)=1\),且

\[p(R \mid T) = p(R \mid S)p(S \mid T),\forall R \subseteq S \subseteq T \subseteq \Omega, S \neq \varnothing\]

我们用 \(\Delta^*(\Omega)\) 表示 \(\Omega\) 上所有的贝叶斯条件概率系所组成的集合。对任一有限集 \(Z\),我们用 \(\Delta^0(Z)\) 表示集合 \(Z\) 对其中每个元素都赋予正概率的所有概率分布所组成的集合,于是

\[\Delta^0(Z) = \{q: Z \in \Delta(Z) \mid q(z) > 0, \forall z \in Z\}\]

\(\Delta(\Omega)\) 中的任何一个概率分布 \(\hat{p}\) 都可以由下式生成 \(\Delta^*(\Omega)\) 中的一个条件概率系 \(p\)

\[\begin{aligned} p(t \mid S) &= \frac{\hat{p}(t)}{\sum\limits_{r \in S}\hat{p}(r)}, \text{若}\ t \in S \\ p(t \mid S) &= 0, \text{若}\ t \notin S \end{aligned}\]

由这种方式从 \(\Delta^0(\Omega)\) 中的分布所生成的条件概率系没有包含 \(\Delta^*(\Omega)\) 的全部内容,但 \(\Delta^*(\Omega)\) 中其余的任何一个贝叶斯条件概率系都可以被表达为由此方式生成的条件概率系的极限。这一事实从下述定理可以得到肯定,定理的证明略去,实际上是来源于迈尔森的论文:

贝叶斯条件概率系的充分必要条件

概率函数 \(p\)\(\Delta^*(\Omega)\) 中的一个贝叶斯条件概率系的充分必要条件是,在 \(\Delta^0(\Omega)\) 中存在一个概率分布序列 \(\{\hat{p}^k\}_{k=1}^\infty\),使得对 \(\Omega\) 的每个非空子集 \(S\)\(\Omega\) 中的每个 \(t\) 都有

\[\begin{aligned} p(t \mid S) &= \lim\limits_{k\to\infty}\frac{\hat{p}^k(t)}{\sum\limits_{r \in S}\hat{p}^k(r)}, \text{若}\ t \in S \\ p(t \mid S) &= 0, \text{若}\ t \notin S \end{aligned}\]

贝叶斯模型的局限性

尽管从直觉上看,从自然的公理出发得到的期望效用最大化定理在实际决策中应当是合理的。在很多情况下的确如此,但是在一些情况下,决策方面的实验研究已经揭示出了一些系统背离期望效用最大化的行为,这些研究导致了一些在描述上可能有更大准确性的新决策模型的提出,在行为经济学中也有很多著名的结果。我们在这里讨论 3 个著名的例子,这些例子在人们看来常常违背期望效用最大化:一个是效用函数不适用,一个是主观概率不适用,一个是任何经济模型都不适用。

首先考虑一个由 M.Allais 提出的著名的悖论。设 \(X=\{12,1,0\}\)(单位为百万美元,本例中下同),且令

\[\begin{aligned} f_1 &= 0.10[12] + 0.90[0] \\ f_2 &= 0.11[1] + 0.89[0] \\ f_3 &= [1] \\ f_4 &= 0.10[12] + 0.89[1] + 0.01[0] \end{aligned}\]

许多人表现的偏好为 \(f_1 \succ f_2\)\(f_3 \succ f_4\)。这些人或许认为 1200 万美元明显地好于 100 万美元,所以 \(f_2\)\(f_1\) 相比,彩金低些的彩票即使中彩概率稍稍高一点也是没有吸引力的。另一方面,他们宁可接受 \(f_3\) 中确定的 100 万美元,也不愿意接受 \(f_4\),即以 1% 的概率一无所获作为代价去换取 10% 将其彩金从 100 万美元提高到 1200 万美元的诱惑。

这样的偏好是不能用任何效用函数去解释的,为了证明这一点,注意

\[0.5f_1+0.5f_3=0.05[12]+0.5[1]+0.45[0]=0.5f_2+0.5f_4\]

因此,共同的偏好 \(f_1 \succ f_2\)\(f_3 \succ f_4\) 肯定会违反严格的客观替代性公理,根据期望效用最大化定理,显然不存在符合要求的效用函数。事实上,我们可以考虑一个有趣的事情:如果上面的金钱单位就是 1 美元,那么我想很多人都会有 \(f_4 \succ f_3\),因此这体现了金钱期望效用的一种非线性的性质,因此的确不能用满足线性性质的效用函数来解释这种现象,因为概率背后还蕴涵着人们对风险的态度。

另外一类悖论引起了对决策理论中主观概率的作用的挑战,最早见于埃尔斯伯格(Ellsberg,1961)的一篇经典论文中。雷法(1968)给出了这类悖论的一个简单例子。令 \(X = \{-\)100, \(100\}\),令 \(\Omega = \{A, N\}\),且令

\[\begin{aligned} b_A($100 \mid A) = 1 = b_A(-$100 \mid N) \\ b_N(-$100 \mid A) = 1 = b_N($100 \mid N) \end{aligned}\]

回顾 \(b_S\) 的定义,这也就是说,\(b_A\) 是赌注为 100 美元的赌,如果 \(A\) 发生,决策者赢;而 \(b_N\) 是决策者赌 \(N\),100 美元,即如果 \(N\) 发生,决策者就赢得 100 美元。假设 \(A\) 表示美国队将在下一次全明星赛(美国棒球赛事)中获胜这个状态,而 \(N\) 表示国家队将在下一次全明星赛中获胜这个状态。

许多对美国棒球赛几乎一无所知的人都表示偏好 \(0.5[\$100]+0.5[\$-100] \succ b_A\)\(0.5[\$100]+0.5[\$-100] \succ b_N\)。也就是说,他们将严格地偏好通过掷一枚公正的硬币并以 100 美元赌正面朝上胜于以 100 美元赌全明星赛中哪个队会获胜。这样的偏好是不能用 \(\Omega\) 上任何主观概率分布来解释的。这是因为 \(\Omega\) 中至少有一个状态的发生概率必定大于或等于 0.5,故赌这个状态下胜队所给出的期望效用一定至少与赌掷一枚公正的硬币所给出的期望效用一样大,所以主观概率在描述这种现实情况下失效。从另一种方式也可以看出这一点,注意

\[\begin{aligned} 0.5b_A+0.5b_N &= 0.5[\$100]+0.5[-\$100] \\ &= 0.5(0.5[\$100]+0.5[-\$100])+0.5(0.5[\$100]+0.5[-\$100]) \end{aligned}\]

故上面所表示的共同偏好一定违反了严格的客观替代性公理。

为了说明构造一个既在预测上准确又在规范性上有吸引力的决策模型的困难,卡尼曼和特沃斯基(ahneman and Tversky,1982)提出了下述例子。

  1. 情形 \(\text{A}\):你准备观看戏剧表演,为此你已经花 40 美元买了一套票,在你将到剧院之际,突然发觉票从口袋中丢失了,你必须决定是再花 40 美元去购买另一套票(还有类似座位的票出售)还是干脆回家;
  2. 情形 \(\text{B}\):你准备到剧院观看演出,票的价格是每套 40 美元,你没有事先买好票,而在临行时放了 40 美元在口袋中,在你将到剧院之际,突然发觉钱从你的口袋中丢失了,你必须决定是用信用卡(尚在)买票还是干脆回家。

正如卡尼曼和特沃斯基所报告的,大多数人都说在情形 \(\text{A}\) 中他们会干脆回家,但在情形 \(\text{B}\) 中会买票。然而,在这两种情形的每一种情形中,由两个选择所得到的最后结果都是,一方面观看演出并支出了 80 美元,另一方面没有观看演出而支出了 40 美元。因而,任何一个经济模型,只要它假定在这两种情形中,决策者所关心的所有因素只是货币财富水平和戏剧消费水平,都不可能对这样的行为作出解释。

任何一个分析模型的效力总是来自其简化假设,这些简化假设能使我们将不同的局势视作在分析上等价的,而这种简化假设总是值得质疑的。一个能对本例中的普遍行为作出准确预测的模型,一定是在对事件顺序做了详尽描述的基础上对这两种情形进行了区分,尽管这些事件顺序并没有对结果产生影响。然而,如果将模型用于规范性目的,做这种区分将可能减少模型正常的吸引力。因此我们的模型设计也有准确性和简洁美观之间的权衡,期望效用最大化定理在解决我们讨论的绝大部分问题的时候都是合理的简化模型,因此在我们的研究中我们将继续使用这一模型。