按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
某个特定值的概率只有两个结果,或者是100%(如果它就是那个值),或者是0(如果它根本不是那个值)。然而,一个95%的置信区间涉及的是95%的概率。这个概率指的是什么?奈曼在此绕过了这个问题,把他的创造称为置信区间,回避使用概率这个词。但是鲍利及其他同行一眼就看穿了这个手法。
费歇尔也在批判者之中,不过他没有抓住这个要点。他所讨论的内容空洞又含混,而且根本不是奈曼论文里的内容。因为费歇尔根本没有完全弄清楚区间估计值的计算过程。在他的评论里,他所指的是“信念概率”(fiducial probability),而奈曼的论文里并没有这个词汇。长久以来,费歇尔一直试图解决这个问题——怎样确定与一个参数的区间估计相关联的不确定度?费歇尔从一个很复杂的角度来解决这个问题,有点像他的似然函数。不过他很快就证明,用这种方式研究这个公式并不符合概率分布的要求。费歇尔称这个函数为“信念分布”(fiducial distribution),但他后来又违反了他自己的思路,使用了其他人在处理适当概率分布时可能会用到的相同数学方法。费歇尔所希望的结果,是从观测数据中得到参数的一组合理的值。
这也正是奈曼所得的结果,而且如果该参数为正态分布的平均数时,两个方法会得到相同的答案。据此费歇尔认为奈曼窃取了他的偏偏分布的思想,只是换了个名字而已。费歇尔对他的信念分布的研究从来没有取得进一步的发展,因为他的方法在遇到更复杂的参数(比如标准差)时就不管用了。奈曼的方法对处理任何类型的参数都是有效的。费歇尔似乎从未理解这两种方法之间的差异,直到死前他还坚持认为,奈曼的置信区间最多只是他的信念区间(fiducial intervals)概念的推广。他坚信,在碰到足够复杂的问题时,奈曼的显然是推广的方法也不会奏效——就像他自己的信念区间方法一样。
概率与置信水平
不管碰到的问题有多复杂,奈曼的方法没有失败,这也是该方法在统计分析中得到广泛应用的原因之一。奈曼置信区间中的真正问题,倒不是费歇尔所提出的那个,而是鲍利在一开始讨论时就点出来的问题,即这个方法中的概率到底指的是什么?奈曼的回答又回到了现实生活中概率的频数定义上。正如他在这篇论文里所说的(他在稍后的另一篇探讨置信区间的论文里,对这一点做了更清楚的解释),不应该从每一个结论的角度看待置信区间,而应该其视为一个过程。从长期来看,对于一直计算95%的置信区间的统计学家来说,他们将发现,在总次数中,参数的真值将有95%的机会落在所计算的区间内。请注意,对奈曼来说,与置信区间相联系的概率并不是我们“答对”的概率,而是统计学家使用某种方法从长期来看做出正确陈述的频率。这个数字与当前的估计值有多“准确”根本没有任何关系。
尽管奈曼定义这个概念时非常仔细,尽管许多像鲍利这样的统计学家也都非常小心,力图保持对概率概念的清晰理解并使其不被误用,但在科学领域中对置信区间的普遍应用却导致了许多草率的思维。举例来说,有人使用95%的置信区间来表示他有“95%的把握”保证参数的真值会落在这个区间里,这是很普遍的。我们在13章会碰到:L?J?萨维奇和布鲁诺?德费奈蒂(Bruno de Finetti),并介绍他们对个人概率的研究,他们的研究结果证明了使用上述陈述的合理性。但是,计算某人对某一件事的把握程度,与计算一个置信区间完全是两回事。统计文献里有很多文章都谈到,根据一组相同的数据,以萨维奇和德费奈蒂的方法所推导出的参数范围,和以奈曼的方法为基础推导出的置信界限,两者之间是截然不同的。
尽管在奈曼的方法中人们对概率的涵义仍存有疑问,但是奈曼的置信界限已经成为计算区间估计值的标准方法。许多文学家计算90%或95%的置信界限,而且看上去好像他们有把握认为,该区间包含了参数的真值。
时至今日,已无人再谈论或在写作中涉及费歇尔的“信念分布”的话题了。该思想已随费歇尔的去世而消失。费歇尔竭力让他的思想能发挥作用,他做了大量的相当聪明而且非常重要的研究工作,其中有些研究成果已成为当今的主流,而其它部分则仍停留在费歇尔搁笔时的不成熟状态。
在费歇尔的研究过程中,他曾有好几次差点儿就建立一门统计学业的分支学科,也就是他所称的“逆概率”(inverse probability),但每次他都半途而废。逆概率的思想起源于18世纪的一位业余数学家雷韦朗?托马斯?贝叶斯(Reverend Thomas Bayes),贝叶斯与很多同时代的顶尖科学家都有密切的书信往来,并经常提出一些很复杂的数学问题给他们。有一天,他随意玩弄一些概率的标准数学公式,用简单的代数把其中两个式子结合在一起,竟发现一些令他很惊讶的结果。
下一章,我们来谈谈贝叶斯异论(Bayesian heresy),并且看看为什么费歇尔拒绝使用这种逆概率。
第13章 贝叶斯异论
从8世纪的早期,威尼斯共和国是地中海一带的一个主要的强权国家。在其政权鼎盛时期,威尼斯控制了大部分的亚得里亚海岸,以及克里特岛和赛浦路斯岛,同时还垄断了东方通往欧洲的商业贸易路线。威尼斯共和国由一群贵族家族所统治,这些家族之间保持着某种民主的程序。整个国家名义上的领袖是总督,从公元697年该共和国成立起,到1797年被奥地利吞并,总共有150余任总督,有的任期很短,只有1年或不到1年,也有的任期长达34年。在在的总督去世之后,该共和国会遵守一项很复杂的选举程序,他们先从贵族家族的长者当中,以抽签的方式选出一小群元老,这些被选出的元老还会再挑选一些人加入到他们之中,之后再从这一扩大的元老群中以抽签方式选出一小群人。这样的程序进行几次之后,会选出一群最后的总督候选人,总督就在这群人当中产生。
在威尼斯共和国历史的早期,每阶段的抽签都要准备一批大小相同的蜡球,有的蜡球里什么都没有,有的蜡球里面却有一张小纸条,上面写着“元老”二字。到了17世纪,最后几个阶段用的道具是大小完全相同的金球与银球。公元1268年,当多杰?拉伊涅里?泽诺(Doge Rainieri Zeno)总督去世时,在第二阶段有30位元老,于是准备了30个蜡球,其中9个蜡球内藏有“元老”纸条。一个小孩被带过来,他从装有蜡球的篮子中取出一个蜡球,交给第一位元老候选人,这位元老候选人就打开蜡球,看看自己是否能够成为下一阶段的元老候选人。接着,小孩从篮子中取出第二个蜡球,交给第二位元老候选人,第二位再打开蜡球,以此类推。
在小孩选出第一个蜡球前,候选人群中的每个成员被选为下个阶段元老的概率是9/30。如果第一个蜡球是空的,剩下的候选人中每个人有9/29的概率成为下坠估摸元老。但如果第一个蜡球里有纸条,则其余人被选中的机会就剩下8/29。一旦第二个蜡球被选定且被打开,则下一个人被选中成为元老的概率同样会减少或增加,是减少还是增加取决于前次的抽球结果。这样继续抽下去,直到所有的9个纸条都被抽出为止。而在这时,剩下的候选人下一阶段成为元老的概率就降为零。
这是条件概率的一个例子。某一特定候选人被选为下一阶段元老的概率,取决于在他的选择之前被选出的蜡球。J?M?凯恩斯曾指出,所有的概率都是条件概率。用凯恩斯所举的一个例子:从他的图书室的书架上随机地选择一本书,而选中的书是精装本的概率,也是一种条件概率,其条件取决于他的图书室里究竟有多少书,以及他怎样“随机”地选取。一个病人患小细胞肺癌的概率,是以该病人的吸烟史为条件的。对一个控制实验,检验没有处理效果这一零假设所计算出来的P值,是以该实验的设计为条件的。条件概率的重要方面是,某些已知事件(例如在彩票发行过程中,某一组特定数字能赢)的概率,会随前提条件的不同而不同。
在18世纪,为处理条件概率而导出的公式都是根据以下的思想做出的,即条件事件要发生在所研究的事件之前。但是到了18世纪后期,R?T?贝叶斯在摆弄条件概率的公式时,忽然有个惊人的发现,这些公式都是内部对称的!
假设有两个事件在一段时期内发生,就像先洗牌,再发出5张扑克牌。我们称这两个事件分别为“前事件”(the events before)和“后事件”(the events after)。以“前事件”为条件讨论“后事件”的概率是有意义的。如果牌没有洗好,当然会影响玩家得到一对A的概率。贝叶斯发现,我们也可以“后事件”为条件计算“前事件”发生的概率。这是没有道理的。就像玩家已经拿到一对A之后,再来确定整副牌里有4张A的概率。或是已知一个病人已患了肺癌,再来计算他是吸烟者的概率。或者是已经知道了有个叫C?A?史密斯的人是唯一得到大奖的人,然后再计算州立彩票游戏公平不公平的概率。
贝叶斯把这些计算结果搁置起来,没有发表。在他死后,这些论文才被发现,而后才被发表出来。从那里起,贝叶斯定理 就困扰着许多统计分析数学家。绝对不是毫无道理,贝叶斯将条件概率倒转过来反倒很有意义。当流行病学家试图想找出某种罕见医学病状的可能原因时,例如雷氏症候群(Reye’s syndrome),他们通常是利用病例控制研究方法(casecontrol study),在这种研究中,他们首先搜集一组患有该病症的病人,然后拿去与控制组的病人做比较,控制组的病人没有患这种疾病,但在其他方面与患有这种疾病的病人类似。于是,流行病学家在已知控制组病人已患有该疾病的条件下,计算某些先前治疗或先前条件导致该病的概率。吸烟对心脏病和肺癌都有影响,就是这样首次被发现的。镇静剂对新生儿畸形的影响,也是从这种病例控制研究中发现的。
直接应用贝叶斯定理,可以把条件概率反转过来,比这更为重要的,是使用贝叶斯定理估计分布的参数。有一种建议,可以把一项分布的参数本身看作是随机的,然后计算与这些参数相关的概率。例如,我们可能想要比较两种癌症治疗方法,并希望得到结论说“我们有95%的把握认为使用治疗方法A会比使用治疗方法B的5年期存活率高”。我们只要应用贝叶斯定理一两次就可以解决这个问题。
关于“逆概率”的问题
有很多年,以这种方式使用贝叶斯定理被认为是一种不适当的作法。当用于参数时,关于概率代表什么涵义有很多质疑。毕竟皮尔逊革命(Pearsonian revolution)的整个基础在于,科学的测量结果本身不再是我们所感兴趣的问题,相反,正如K?皮尔逊所指出的那样,我们所感兴趣的是这些测量结果的概率分布,而科学的调查研究的目的就是要估计出控制这些分布的那些参数值(固定的但却是未知的)。所以,如果这些参数被视为是随机的(而且以观测的测量结果为条件),那么这种方法就不再有这样清楚的意义了。
在20世纪的早些年,统计学家非常谨慎,避免使用人们所说的“逆概率”。有一次在皇家统计学会上,对费歇尔的一篇早期论文进行讨论时,就有人质疑他使用了逆概率,他坚定地为自己辩护,否认这项可怕的指控。在第一篇关于置信区间的论文里,奈曼似乎使用了逆概率的概念,但只是作为一个数学方法,用来得到一个计算结果,而在他的第二篇论文里,他证明不了不用贝叶斯定理也能得到相同的结果。到了20世纪60年代,为种方法的潜在力量与用途已开始吸引越来越多的研究者跟踪研究,这个贝叶斯异论变得越来越受尊重了。到了20世纪末,它已经达到了如此高的接受水平,如今在一些期刊像《统计年报》(Annals of Statistics)和《生物统计》上,几乎半数以上的文章现在都使用贝叶斯方法。不过,贝叶斯方法的应用仍然会经常遭到质疑,尤其是在医学领域。
在解释贝叶斯异论时碰到的一个困难是,目前有好几种不同的分析方法,而这些方法的应用又至少有两种完全不同的哲学基础。长期以来,看上去好像完全不同的思想却经常贴着相同的标签——贝叶斯。后面我将说明贝叶斯异论的两个种理论:贝叶斯层次模型(Bayesian hierarchal model)和个人概率(personal probability)。
贝叶斯层次模型
20世纪70年代早期,由于弗雷德里克?