按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
笔钡恼掌煌钒追ⅲ浇舯眨齑晕⒂械阈保缀邮崂淼貌淮蠛茫橹斜昝鞣研笔痹诮G糯笱б糯倒ぷ鳌!蹲魑锸粘杀涠芯竣瘛肥歉梦募械牡谝黄恼拢髡咴谖恼虑懊婕恿艘桓鲂蜓裕悦魅犯梦牡闹匾约捌湓谒砍晒械牡匚唬�
早期在罗森斯特的工作中,作者对研究站多年积累下来的大量观察数据,如天气、收成、收成分析等,给予了极大的关注。气象记录在多大程度上能够提供来年收成的预测?对于这类问题,上述数据是有独特价值的。现在这篇文章是用于此目的的系列研究的首篇。
这个系列研究最多有6篇论文,《作物收成变动研究Ⅱ》发表在1923年,而史密斯先生给我的那篇标号为“Ⅲ”,在1924年问世。《作物收成变动研究Ⅳ》则在1929年发表。标号为“Ⅴ”的论文没有出现在费歇尔的文集中。在科学史上还很少有这种事件:标题那么不起眼,而其内容却如此重要。在这些论文中,费歇尔开发了用于数据分析的原创性工具,建立了这些工具的数学基础,并描述了如何将它们应用到其它领域中去,包括如何应用到他在罗森斯特所遇到的“垃圾堆”上。这些论文表现了令人眩目的原创性,充满了奇妙的内涵,这足够理论家们在20世纪余下来的日子里忙乎的,也许那之后还会继续激发更多的研究。
《作物收成变动研究Ⅰ》
费歇尔系列研究的后两篇文章是有共同作者的,但《作物收成变动研究Ⅰ》却是他独立完成的,那需要大量的计算工作。他的唯一后援是一台名字叫“百万富翁”的计算器,那是一台原始的带有手摇曲柄的机械计算器。如果要算乘法,比方说算3342乘27;先要将转盘放在个位上,设定3342这个数字,摇动曲柄7次;再将转盘放在十位数上,设定3342这个数,摇动曲柄2次,计算方告结束。这架机械叫“百万富翁”,因为它的转盘大得足够容纳以百万计的数字。
为了体会到这篇论文所耗费的气力,我们来考虑一下《作物收成变动研究Ⅰ》中第123页的表7。如果完成一个多位数乘法需要1分钟,我估计费歇尔需要大概185个小时来完成这张表。这篇论文中有15张复杂程度相当的数表,还有4张更为复杂的图。只考虑体力劳动本身,准备这些图表至少需要耗去费歇尔8个月的时间,而且每天得工作12个小时!这还不包括其它工作所花费的时间。比方说:思考理论数学问题、整理数据、设计分析框架、修正不可避免的错误等等。
高尔顿回归思想的一般化
回顾一下高尔顿所发现的“向平均数回归”,他试图找到一个数学公式,将随机事件彼此联系在一起。费歇尔接过高尔顿“回归”(regression)这个词,建立了某个给定地块小麦收成与年份之间的一般数学关系,这个相当复杂分布的参数描述了小麦产量产业化的不同方面。要深入理解费歇尔的数学式,你得有坚实的微积分基础,得对概率分布理论有好的辨别力,还要对多维几何学有感觉,但理解他的结论并不那么难。
他将小麦产量的时间趋势分成几个部分,一个是由于土地退化导致产量稳定地整体性地下降;另一个是长期的缓慢的变化,每个阶段都要花几年时间;第三个是一组更快的移动变化,考虑的是气候在不同年份的差异。自从费歇尔开创性的尝试,时间序列的统计分析在他的思想和方法的基础上,建立了起来,现在我们有了计算机,可以用更巧妙的演算法进行大规模的计算,但基本的思想和方法仍然未变。给定一组随时间波动的数据,我们可以将之分解为不同来源导致的结果。时间序列分析用来检验:美国太平洋海岸拍激的海浪是不是印度洋风暴的起因。这些方法使研究人员能够区分地下核爆破与地震,能够精确地为病理学上的心中节律定位,能够确定环境管制对空气质量的影响,其应用范围还在继续扩大。
农场有一个名称叫“宽田硬”(Broadbalk)的地块,在分析其粮食收成时,费歇尔感到有些困惑,这块地只用了动物粪肥,所以不同年份收成的变动与人工肥料无关。当土壤得自动物粪肥的养分逐渐耗尽,地力退化的长期因素就可以得到解释,同时费歇尔还可以确定不同年份降雨类型不同所带来的影响。那么,什么是缓慢变化的原因呢?从缓慢变化的形态可以看出,在1876年产量开始下降,比从另两个因素所能预计的程度还要大,这种下降在1880年速度更快了;这种情形在1894年开始改善,持续到1901年,而后又是下降。
费歇尔发现了带有同样缓慢变化的另一种记录,不过形态是相反的,那是关于麦田里野草的。1876年后,野草蔓延得越发严重,而到了1894年突然开始消失,只是在1901年又开始茂盛起来。
后来发现,雇用小男孩到地里去拔草,在1876年以前是通告的做法。在英格兰的大地上,下午经常可以看到瘦弱的小男孩穿行于田间,不停地拔草。到了1876年,教育法(the Education Act)使得上学带有强制性,田间小男孩的大部队开始不见了。而1880年第二部教育法通过,对致使孩子辍学的家长施以罚款,田间剩下的男孩也离开了。没有了拔草的小手,那些野草就又茂盛起来了。
那么,在1894年又是什么事情发生,使得趋势逆转了呢?在罗森斯特附近有一所女子寄宿学校,新校长约翰?劳斯(John Lawes)相信,充满活力的户外活动有助于他那些年轻的被托管人的健康。他和实验站的头儿一起安排,让这些年轻姑娘在周六和傍晚出门,到地里去拔草。1901年劳斯去世后,这些小姑娘恢复久坐的习惯,多是在户内活动,野草也就又回到了“宽田埂”。
随机化控制实验
第二篇研究收成变动的论文也是发表在《农业科学期刊》上,时间是1923年。这篇论文并不处理罗森斯特过去实验所积累下来的数据,取而代之的是新实验:一组不同的人工肥料组合对不同品种马铃薯的影响。费歇尔到了罗森斯特后,实验有了明显的改善。不再将某种实验的人工肥料用于整个农场,现在他们把土地划成小的地块,每个地块进一步区分作物的行,地块中的每一行都给予不同的处理。
基本的想法是简单的,之所以简单,那是因为一经费歇尔提出后,它就简单了,但这之前却没有人想到它。任何人观察土地上的作物时,都会很明显地感到有的地块土质好于其它地块。在某些角落,作物长得又高又密,而其它角落,作物则又细又稀。这可能是由于排水方式、土壤类型的改变、未知养分的出现、多年生野草的抵制,或者一些其它未能预见的原因。如果农业科学家要测试两种人工肥料间的区别,他可以将一种施于地块的其它角。但这会将肥料的效应与土壤或者排水等的效应混淆在一起。如果试验在相同的地块不同的年份进行,又会把肥料的效应与气候变化的效应相混淆。
如果同一年里,在相同作物上进行肥料的比较,土壤的差别就会减到最低程度,但他们仍然存在,因为所处理的作物不会有绝对相同的土壤条件。如果我们使用足够多的成对比较,在某种意义上,土壤差异所造成的区别就会被平均掉。假定我们要比较两种肥料,其中一种磷肥的含量是另一种的两倍,我们将地分成小块,每一块有两行作物。我们总是将磷肥多的施于北边这行,南边的那行则施磷肥少的。做到这里,反对的声音就会出来了。如果土壤的肥力梯度(fertility gradient)由北向南,那么北边这行的土质就会比南边那行稍好一点,土壤差异的影响就不会被平均掉。
别急!我们正要做调整,在第一个地块,我们把磷肥多的施在北边,到了第二地块,它将被施在南边,就这样来回调整。我的读者中可能有的已经画出地块的草图,将施磷肥较多的行标上了记号。它会指出,如果肥力梯度从西北向东南,施以额外的磷肥的行将总是比别的行土质好。也会有人指出,如果肥力梯度从东北向西南,结论正好相反。好啦,另一个读者发问了,到底谁对了呢?肥力梯度究竟如何分布?我们的答案只能是:天晓得!肥力梯度这个概念是抽象的,当我们选择从北到南或从东到西时,肥力的真正形态可能以非常复杂的方式上下变动。
我可以想象得出来,当费歇尔提出小地块定型处理将得到更为细心的实验时,罗森斯特的科学家们之间也会有这样的讨论。我也可以想象,当讨论集中到如何确定土地的肥力梯度时,费歇尔笑咪咪地坐在一边,听任他们卷入复杂的争论。他已经考虑过这些问题,并有了简明的答案。了解他的人这样描绘费歇尔:即使是争论触及到他,他仍是静静地坐在那里,吞云吐雾,等等容他给出答案的时机。终于,他拿开嘴上的烟斗,说道:“用随机的方法吧!”
费歇尔的变异数分析
的确简单,科学家以随机的方式设计同一地块里不同行家作物的处理,由于随机处理没有固定模式,任何可能的肥力梯度结构都在平均意义上被抵消掉了。费歇尔猛地起身,兴奋地在黑板上写了起来,一行又一行数学符号,手臂在数学公式间挥来挥去,抵消公式两端相同的因子,最后出现的可能是生物科学中最为重要的工具了,在精心设计的科学实验中,如何分解各种不同处理的效应?费歇尔将这个方法称作“方差分析”(ananlysis of variance)。在《作物收成变动研究Ⅱ》中,方差分析第一次面世。
《研究工作者的统计方法》列出了方差分析某些例子的计算公式,但在这篇论文中,他给出了公式的数学推导,不过推导过程还没有详尽到学院派数学家满意的程度。所展示的代数式是为了这样一种特殊情形:比较三种类型的人工肥料、十种不同品种的马铃薯和四个地块。如果比较两种人工肥料、五种马铃薯,或者六种人工肥料、一种马铃薯,则需要几个小时的艰苦工作,以调整出新的代数式。至于搞出适合所有情形的一般公式,就需要更多的数学工作了,恐怕得出几头汗水吧!当然,费歇尔知道一般公式,对他来说,那是如此的明显,以至于没有必要展示它们。
难怪与费歇尔同时代的人对这个年轻人的成果感到困惑!
《作物收成变动研究Ⅳ》介绍了费歇尔年说的“协方差分析”(analysis of covariance),这是一种因素分解的方法,存在着并非由实验设计而来的条件,它们的效应是可以测量的。当时某医学期刊上发表了一篇论文,描写了针对性别和体重所做调整的治疗效应,用的实际上就是费歇尔在Ⅳ号论文中开创的方法。Ⅳ号论文提出了实验设计的精华,Ⅲ号论文,即史密斯教授推荐给我的那篇,将在本章后边一点儿再讨论。
自由度
1922年,费歇尔终于第一次在《皇家统计学会期刊》上发表了他的论文。那是一篇短文,适度地指出了K?皮尔逊公式中的一个错误,许多年后谈到这篇论文,费歇尔写道:
这个短文,尽管带着稚气,不那么完整,但却是破冰之举。它是带试验性质的,并且零零碎碎的,有的读者会因此而气恼,可他们不要忘了,它不得不在批判者中找到发表的渠道。对这些批判者来说,摆在第一位的就是绝不相信K?皮尔逊的成果需要改正,即使是承认了这一点,他们也觉得这事轮不到别的人。
1924年,费歇尔得以在《皇家统计学会期刊》发表别一篇论文,更长一些,更为一般化。后来在一份经济学期刊上,他对这篇论文及相关的另一篇做了如下的评论:“(这两篇论文)要借助于‘自由度’(degrees of freedom)这个新概念,来调和由不同作者观测到的有差异和表现异常的结果……”
自由度这个新概念是费歇尔的发明,这直接得益于他的几何洞察力和将数学问题置于多维几何空间的能力。所谓“异常的结果”出现在一本不大引人注目的书里,那是一个名叫T?L?凯利(T。 L。 Kelley)的人在纽约出版的。凯利发现有一些数据用K?皮尔逊的公式似乎不能得出正确的答案。看来只有费歇尔注意到了凯利的这本书,凯利的异常结果只是作为一个跳板,借此费歇尔彻底推翻了K?皮尔逊另一个最引以为自豪的成就。
《作物收成变动研究Ⅲ》
《作物收成变动研究》第三篇发表在1924年的《伦敦皇家学会哲学学报》(the Philosophical Transactions of the Royal Society of London)上,它是这样开头的:
现在就气候对农作物影响而言我们知之甚少,尽管它对一个大的民族产业如此重要。课题的难解,部分地可以归于问题本身固有的复杂性,还有……缺少在实验或者自然产业�