《女士品茶》

下载本书

添加书签

女士品茶- 第34部分


按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
、政治科学以及心理学等领域。那时,人们相信寻找规律的难点在于测量不准确。
19世纪初,一些数字家如皮埃尔?西蒙?拉普拉斯认为,天文测量存在微小误差,可能是因为大气状况和测量的人为因素。他提出,这些误差也应该存在一个概率分布,从而开启了统计革命的大门。按照库恩的观点,这就是在获得新的数据后对机械式宇宙观进行的修正。19世纪,比利时学者兰伯特?阿道夫?雅克?凯特莱(Lambert Adolphe Jacques Quételet)最早开创了统计革命,他认为人类行为的规律也具有概率论的性质。他没有用皮尔逊的多参数方法,并且也不知道最佳估计方法(optimum estimation),他的模型是极其朴素的。
最终,人们发现,更加精确的测量反倒使模型预测值和实际观测值之间的差异变得更大,关于科学的决定论观点彻底崩溃,测量的越加精确,不但没有按照拉普拉斯的想法去消除误差,反而降低了人们观测行星真实运动的能力,而且表现出的差异越来越大。基于这一点,科学界已经做好了接受皮尔逊及其参数分布的准备。
本书前面的章节已经介绍了皮尔逊的统计革命是怎么逐渐改变整个现代科学的,尽管分子生物学遵循这种决定论(基因会决定细胞产生特殊的蛋白质),但是,在该科学中产生的实际数据充满了随机性,而且基因事实上就是这些随机数据分布的参数。现代药物对人体功能的影响是绝对的,1毫克或2毫克药物就可能对血压或精神有很大的影响,这一点是确定无疑的。但是证明了这一影响力的药理研究过程,却是按照概率分布来设计和分析的,影响力就是这些分布的参数。
同样,经济计量学的统计方法被用来模拟一个国家或者一个企业的经济活动。我们确信的电子的质子这些次原子粒子在量子力学中都是作为概率分布描述的。社会学家用总体的加权算术平均数来描述个体的交互作用,但这只能按照概率分布的方式进行。在许多类似的科学领域里,统计模型的应用在它们的方法论中非常广泛。当谈及分布的参数时,好像它们是真的并且是可测量的一样。多变且不确定的数据集合,就是这些科学的起点,计算结果则是隐藏在大量计算中,以参数形式来表示,这些参数是永远不能通过直接观测得到的。

统计学家失去控制权
现代科学中的统计革命如此彻底,以致于统计学家已经失去了对过程的控制。在数理统计文献的基础上,分子遗传学家已经独立发展了自己的概率计算方法。计算机对大量数据的处理能力,和人们对整理并搞清楚这些巨大信息库含义的需求,促使信息科学这一新学科的诞生。在信息科学新期刊的文章中已经很少提到数理统计学家的工作,而且,在《生物统计》或《数理统计年报》中刊登过的许多分析方法,都正在被重新发现。统计模型在公共政策问题研究中的应用,已经演变成了一个被称为“风险分析”(risk analysis)的新学科,并且风险分析的新期刊也忽视数理统计学家的工作。
现在几乎所有新学科的期刊,要求在结论中有一个结果表,列出对统计结论产生影响的不确定因素的测量值。统计分析的标准方法已经成为大学中这些学科的研究生课程,通常,课程的讲授还不必同一个学校的统计系参与。
自K?皮尔逊发现偏斜分布的一百多年里,统计革命不仅扩展到大多数的科学领域中,而且其许多思想已经传播到了一般的文化当中。当电视新闻主持人宣布,某项医学研究已经表明被动吸烟的人的死亡风险比不吸烟的人高一倍时,几乎每个听众都认为他或她明白主持人的意思;当一个公众民意调查说65%的公众对总统表示满意,上下误差3%时,我们大多数人都认为我们都明白这个65%和3%的含义;当我们听到气象播报员预测明天下雨的概率为95%时,大多数人出门都会带上一把雨伞。
除了这些我们自以为理解的可能性和比例问题外,统计革命对流行思潮和文化,有更深刻的影响力。即使实际测量的数据不够精确地与这些结论吻合,我们还是接受基于估计参数的科学研究结果。我们愿意根据众多数据算出的数来制定公共政策和安排我们的个人计划。我们认为搜集人口出生和死亡的数据,不仅是一个正当的程序,更有必要的工作,我们不必担心数人数会惹怒了上帝。从语言描述方面,我们用“相关”(correlation)或“相关的”(correlated)这两个词,好像它们意味着什么,也好像我们知道其含义。
写这本书的初衷是为了向那些没有数学专业背景的人士解释这场统计革命,我已经尽力描述了在这场革命背后的基本思想,它将如何应用于其他科学领域?它将如何最终主导几乎所有科学领域?我也尽力用语言和实例解释了一些数学模型,使大家不用再去研究抽象的数学符号就能够理解。

统计革命走到尽头了吗?
深邃未及的这个世界是一个集情感、事件与骚动的复杂混合体。我同意库恩的观点,我不相信人类的头脑能够构造一个理想的结构去解释、甚至不能挖地描述这个世界的真实情况。任何这种努力都存在根本的缺陷,最终,这些缺陷会变得非常明显,以至于科学模型必须不断地被修正,最终将走到它的终点,取而代之的是其它的什么东西。
随着统计方法应用的扩展,越来越多地应用到了人类生活的很多领域,哲学问题就显现出来。因此,我认为以讨论哲学问题作为本书的结尾是个好主意。接下来的将是在哲学领域中的一次冒险经历。读者可能想知道哲学究竟对科学信现实生活起到了什么作用。我的答案是,哲学并不是一些被称为哲学家的怪人们所做的神秘学术练习,哲学关注的是我们日常文化思想和活动的基本假设(underlying assumption)。我们的世界观来自于我们的文化,是受许多微妙的假设影响的,甚至很少有人会意识到它们。学习哲学会让我们揭开这些假设,并去检查它们的有效性。
我曾经在康涅狄格大学的数学系教过一门课程,这门课程有一个正式的名称,但是系里的人却更愿称之为“给诗人开的数学”。这门课只开一个学期,是为艺术专业的学生设计的,目的是向他们介绍基本的数学观念。在学期的开始,我向学生们介绍了16世纪意大利数学家吉罗拉莫?卡尔达诺(Girolamo Cardano)的一本书《高等艺术》(Ars Magna),在这本书中,第一次描述了代数的方法。与他的大部头著作相呼应,卡尔达诺在该书的介绍中写道:代数不是新东西。他暗示他不是无知的傻子,他认为自人类产生以来,人类对知识的掌握一直在减少,亚里士多德所拥有的知识远远要多于卡尔达诺那个时代的任何一个人。他断言不可能有新的知识。然而,由于他的无知,他没能在亚里士多德的著作中找到关于代数思想的参考书目,所以他就把代数——这个看起来像是新东西的概念介绍给读者,他确信一些更加有知识的读者会从古人的著作中找到出处,这看起来是新东西的观念一定会被找出来的。
坐在我教室里的这些学生,生活在一个不同的文化环境中,他们不但相信后人会发现新事物,而且事实上,还鼓励创新。他们被卡尔达诺震惊了。写这些是多么愚蠢的呀!我告诉他们,在16世纪的时候,因为当时的一些基本哲学假设,欧洲人的世界观具有局限性,他们的世界观中,一个重要的部分就是人类的堕落以及随之而产生的道德、知识、工业等所有事物的持续退化,这些在当时是如此的真实,以至于很少有人去探寻究竟。
我问学生们,他们的世界观的基本假设中,哪些可能在500年后看起来是很荒谬的?他们一个都想不出来。
因为统计革命的表面观念已经传播到现代文化中,越来越多的人相信所谓的真实性,而不考虑它的基本假设,所以,让我们用统计的宇宙观来考虑下面三个哲学问题:
1。 可以用统计模型来做决策吗?
2。 当概率应用于现实生活中时其含义是什么?
3。 人们真的懂得什么是概率吗?

可以用统计模型来做决策吗?
牛津大学的L?乔纳森?科恩(L。 Jonathan Cohen)是被他称之为“帕斯卡式”(“Pascalian”)观点的尖锐批评家,所谓“帕斯卡式”观点就是认为可以用统计分布去描述现实。1989年他写了《归纳和概率的哲学导论》(An Introduction to the Philosophy of Induction and Probability)一书,书中他提出了一个关于彩票的悖论,他认为那是康涅狄格州卫斯理大学(Wesleyan University in Middletown Connecticut)的西摩?屈贝里(Seymour Kyberg)教授发明的。
假定我们接受假设或者显著性检验的观点,我们赞同如果现实中该假设的相应概率非常小,就可以拒绝这个假设。为了更进一步说明,假设0。0001就是一个非常小的概率,让我们组织一次公正的10000张彩票的抽彩活动。按这个假设,1号彩票中奖的概率,我们也可以拒绝这种假设,依次类推,我们可以拒绝类似的任何针对某号彩票的假设。按照这一逻辑规则,如果A不为真,B和C都不为真,那么A、B、C的集合也不为真。也就是说,按照这一逻辑规则,如果每一张彩票都中不了奖,那么就没有彩票可中奖(而事实却是总会有中奖的彩票)。
在科恩较早写的《可能与可证》(the Probable and the Probable)一书中,基于普遍的法律实践,他提出了这种悖论的一个变形。在习惯法(mon law)中,一个涉及民事诉讼的原告提供了“有利”证据,其陈述看起来是真的,那么他就会胜诉,法庭接受原先诉求的概率高于50%。科恩还提出了一个关于“无票入场者”(gate crashers)的悖论:假设在一个有1000个席位的音乐厅里举办一场摇滚音乐会,主办单位只售出499张票,但是当音乐会开始的时候,1000个席位都坐满了,根据英国的习惯法,主办单位有权在音乐会上向每个现场的人收票钱,因为他们每个人无票入场的概率都是50。1%,这样,虽然音乐厅只有1000个席位,但是主办单位却将会有1499张门票的收入。
这两个悖论都说明了,以概率为依据所得到的决策是不合逻辑的,逻辑和概率是矛盾的。费歇尔在设计良好的实验基础上,利用显著性检验来证明科学研究中的归纳推理是可取的,但是科恩的悖论则表明,这样的归纳推理是不合逻辑的。杰里?科恩菲尔德根据积累的大量证据来判断吸烟会导致肺癌这个说法,但连续的研究表明,除非你假设吸烟是致癌的原因,否则这个结论是极不可能的。相信吸烟致癌是不合逻辑的吗?
以逻辑推理和统计为基础所得出决策上的不一致,是不能靠在科恩提出的悖论中找到错误的假设来解决的。这种不一致的深层次原因存在于逻辑的含义中(科恩认为概率模型可以由一种我们称为“模型逻辑”(model logic)的复杂数学逻辑结构来代替,但是我认为这个方法会产生更多的问题,比它所解决的问题还要多)。在逻辑上,一个命题是对还是错,我们是完全不同的。但是概率引入的观念却是说一些命题“可能”或者“多数”是对的。就是结果的这一点点不确定性,就使我们在分析原因和结果时,难以应用事物实质蕴涵的冷酷的精确性。在临床实验中,处理这类问题的方法,是把每个临床研究看作是对某个治疗方案的效果提供资料。这些资料的价值取决于这个研究的统计分析,但则无也取决于研究的质量。研究质量这一额外的测量决定了哪些研究对结论起决定作用。但是,质量的概念含糊不清而且难以计算,悖论依然存在,而且吞噬着统计方法的核心。这种不一致的毛病是否需要在21世纪发起一场新的革命?

当概率应用于现实生活中时,其含义是什么?
柯尔莫哥洛夫建立了概率的数学定义:概率是一个抽象空间里对一事件集合的一种测量。所有概率的数学特征都可由这个定义导出。当我们希望在现实中使用概率时,我们需要确定眼前特定问题事件的抽象空间。当气象播音员说明天降雨的概率为95%时,什么是所测量的抽象事件的集合?是指明天要外出的所有的人吗?其中有95%的人会淋雨?还是指可能逗留在外面的时间?其中有95%的时间我会淋雨?或是说在一个1平方英寸大的地方,有95%的面积会下雨?当然这些解释都不对,那么到底是什么意思呢?
柯尔莫哥洛夫之前的K?皮尔逊认为概率分布是可以通过收集到的数据观察得出的,我们已经看到了使用这个方法存在的问题。
威廉?S?戈塞特试图为一个设计好的试验描述其事件空间。他说事件空间就是试验得出所有可能结果的集合。这听起来可能是对的,但是在实践中却是无用的。在实验中,我们必须相当精确地描述出结果的概率分布,才能计算出统计分析中需要用到的概率值。“所有可能实验结果的集合”的概念非常含糊,我们怎样才能得到一个精确的概率分布呢?
起初费歇尔同意戈塞特的想法,继而他发展了一个更好的定义。在他的实验设计中,治疗方案是随机分配给各个实验单位的。如果我们想在肥老鼠身上做实验,比较两个治疗动脉硬化的方案,我们就随机地在一些老鼠身上使用A方法,而在其余的老鼠身上使用B方法。实验开始进行,我们开始观察结果。假设两种治疗方案具有同样的效果,因为动物是随机使用治疗方法的,所以另外一些分配治疗的效果应该是同样的。随机治疗方法的标签是不相关的,只要治疗效果是一样的,我们就可以在动物间随意调换。因此,对于费歇尔,事件的空间是所有可能随机分配的治疗方案的集合。这是一个事件的有限集合,所有的事件都是等概率发生的。在所有治疗方法的效果是相等的零假设(null hypothesis)条件下,实验结果的概率分布是可以计算出来的,这就是我们所说的排列检验(permutation test)或随机检验。当费歇尔提
小提示:按 回车 [Enter] 键 返回书目,按 ← 键 返回上一页, 按 → 键 进入下一页。 赞一下 添加书签加入书架