概率统计小故事
1.分赌本问题
A、B二人赌博,各出注金a元,每局每个人获胜的概率都是1/2,约定:谁先胜S局,即赢得全部注金2a元,现进行到A胜S1局、B胜S2局(S1与S2都小于S)时赌博因故停止,问此时注金2a应如何分配给A和B才算公平?此问题文字上最早见于1494年帕西奥利的一本著作,是对S6,S15和S22的情况的分析.
由于对“公平分配”一词的意义没有一个公认的正确理解,在早期文献中出现过关于此问题的种种不同的解法,如今看来都不正确.例如,帕西奥利本人提出按S1:S2的比例分配.塔泰格利亚则在1556年怀疑能找到一种数学解法的可能性,他认为这是一个应由法官来解决的问题,但他也提出了如下的解法:若S1S2,则A取回自己下的注a,并取走B下的注的(S1S2)/S,这等于按
1603年根据某种理由,提(SS1S2):(SS1S2)的比例瓜分注金.法雷斯泰尼在
出按(2S1S1S2):(2S1S1S2)的比例分配.卡丹诺在其1539年的著作中,通过较深的推理提出了一种解法:记r1SS1,r2SS2.把注金按r2(r21):r1(r11)之比分给A和B.他这个解法如今看来虽然仍不正确,但有一个重要之点,即他注意到起作用的是S1,S2与S的差距,而不在其本身.
这个问题的症结在于:它关乎各人在当时状况下的期望值.从以上这些五花八门的解法中,似乎可以认为,这些作者已多少意识到这一点,但未能明确期望与概率的关系.而与此处有关的是:假定赌博继续进行下去,各人最终取胜的概率.循着这个想法问题很易解决:至多再赌rr1r21局,即能分出胜负.假如A获胜,他在这r局中至少须胜r1局.因此按二项分布,A取胜的概率为
rrr2pAir1i,而B取胜的概率为pB1pA.注金按pA:pB之比分配给A和B,
因2apA和2apB是A、B在当时状态下的期望值.这个解是巴斯噶(B.Pascal, 1623~1662)在1654年提出的.他用了两种方法,其一是递推公式法,其二是用“巴斯噶三角”(即杨辉三角).1710年,蒙特姆特在一封信中给出了我们在前面写
出的解法,且不必规定二人的获胜概率相同.后来他又把此问题推广到多个赌徒的情形.
分赌本问题在概率史上起的作用,在于通过对这个在当时来说较复杂的问题的探索,对数学期望及其与概率的关系,有了启示.有的解法,特别是巴斯噶的解法,使用或隐含了若干直到现在还广为使用的计算概率的工具.如组合法、递推公式、条件概率和全概率公式等.可以说,通过对这个问题的研究,概率计算从初期简单计数步入较为精细的阶段.
2. 巴斯噶与费尔马的通信
巴斯噶与费尔马(P. de Fermat,1601~1665)的名字,对学习过中学以上数学的人来说,想必不陌生.巴斯噶三角,在我国称杨辉三角,中学教科书中已有
xyx≠0和整数n3,提及.至于费尔马,因其“费尔马大定理”(不存在整数x,y,z,xyz
nnn使xyz) 于近年得到证明,名声更远播数学圈子内外.费尔马在数学上的名声主要因其数论方面的工作,其在概率史上占到一席地位,多少有些偶然——由于他与巴斯噶在1654年7~10月间来往的7封信件,其中巴致费的有3封.
这几封信全是讨论具体的赌博问题.与前人一样,他们用计算等可能的有利与不利情况数,作为计算“机遇数”即概率的方法(他们没有使用概率这个名称).与前人相比,他们在方法的精细和复杂性方面大大前进了.他们广泛使用组合工具和递推公式,初等概率一些基本规律也都用上了.他们引进了赌博的值(value)的概念,值等于赌注乘以获胜概率.3年后,惠更斯改“值”为“期望”
(expectation)这就是概率论的最重要概念之一——(数学)期望的形成和命名过程.前文已指出:此概念在更早的作者中已酝酿了一段时间.这些通信中讨论的一个重要问题之一是分赌本问题,还讨论了更复杂的输光问题:甲、乙二人各有赌本a和b元(a、b为正整数),每局输赢1元,要计算各人输光的概率.这个问题拿现在的标准看也有相当的难度.由此也可看出这组通信达到的水平及其在概率论发展史上的重要性.有的学者,如丹麦概率学者哈尔德,认为巴、
费2人在1654年的这些信件奠定了概率论的基础.这话有相当的道理,但也应指出,这些通信的内容是讨论具体问题,没有明确陈述并提炼出概率运算的原则性内容.例如,他们视为当然地使用了概率加法和乘法定理.但未将其作为一般原则凸现出来.
促使巴、费2人进行这段通信的,是一个名叫德梅尔的人,他曾向巴斯噶请教几个有关赌博的问题.1564年7月29日巴斯噶首先给费尔马写信,转达了这些问题之一,请费尔马解决.所提问题并不难,但不知为何巴斯噶未亲自回答:将两颗骰子掷24次,至少掷出一个“双6”的机遇小于1/2(其值为
1(35/36)240.4914).但从另一方面看,投两个骰子只有36种等可能结果,而24占了36的2/3,这似乎有矛盾,如何解释.现今学过初等概率论的读者都必能毫无困难地回答这个问题.
巴、费通信中涉及的有关分赌本问题的解法,包含了一些在当时看很先进且直到现在仍广为使用的想法和技巧.
3. 惠更斯的《机遇的规律》
惠更斯是一个有多方面成就的、在当时声名与牛顿相若的大科学家.人们熟知他的贡献之一是单摆周期公式T2/g.他在概率论的早期发展史上也占有重要地位,其主要著作《机遇的规律》出版于1657年,出版后得到学术界的高度重视,在欧洲作为概率论的标准教本长达50年之久.
该著作的写作方式不大像一本书,而更像一篇论文.他从关于公平赌博
(fair game)的值的一条公理出发,推出关于“期望”(这是他首先引进的术语)的3条定理.基于这些定理并利用递推法等工具,惠更斯解决了当时感兴趣的一些机遇博弈问题.最后,他提出了5个问题,对其中的3个给出了答案但未加证明.
3条定理加11个问题,被称为惠更斯的14个命题.前3条如下述:
命题1 若某人在赌博中以等概率1/2得a、b元,则其期望为(ab)/2元.
命题2 若某人在赌博中以等概率1/3得a、b和c元,则其期望为(abc)/3元.
命题3 若某人在赌博中以概率p,q(pq1)得a、b元,则其期望为paqb元.
看了这些命题,现代的读者或许会感到惶惑:为何一个应取为定义的东西,要当作需要证明的定理? 答案在于,这反映了当时对纯科学的一种公认的处理方法,即应从尽可能少的“第一原理”(first principle,即公理)出发,把其他内容推演出来.惠更斯只从一条公理出发而导出上述命题,其推理颇为别致,此处不细述.
这几个命题是期望概念的一般化.此前涉及或隐含这一概念只是相当于命
题3中b0的特例,即注金乘取胜概率,因而本质上没有超出概率这个概念的范围.惠更斯的命题将其一般化,是这个重要概念定型的决定性的一步.实际上,据惠更斯的命题不难证明:若某人在赌博中分别以概率p1,,pk(p1pk1)得a1,,ak元,则其期望为p1a1pkak.这与现代概率论教科书中关于离散随机变量的期望的定义完全一致.
余下的11个命题及最后的5个问题,都是在形形色色的赌博取胜约定下,去计算各方取胜的概率,其中命题4~9是关于2人和多人的分赌本问题.对这些及其他问题,惠更斯都用了现行概率论教科书中初等概率计算方法,通过列出一定的方程求解,大体上与巴斯噶的做法相似.这种方法后来被伯努利称为“惠更斯的分析方法”.最后5个问题较难一些,其解法的技巧性也较强.现举其一为例:A、B二人约定按ABBAABBAABB„掷两颗骰子,即A先掷一次,然后从B开始轮流各掷两次.若A掷出和为6点,则A胜;若B掷出和为7点,则B胜.求A、B获胜的概率.
A在一次投掷时掷出和为6的概率pA5/36,而B在一次投掷时掷出和为7的概率pB6/361/6.记qA1pA,qB1pB,又记ei为在第i1次投掷完时A、
B都未取胜,求在这一条件下A最终取胜的概率.利用全概率公式,并注意到约定的投掷次序,可以列出方程组:
e1pAqAe2,e2qBe3,e3qBe4,e4pAqAe1.
由此容易得出
2pA(1qAqB)10355e122(1qAqB)22631,
略小于1/2.故此赌法对A不利.
机遇博弈在概率概念的产生及其运算规则的建立中,起了主导的作用.这一点不应当使人感到奇怪:虽说机遇无时不在,但要精确到数量上去考虑,在几百年前那种科学水平之下,只有在像掷骰子这类很简单的情况下才有可能.但这门学科建立后,既脱离赌博的范围又找到了多方面的应用.这也是一个有趣的例子,表明一种看似无益的活动(如赌博),可以产生对人类文明极有价值的副产物.
把概率论由局限于对赌博机遇的讨论拓展出去的转折点和标志,应是1713年伯努利划时代著作《推测术》的出版,是在惠更斯的《机遇的规律》出版后56年.截至惠更斯这一著作为止,内容基本上限于掷骰子等赌博中出现各种情况的概率的计算,而伯努利这本著作不仅对以前的成果作了总结和发挥,更提出了“大数定律”这个无论从理论和应用角度看都有着根本重要性的命题,可以说其影响一直到今日而不衰.其对数理统计学的发展也有不可估量的影响,许多统计方法和理论都是建立在大数定律的基础上.有的概率史家认为,这本著作的出版,标志着概率概念漫长的形成过程的终结与数学概率论的开端.
假定有一个事件A.根据某种理论,我们算出其概率为P(A)p.这理论是否正确呢?一个检验的方法就是通过实际观察,看其结果与此论理论的推论——P(A)p是否符合.或者,一开始我们根本就不知道P(A)等于多少,而希望通过实际观察去估计其值.这些包含了数理统计学中两类重要问题——检验与估计.这个检验或估计概率p的问题,是数理统计学中最常见、最基本的两个问题.
要构造具体例子,最方便的做法是使用古典概率模型.拿一个缸子,里面装有大小、质地一样的球ab个,其中白球a个,黑球b个.这时,随机从缸中抽出一球(意指各球有同等可能被抽出),则“抽出之球为白球”这事件A有概率pa/(ab).如果不知道a、b的比值,则p也不知道.但我们可以反复从此缸内抽球(每次抽出记下其颜色后再放回缸中).设抽了N次,发现白球出现XN次,则用XN/N去估计p.这个估计含有其程度不确定的误差,但我们直观上会觉得,抽取次数N愈大,误差一般会愈小.这一点如伯努利所说:“哪怕最愚笨的人,也会经由他的本能,不须他人的教诲而理解的”.但对这个命题却无人能给出一个严格的理论证明.
伯努利决心着手解决这个问题,其结果导致了以他的名字命名的大数定律的发现.这个发现对概率论和数理统计学有极重大的意义.伯努利把这一研究成果写在他的著作《推测术》的第4部分中,是该著作的精华部分.由于该书在概率统计史上的重要意义,值得对伯努利其人及此书的整个面貌先作一点介绍.
4. 伯努利的《推测术》
伯努利1654年出生于瑞士巴塞尔.在其家族成员中,对数学各方面做出过不同程度贡献的至少有12人,在概率论方面有5人,其中杰出的除他本人外,还有其弟弟约翰与侄儿尼科拉斯.
伯努利的父亲为其规划的人生道路是神职人员.但他的爱好却是数学.他对数学的贡献除概率论外,还包括微积分、微分方程和变分法等.后者包括著名的悬链线问题.他和牛顿、莱布尼兹是同时代人,并与后者有密切的通信联系,因而非常了解当时新兴的微积分学的进展,学者们认为他在这方面的贡献,是牛、莱之下的第一人.此外,他对物理学和力学也做出过贡献.
他与惠更斯长期保持通信联系,仔细阅读过惠更斯的《机遇的规律》,由此引发了他对概率论的兴趣.
从他与莱布尼兹的通信中,可知他写《推测术》这一著作是在他生命的最
后两年.在1705年他去世时,此书尚未整理定稿.由于家族内部的问题,整理和出版遗稿的工作,迟迟未能实现.先是其遗孀因对其弟约翰的不信任,不愿把整理和出版的事委托给他,后来又拒绝了欧洲一位富有学者捐资出版的建议.最后在莱布尼兹的敦促下,才决定由其侄儿尼科拉斯来承担这件事情.尼科拉斯也是当时重要的数学家,与欧拉和莱布尼兹保持通信联系.当时尚无科学期刊,学者的通信是学术交流的一种重要方式.
《推测术》一书共239页,分四个部分.第一部分(P2~71)对《机遇的规律》一书作了详细的注解,总量比惠更斯的原书长4倍.第二部分(P72~137)是关于排列组合的系统的论述.第三部分(P 138~209)利用前面的知识,讨论了一些使用骰子等的赌博问题.第四部分(P 210~239)是关于概率论在社会、道德和经济等领域中的应用,其中包括了该书的精华、奠定了概率史上不朽地位的,以其名字命名的“伯努利大数定律”——大数定律的名称不是出自该书,首见于泊松1837年的一篇著作中.该书若缺了这一部分,则很可能会像某些早期概率论著作那样湮没无闻,或至多作为一本一般著作被人评价.该书最后有一长为35页的附录,用与友人通信的形式讨论网球比赛中计分问题.
5. 伯努利大数定律
现在我们来介绍伯努利《推测术》中最重要的部分——包含了如今被称之为“伯努利大数定律”的第4部分.回到前面的缸中抽球模型:缸中有大小、质地一样的球ab个,其中白球a个,黑球b个,“抽出之球为白球”的概率为p,则有pa/(ab).假设有放回地从缸中抽球N次,记XN为抽到白球的次数,以XN/N估计p.这种估计法现今仍是数理统计学中最基本的方法之一.此处的条件是,每次抽取时都要保证缸中ab个球的每一个有同等机会被抽出,但这一点在实践中并不见得容易保证.例如,产生中奖号码时可能要用复杂的装置.在实际工作中,统计学家有时用一种叫做“随机数表”的工具.这是一本很厚的书,各页按行、列排列着数字0,1,2,,9,它们是用据说是“充分随机”的方法产生的.在使用
时,“随机地”翻到一页并随机地点到一个位置,以此处的数字确定抽出的对象.
伯努利企图证明的是:用XN/N估计p可以达到事实上的确定性——他称为道德确定性.其确切含义是:任意给定两个数0和0,总可以取足够大的抽
|(XN/N)p|样次数N,使事件|(XN/N)p|的概率不超过.这意思就很显然:
表明估计误差未达到指定的接近程度,但这种情况发生的可能性可以“随心所欲地小”(代价是加大N).为忠实于伯努利的表达形式,应指出两点:一是伯努利把限定于(ab),虽然其证明对一般也有效.但他做这一模型限定与所用缸子模型的特殊性有关:必要时把缸中的白、黑球分别改为ra和rb个,则p不变,(ab)1改为(rarb)1,只须取r足够大,便可使(rarb)1任意小.其次,伯努利欲1证明的是:对任给的c0,只要抽取次数足够大,就可使
XXPNpcPNpNN. (5)
这与前面所说是一回事.因为由上式得
X1PNp.N1c (6)
取c充分大,可使(6)式右边小于.
另外要指出的是:伯努利使用的这个缸子模型使被估计的p值只能取有理数,因而有损于结果的普遍性.但其证明对任意的p成立,故这一细节并不重要.
伯努利上述对事实上确定性数学的理解,即(5)式,有一个很值得赞赏的地方,即他在概率论的发展刚刚起步的阶段,就给出了问题的一个适当的提法.因为,既然我们欲证明的是当N充分大时,XN/N和p可以任意接近,则一个看来更直截了当的提法是
NlimXNp,N (7)
而这不可能实现.因为原则上不能排除“每次抽到白球”的可能性,这时XN/N总为1,不能收敛到p1.或者退一步:要求(7)式成立的概率为1,这一结论是对的,
但直到1909年才由波莱尔给予证明,证明的难度比伯努利的提法大得多.设想一下,如果当时伯努利就采用该提法,他也许在有生之年不能完成这一工作.由于波莱尔的结论比伯努利的结论强,现今人们又把他们的结论分别称之为强大数定律和弱大数定律.
6. 狄莫佛的研究动因
亚伯拉罕•狄莫佛出生在法国一个信教徒家中,19岁那年因宗教信仰的原因曾被捕入狱,并度过了两年铁窗生涯.出狱后为逃避迫害,21岁的他流亡到伦敦,做了一名教师.在那里,他在教书之余继续研习数学,主要是阅读刚出版不久的牛顿的著作《自然哲学的数学原理》.后来,他在数学领域内取得了多方面成就,并于1697年当选为英国皇家学会会员,这一年他刚届而立.狄莫佛的一项广为人知的成果是著名的狄莫佛公式:
(cosisin)ncos(n)isin(n)
(但狄莫佛并未把公式写成这种形式).
在1718年,狄莫佛出版了《机遇论》(Doctrine of Chances)一书,此书奠定了他在概率史上的地位.该书一共出了三版,分别在1718年、1738年和1756年.人们常说概率史上有三部里程碑性质的著作,狄莫佛的《机遇论》乃其一.另两部为伯努利的《推测术》及拉普拉斯于1812年出版的《概率的分析理论》.
有趣的是,吸引狄莫佛投身到二项概率的研究契机,并不是为改进伯努利在该项研究上的结果.事实上,1718年版的《机遇论》一书表明,狄氏对伯努利颇有一番看法.狄莫佛之所以注意到这一问题,与下述偶然情况有关.
1721年,一个叫亚历山大•喀明的人向狄氏提出了一个问题:A、B二人在甲家赌博,每局A获胜的概率为p,B获胜的概率为q1p,共赌N局.以X记A获胜局数.约定:若XNp,则A付给甲XNp;若XNp,则B付给甲NpX.问甲所得期望值是多少?按定义,此期望值为
N
DNE(|XNp|)|iNp|b(N,p,i),
i1
NiNib(N,p,i)ipq,i0,1,,N其中.狄莫佛在Np为整数条件下得到了
DN2Npqb(N,p,Np), (8)
且他只对p1/2的特例给出了证明.不过,其证法易推广到一般的p.狄氏声称此公式他在1721年得到,但证明首次发表是在1730年.现在我们容易在一般情况下证明
DN2qb(N,p,),[Np]1. (9)
此处及以下的[a]表示不超过a的最大整数.易验证,当Np为整数时,公式(8)与(9)一致.
b(N,p,i)的计算不易.因此,(8)与(9)回答了喀明所提出的问题,但在N较大时,
狄莫佛想找到一个便于计算b(N,p,i)的近似公式
b(N,p,)2Npqexp(2Npq). (10)
7. 泊松公式、泊松分布与泊松大数定律
泊松(Possion)的名字对学概率论与数理统计的人来说,可谓耳熟能详.原因主要在于泊松近似公式,以及更重要的源于该近似公式的泊松分布,泊松分布的重要性和知名度在离散型分布中仅次于二项分布.泊松的另一个重要工作是把伯努利大数定律推广到每次试验中事件发生的概率可以不同的情况,现称泊松大数定律.
继狄莫佛给出二项概率近似计算公式(10)之后,丹尼尔和拉普拉斯也给出了二项概率近似计算公式,但这些公式在现今的教科书上已很少提及,只有泊松近似公式则不然,其形式为
limb(N,p,k)ek
Nk! (11)
,
limNp其中N,k0,1,2,,N.公式(11)在教科书上通称为泊松逼近公式、泊松近似
公式或泊松公式.它是泊松在1838年于《概率在法律审判的应用》一书中所引进,此公式适用于p很小,N很大而Np又不很大时,这正好填补了狄莫佛公式(10)的不足,因后者只适用于p不太接近于0和1的时候.不过,从历史上看,狄莫佛早在1712年已做出了这个结果.
8. 贝叶斯及其传世之作
托马斯•贝叶斯(Thomas Bayes,1701-1761)其人在18世纪上半叶的欧洲学术界,恐怕不能不算是一个很知名的人物.在他生前,没有发表过片纸只字的科学论著.那时,学者之间的私人通信,是传播和交流科学成果的一种重要方式.许多这类信件得以保存下来并发表传世,而成为科学史上的重要文献,例如前面提到的费尔马和巴斯噶的通信,伯努利与莱布尼兹的通信等.但对贝叶斯来说,这方面材料也不多.在他生前,除在1755年有一封致约翰•康顿的信(其中讨论了辛普森有关误差理论的工作)外,历史上没有记载他与当时的学术界有何重要的交往.但他曾在1742年当选为英国皇家学会会员(相当于科学院院士),因而可以想到,他必定曾以某种方式表现出其学术造诣而为当时的学术界所承认.如今,我们对这个生性孤僻、哲学气味重于数学气味的学术怪杰的了解,是因他的一篇题为“An essay towards solving a problem in the doctrine of chance(机遇理论中一个问题的解)”的遗作.此文发表后很长一个时期在学术界没有引起什么反响,但到20世纪以来突然受到人们的重视,成为贝叶斯学派的奠基石.1958年,国际权威性的统计杂志《Biometrika》(生物计量)重新刊载了这篇文章.此文也有中译本(见廖文等译《贝叶斯统计学——原理、模型及应用》的附录4,中国统计出版社1992年版).
此文是他的两篇遗作之一,首次发表于1764年伦敦皇家学会的刊物
《Philosophical Transactions》上.此文在贝叶斯生前已写就,为何当时未交付发表,后来的学者有些猜测,但均不足定论.据文献记载,在他逝世之前4个月,他在一封遗书中将此文及100英镑托付给一个叫普莱斯的学者,而贝叶斯
当时对此人在何处也不了然.所幸的是,后来普莱斯在贝叶斯的文件中发现了这篇文章,他于1763年12月23日在皇家学会上宣读了此文,并在次年得以发表.发表时普莱斯为此文写了一个有实质内容的前言和附录.据普莱斯说,贝叶斯自己也准备了一个前言.这使人们无法确切区分:哪些思想属于贝叶斯本人,哪些又是普莱斯所附加的.
贝叶斯写作此文的动机,说法也不一.一种表面上看来显然的说法是为了解决伯努利和狄莫弗未能解决的、二项分布概率p的“逆概率”问题,因为当时距这两位学者的工作发表后尚不久,有人认为他是受了辛普森误差工作的触动,想为这种问题的处理提供一种新的思想.还有人主张,贝叶斯写作此文,是为了给“第一推动力”的存在提供一个数学证明.这些说法现在都无从考证.
上面提到“逆概率”这个名词.在较早的统计学著作中这个名词用得较多,现在已逐渐淡出.顾名思义,它是指“求概率这个问题的逆问题”:已知事件的概率为p,可由之计算某种观察结果出现的概率如何.反过来,给定了观察结果,问由之可以对概率p做出何种推断.推广到极处可以说,“正概率”是由原因推结果,是概率论;“逆概率”是由结果推原因,是数理统计.
9. 拉普拉斯的“不充分推理原则”
贝叶斯工作发表后很长一段时期,都没有得到学术界的注意,因而他的这种思想未能及早地发展成为一种得到广泛应用的统计推断方法.但是,也有些学者独立地朝这个方向思考,提出类似的思想并付诸实用,其中最重要的当属拉普拉斯.
拉普拉斯在1774年的一篇文章中提出了所谓的“不充分推理原则”
(principle of insufficient reasoning).他的思想大致如下:如果一个问题中存在若干个不同的原因(cause) A1,A2,,An,则在没有理由认为其中哪一个特别有优势时,概率应各取1/n,即认为各原因有同等机会出现.在统计问题中,
这里所说的不同“cause”A1,A2,,An可看作代表未知参数的不同的可能值.以E记在这原因下可能产生的事件(例如,在某参数值之下观察到的样本),拉普拉斯提出:
P(Ai|E)/P(E|Ai)与i无关. (12)
用现今熟知的概率论知识很容易证明(12),但拉普拉斯在其文章中用了一个很复杂的证法.拉普拉斯的原则(12)可用于由P(E|Ai)推P(Ai|E),这与贝叶斯的原则完全一样,也并未超出贝叶斯思想的范围.因此,现在统计学史上也把拉普拉斯视为贝叶斯统计的一个奠基者.
10. 勒让德发明最小二乘法
勒让德是法国大数学家,在数学的许多领域,包括椭圆、积分、数论和几何等方面,都有重大的贡献.最小二乘法最先出现在他于1805年发表的一本题为《计算彗星轨道的新方法》著作的附录中,该附录占据了这本长达80页著作的最后9页.勒让德在这本书前面几十页关于彗星轨道计算的讨论中没有使用最小二乘法,可见在他刚开始写作时,这一方法尚未在他头脑中成形.历史资料还表明,勒让德在参加测量巴黎子午线长这项工作很久以后还未发现这个方法.考虑到此书发表于1805年且该法出现在书尾的附录中,可以推测他发现这个方法应当在1805年或之前不久的某个时间.
勒让德在该书72~75页描述了最小二乘法的思想、具体做法及方法的优点.他提到:使误差平方和达到最小,在各方程的误差之间建立了一种平衡,从而防止了某一极端误差(对决定参数的估计值)取得支配地位,而这有助于揭示系统的更接近真实的状态.的确,考察勒让德之前一些学者的做法,都是把立足点放在解出一个线性方程组上.这种做法对于误差在各方程之间的分布的影响如何,是不清楚的.
在方法的具体操作上,勒让德指出,为实现
(x
i1n0ix1i1xkik)2最小
而对各i求偏导数所形成的线性方程组
k
srjr0j0,j1,,k,r1nsrjxrixji,r0,1,,k,j1,,k.i1 (13)
只涉及简单的加、乘运算,至于解线性方程组,这是当时已知的其他方法也难免的.现今我们把(13)叫做正则方程组,这是后来高斯引进的称呼.
关于最小二乘法的优点,勒让德指出了以下几条:第一通常的算术平均值是其一特例.第二,如果观察值全部严格符合某一线性方程,则这个方程必是最小二乘法的解.第三,如果在事后打算弃置某些观察值不用或增加新的观察值,对正则方程组的修改易于完成.从现在的观点看,这方法只涉及解线性方程组是其最重要的优点之一(其他的重要优点包括此法在统计推断上的一些优良性质,以及其广泛的适用性).近年发展起来的,从最小二乘法衍生出的其他一些方法,尽管在理论上有其优点,可是由于计算上的困难而影响了其应用.
最小二乘法在19世纪初发明后,很快得到了欧洲一些国家的天文和地测学工作者的广泛使用.据不完全统计,自1805年至1864年的60年期间,有关这一方法的研究论文约250篇,一些百科全书,包括1837年出版的《不列颠百科全书》(第7版),都收进了有关这个方法的介绍.在研究论文中,有一些是关于最小二乘估计的计算,这涉及解线性方程组.高斯也注意到了这个问题,给出了正则方程组的命名并发展了解方程组的消去法.但是,在电子计算机出现以前,当参数个数(即(13)式中的k)较大时,计算任务很繁重.1858年,英国为绘制本国地图作了一次大型的调查,其数据处理用最小二乘法涉及模型(13)中k=920,n=1 554.用两组人员独立计算,花了两年半的时间才完成.1958年我国某研究所计算一个炼钢方面的课题,涉及用最小二乘法解13个自变量的线性回归,30余
人用电子计算机计算,夜以继日花了一个多月的时间.
勒让德的工作没有涉及最小二乘法的误差分析问题.这一点由高斯在1809年发表的正态误差理论加以补足,详细介绍见后面故事(高斯的正态误差理论).高斯的这个理论对于最小二乘法用于数理统计有极其重要的意义.这一点在20世纪哥色特、费歇尔等人发展了正态小样本理论后,尤其明显.正因为高斯这一重大贡献,以及他声称自1799年以来一直使用这个方法,所以人们多把这一方法的发明优先权归于高斯.当时在这两位大数学家之间曾发生优先权之争,其知名度仅次于牛顿和莱布尼兹之间关于微积分发明的优先权之争.近年来还有学者根据有关的文献研究这个问题,也作不出断然的结论.这个公案大概也只能以“两人同时独立做出”来了结.但无论如何,第一个在书面上发表的是勒让德,他有理由占先一些.
我们已指出,最小二乘法是针对形如 x0x11xkk0 的线性关系的观测数据而作出的,现在统计学上把这叫做线性(统计)模型——当然,其含义比最初所赋予它的要广得多.最小二乘法在数理统计学中的显赫地位,大部分来自它与这个模型的联系.另一个原因是它有简单的线性表达式.这不仅使它易于计算,更重要的是,在正态误差的假定下,它有较完善的小样本理论,使基于它的统计推断易于操作且有关的概率计算不难进行.其他的方法虽也可能具有某种优点,但由于缺乏最小二乘法所具备的上述特性,故仍不可能取代最小二乘法的位置,这就是此法得以长盛不衰的原因.
11. 高斯导出误差正态分布
1809年,高斯(Carl Friedrich Gauss,1777—1855)发表了数学和天体力学的名著《绕日天体运动的理论》.在此书末尾,他写了一节有关“数据结合”(data combination)的问题,实际涉及的就是这个误差分布的确定问题.
设真值为,n个独立测量值为X1,,Xn.高斯把后者的概率取为
)XL(,;XXn1,f(X1X)f(Xn), (14) L()L(;,),fX(nX)f(),n)n
其中f为待定的误差密度函数.到此为止他的做法与拉普拉斯相同.但在往下进行时,他提出了两个创新的想法.
一是他不采取贝叶斯式的推理方式,而径直把使(9)式达到最大的
(X1,,Xn)作为的估计,即使
L()maxL()
(15) 成立的.现在我们把L()称为样本X1,,Xn的似然函数,而把满足(15)式的称
为的极大似然估计.这个称呼是追随费歇尔的,因为他在1912年发表的一篇文章中,明确提到以上概念并非针对一般参数的情形.
如果拉普拉斯采用了高斯这个想法,那他会得出:在已定误差密度为
f(x)mm|x|e,x.2 (16)
基础上,其中m0为未知参数.的估计是样本X1,,Xn中位数med(X1,,Xn),即X1,,Xn按大小排列居于正中的那一个(n为奇数时),或居于正中的那两个的算术平均(n为偶数时).这个解不仅计算容易,且在实际意义上,有时比算术平均X更为合理.不过,即使这样,拉普拉斯的误差分布(16)大概也不可能取得高斯正态误差那样的地位.原因是X是线性函数,在正态总体下有完善的小样本理论,而med(X1,,Xn)要用于推断就难于处理了.另外,这里所谈的是一个特定的问题——随机测量误差该如何分布.测量误差由诸多因素形成,每种因素影响都不大.按中心极限定理,其分布近似于正态分布是势所必然.其实,早在1780年左右,拉普拉斯就推广了狄莫佛的结果,得到了中心极限定理的比较一般的形式.可惜的是,他未能把这一成果用到确定误差分布的问题上来.
高斯的第二点创新的想法是:他把问题倒过来,先承认算术平均X是应取的估计,然后去找误差密度函数f以迎合这一点,即找这样的f,使由(15)式决定的就是X.高斯证明了:这只有在
f(x)x2
exp2221 (17)
2条件下才能成立,这里0为常数,这就是正态分布N(0,).
高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作.高斯是一个伟大的数学家,重要的贡献不胜枚举.但现今德国10马克的印有高斯头像
2的钞票,其上还印有正态分布N(,)的密度曲线.这传达了一种想法:在高斯
的一切科学贡献中,其对人类文明影响最大者,就是这一项.
在高斯作出这个发现之初,也许人们还只能从其理论的简化上来评价其优越性,其全部影响还不能充分看出来.这要到20世纪正态小样本理论充分发展起来以后才能充分看出来.
拉普拉斯很快得知高斯的工作,并马上将其与他发现的中心极限定理联系起来,为此,他在即将发表的一篇文章(发表于1810年)上加上了一点补充,指出如若误差可看成许多量的叠加,根据他的中心极限定理,误差理应有高斯分布.这是历史上第一次提到所谓“元误差学说”——误差是由大量的、由种种原因产生的元误差叠加而成.后来到1837年,海根(G.Hagen)在一篇论文中正式提出了这个学说.其实,他提出的形式有相当大的局限性:海根把误差设想成个数很多的、独立分布的“元误差”1,,n之和,每个i只取a两值,其概率都是1/2,由此出发,按狄莫佛的中心极限定理,立即就得出误差(近似地)服从正态分布.
拉普拉斯所指出的这一点有重大的意义,在于他给误差的正态理论一个更自然合理、更令人信服的解释.因为,高斯的说法有一点循环论证的气味:由于算术平均是优良的,推出误差必须服从正态分布;反过来,由后一结论又推出算术平均及最小二乘估计的优良性,故必须认定这二者之一(算术平均的优良性,误差的正态性)为出发点.但算术平均到底并没有自行成立的理由,以它作为理论中一个预设的出发点,终觉有其不足之处.拉普拉斯的理论把这断裂的一
环连接起来,使之成为一个和谐的整体,实有着极重大的意义.
12. 莎士比亚的新诗:一曲统计学的赞歌
这个强有力的旋律,将胜过大理石或者是君主的金箔纪念碑.
莎士比亚
(Shakespeme)
1985年11月,研究莎士比亚的学者泰勒(G. Taylor)从1775年以来就保存在Bodelian 图书馆的收藏中发现了写在纸片上的九节新诗.新诗只有429个字,没有记载谁是诗的作者.这首诗会是莎士比亚的作品吗?两个统计学者Thisted和Efron(1987)利用统计方法研究了这个问题,得到结论: 这首诗用词的风格(规范)与莎士比亚的风格非常一致.这个研究纯粹基于统计学基础,其过程可描述如下:
已知莎士比亚所有著作的用词总数为884 647个,其中31 534个是不同的.这些词出现的频数如表1所示.
表1 不同单词所使用的频数分布
表1含有一定数量单词的新作品,他会使用多少新单词(以前作品中未使用过的)?在他以前所有的作品中,有多少单词他仅使用过一次,两次,三次,„这些数字可以用费歇等(1943)提出的划时代的法则来预测.在完全不同的领域内,费歇利用他的方法估计了未被发现的蝴蝶总数!利用费歇的理论,如果莎士比亚用与他已有的所有作品中出现的单词数884 647完全一样数目的单词来写他的新的剧本和诗,则估计他将使用约35 000个新词.这种情形下,莎士比亚的总词汇估计至少有66 000个单词(在莎士比亚时代,英语语言的总词汇约有100 000个,目前约有500 000个).
现在回到新发现的诗上,其含有429个单词中有258个是不同的,新诗的观测值和预测值(基于莎士比亚的风格)的分布由表2(最后两栏)给出.从表2可以看到,(在所期望的差的范围内)两个分布非常一致,这表示了新发现的诗的作者可能就是莎士比亚.
表2 长度几乎相同的诗中,莎士比亚风格所含不同单词与其他作者风格所含不同单词的频数分布
、马洛(C.Mar lowe)、多恩(J.Donne)长度几乎相同的作品中所使用的单词的分布频数.这些作者作品中单词的分布频数与新发现诗中单词的观测频数,以及与莎士比亚用词风格的期望观测频数之间看起来多少有些不同.
另一个与其类似的故事是——有争议的作者权:《联邦主义者论文集》作者是谁.
这是与上一故事密切相关的验明作者是谁的问题,或者是对作者不明的作品所列出的可能的作者群中去识别一个作者,下面再给大家讲一个故事.这个故事来源于费歇,他是第一个使用这个方法来回答一个人类学家向他提出的问题的.是否存在任何客观的、仅利用测量的方法判断从墓中发现的下鄂骨是男性,还是女性?
同样的技术可用来回答本质上相同的问题:在两个可能的作者中,谁是有作者权的争议作品的真正作者.让我们来考察一下《联邦主义者论文集》的情形.这个论文集是1787~1788年由哈密顿(A.Hamilton)、杰伊(J.Jay)和马德森(J.Madison)为了劝说纽约市民批准宪法所著的.按那个时代所时兴的,这个论
文集共含77篇论文,全部署名为笔名“民众(Publicus)”.这个论文集的大多数文章的真正作者已经判明了,但有12篇文章仍存在争议,到底是哈密顿的,还是马德森的.两个统计学者,莫斯特雷(F.Mosteller)和华莱士(D. Wallace)利用统计方法解决了这个问题,得出的结论是:12篇有争议的文章最可能的作者是马德森.解决这个问题所使用的度量化方法是从有争议的作者的作品中研究
每一个作者自己的风格,按有争议的作品的风格最接近于其作品来确定其作者.
13. 柏拉图著作的系列排列
柏拉图作品的问世已超过22个世纪了,他的哲学思想以及优美的文体被广泛地研究着.遗憾的是,没有人提及,或者是没有人知道他的35篇对话,6篇短文和13封信件写作的时间年表.柏拉图作品时间年表的问题19世纪就已经提出来了,但没有什么进展.几年以前,统计学家开始着手这个问题,现在已给出了一个看起来很合理的解答.
所用的统计方法是从求出作品之间的相似性指数开始的.在波纳法
(Boneva,1971)的研究中,基于每一作品中最后5个音节的32个可能特征的频数分布,求出相似性指数,这个技术称为定性终止.在没有其他附加信息的情形下,这里所用到的唯一的假设是写作时间相近的作品写作风格相似.利用这个方法推断了柏拉图作品的时间年表.
14. 地质年代的尺度
这是费歇(1952)所引证的一个例子,用来说明地质学中一个最伟大的发现里面所隐含的统计思想.不少人已经熟悉地质年代的尺度以及地质层的名字,如鲜新世(Pliocene)、中新世(Miocene)、渐新世(Oligocene),但也许很少有人知道这些是如何得到的.这是由出生于1797年的著名《地质学原理》一书的作者、地质学家莱尔(C.Lyell)发明的.在1833年出版的这本书的第三卷中,他给出了这些时间尺度的详细计算.这些时间尺度的详细计算基于一个完全新颖的思想
并利用了很复杂的统计过程.
在杰出的贝类学家德夏斯(M.Deshayes)的协助下,莱尔把一个或多个地质层中鉴定了的化石列成表,并查明目前还生存的占多大比例,就像一个统计学家拥有一个没有纪录年龄的近期的人口统计记录,以及一系列未标明时间的过去人口调查的记录,从中可以辨认某些个人与现在的记载是同一个人.在这种情况下,由生命表的知识分析可以估计未标明的数据.即使没有生命表,仅仅由比较每个记录中现在仍生存的人的比率,也可以按年代顺序排成序列.也就是说,现存的生物在化石中所占的比率越小,可以推断其在地层中形成的年代越久远.莱尔的思想以及他漂亮的统计论证给地质学带来了一场革命,他所命名的地质层和其他研究结果如表3所示.
表3 莱尔的地质学分类
化石的分层.遗憾的是,许多教师在给学生讲授的过程中,从来没有强调莱尔方
法中隐含的度量思想.
15. 鳗鱼的公共繁殖场所
下面的故事也选自费歇(1952)的文章,说明如何由基本的描述统计量的知识引出一个重要的发现.20世纪早期,哥本哈根卡尔堡实验室的施密特(J.Schmidt)发现不同地区所捕获的同种鱼类的脊椎骨和鳃线的数量有很大不同,甚至在同一海湾内不同地点所捕获的同种鱼类,也发现有这样的倾向,然而,鳗鱼的脊椎骨的数量变化却不大.施密特从欧洲各地、冰岛、亚速尔群岛、以及尼罗河等几乎分离的海域里所捕获的鳗鱼的样本中,计算发现了几乎一样的均值和标准偏差值.由此,施密特推断所有各个不同海域内的鳗鱼是在海洋中某公共场所繁殖的.后来名为“戴纳(Dana)”的科学考察船在一次远征中发现了这个场所.
16. 人所具有的特点是遗传的吗?
这个问题是在一次讨论达尔文的理论时提出的.为了回答这个问题,丹麦的一个遗传学家约翰尼森(W.Johannsen)进行了实验,他的实验已出现在今天的教科书上.但是,在他1909年第一次发表这个结果时却没有引起注意.下面是我从卡克(M.Kac)的一个笔记(1983)中引用的,卡克介绍了当他13岁时所了解的这个实验.
“约翰尼森取了大量的豆子,称它们的重量,由这些重量做成频率直方图并由此拟合了今日被称为正态分布的曲线.然后,他从中取出大的和小的豆子,分别进行栽培,并分别做出它们各自收获后豆子重量的直方图.这些直方图又分别与正态曲线拟合.如果豆子的大小是遗传的,则人们可以预期后做的两条曲线会以大小不同的均值为分布中心.但是,事情恰恰不是这样,两条曲线与它们祖先的曲线几乎看不出区别,因此产生了一个严肃的问题:豆子的大小是否是遗传的.”卡克继续介绍说:“当时那些完全崭新的议论使我感到很吃惊,直到今天还保留很深的印象,这是我当时在已接受的数学、物理和生物学知识中还未遇到过的.从那以后,我开始学习了大量的统计学知识,甚至还给具有不同数学程
度的人讲授统计学,但我始终认为约翰尼森的实验是我所知道的关于阐述统计推断方法之有效、精彩的最好的例证.”
17. 左撇子的重要性
一般人并不知道根据椰子树树叶螺旋的方向,能够分为右螺旋形状和左螺旋形状.几年以前,印度统计所的戴维斯(T.A.Davis)就这个问题进行了调查研究.他的研究为统计方法在了解自然本质中的应用,提供了一个极好的例子.也就是说,由观测事实提出新问题,为解决这些新的问题,要做出更进一步的观测.综合每个阶段所得到的结果,寻找新的证据来加强已有结果的基础并探索新的方向.
为什么有的树的树叶是左螺旋形的,有的是右螺旋形的呢?这是个遗传特征吗?要回答这个问题,可以考虑由不同螺旋形状的树木组合成的双亲树,并分类计算所产生的子孙树具有相同特征的数量.为此目的所收集到的数据列在表4中.可以看到,左对右的比率在所有类型的双亲树的组合中几乎是一样的.这显示了左螺旋和右螺旋不是遗传的基因.
表4 不同种类交配后所产生的子孙树中左螺旋和右螺旋的比例
.但是,为什么在表4观测的数据中,右螺旋子孙树略占优势(约55%)呢?其生长环境中一定存在很大的可能性使得树木的叶子向右螺旋.如果真是如此,这种可能性依赖于树的地理位置吗?由于还有从世界各地收集到数据,不能明确回答这
个问题.但是已经发现,从地球北半球收集到的样本中,左螺旋的比例占0.515,而从南半球收集到的样本中,左螺旋占0.473.这个差别恐怕是受地球绕一个方向自转的影响.这也解释了浴缸中旋涡的原理(当拔出抽水栓排除浴缸中的水时,会产生左的或右的旋涡).因而,在良好控制的条件下,北半球的旋涡多是逆时针方向的,南半球的旋涡多是顺时针方向的.
如果不是戴维斯热心去寻找左螺旋和右螺旋树木不同的特征,他的研究仅会保留某些学术上的特点.戴维斯花了12年多的时间在一个大种植园中比较了左螺旋和右螺旋树的平均产量.他十分惊奇地发现,左螺旋形树的产量高出右螺旋形树的10%.虽然还不能做出任何解释——这个问题不容易解决,需要进行进一步研究,但这个经验的结论在经济上是很重要的.只选择种植左螺旋形的树木,产量可提高10%!戴维斯继而提出了下面的问题:惯用左手的女性是否比惯用右手的女性更具想像力.森福德公司提供的研究表明,惯用左手的人具有特别的创造力而且长得漂亮.所有惯用左手的人中引以为豪的著名人物有:本杰明•富兰克林,达•芬奇,爱因斯坦,亚历山大大帝,朱莉阿斯•西撒„„
左螺旋和右螺旋的现象在植物王国中是非常普遍的.你或许还没有注意到
你的花园中,同一种植物上的花瓣也是左螺旋和右螺旋排列的.缠绕植物的爬藤有的仅是右螺旋形环绕,有的仅是左螺旋方向的.在加尔各答印度统计研究所,研究者企图改变这个习惯所做的实验以失败告终.看起来这些植物顽强地抵抗任何这样的尝试.
更奇怪的是,除了非常低级的原始形式外,所有生物有机体的生化结构是左手形的.除了甘油外,所有的氨基酸(Amino acids(D&L))都分为两种形式:L(左旋)和D(右旋).两种形式L和D相互是镜像关系,分别称为左旋形分子和右旋形分子.在植物和动物的蛋白质中,甚至在简单的有机体如细菌、霉菌、病毒等中所发现的所有24种氨基酸均是左旋形的.所有左旋形和右旋形分子均有完全相同的性质.生命可能在仅有D酸(右旋),或是L和D的混合形式中存在.那么,生命有机体的进化,比起D(右旋)分子,更愿意选择L(左旋)分子是自然界
中的偶然现象吗?或者是说,左旋分子可能天生地适应于有机体的构造吗?左边倾象或许有什么神秘的力量,人们还得从科学上去探索.
诺贝尔奖获得者斯普瑞(R.Sperry)博士证明了:研究各个体是受左脑还是右脑的控制时,发现受左脑控制的人占多数.简单的说,其特征就是:相对于受右脑控制的人,受左脑控制的人更具有逻辑推理能力.
18. 日内循环
如果有人问你的身高是多少,你会立即给出答案——某个特定的数字.你的身高已经被某人在某个时刻测量过了,并给了你这个数字.但是你可能不会要求去回答为什么这个数字能有效地代表你的身高.如果你确实考虑答案的话,则应该是一个仔细按照“测量高度规定的过程”所得到的一个观测值.这样一个关于身高量度的定义能满足所有实用的目的.但是出现了其他问题:我们所要测量的(按规定的方法)身高依赖于一天之内不同的测量时间吗?也就是说,如果在一天内不同的时间测量,这个值会发生变化吗?如果有变化,我们如何确定这个值呢?例如,人的身高(真值)早上和晚上有差别吗?如果有,这个差别有多大?有任何生理学上的解释吗?
一个简单的统计调查可以给出答案.分别在早上和晚上仔细测量了加尔各
答41名学生的身高,发现早上的测量值高于晚上的测量值,其平均差为9.6毫米(劳,1957).事实上,如果假设一天之内不同时间测量的身高是没有差别的话,则所出现的任何观测值的差别可以归因于测量上的误差,其以相等的概率可以在正负两个方向上产生.在这个假设下,所有41名学生测定的差别为正(即早上的身高值较大)的概率为2-41,即这个事件(测量误差为正)在1013次实验中最多发生5次.也就是说,反对身高无差别的假设的比率非常高.看起来,我们夜间睡眠时身高要长1厘米,而白天工作时却要缩减1厘米.
因为已经显示了早晚身高的差别,那么下一个问题也许就是:当我们进入睡眠时,身体的哪一部分在伸长呢?为了检验这一点,分别在早、晚对身体做
了记号的几个点之间进行了测量.发现整个身体约有1厘米的差别产生在脊椎部分.生理学上的说明是,白天因为椎骨之间的软骨(椎间板)的收缩,椎骨变得非常接近;而夜里当身体放松时,椎骨又回到原来的位置.
为什么教师愿意在早上授课呢?这是因为教师和学生在早上精力充沛,互相之间非常和谐.这个现象有任何生理学上的解释吗?
从体内血浆中可的松(一种荷尔蒙)成分的变化可以解释我们在上午的机敏性.正常状态下,早上8点时,人体内的可的松水平为每100毫升含16微克(16μg/100ml),然后逐渐下降,至晚上11点为每100毫升含6微克(6μg/100ml),降低了62.5%.早上可的松的升高催人起床,到晚上的下降则诱人入睡.因此,我们在上午是机敏的,当夜晚渐渐降临时,我们会变得迟缓起来.
实际上,就如身高所显示的情形一样,人类的几个生理上的特征也在一天中不断地变化,也就是以24小时为周期,每个人有自己特别的日内循环.哈尔堡(Hallberg,1974)强调了研究这样的变动的重要性,即所谓的时间生物学,就能决定患者服药的最佳时间.可以证明一天之中应在某一时刻服用的药,在其它时间服用是无效的;服用药物的有效程度也许依赖于不同时间内血浆中各种生化物质的水平.时间生物学已成为一个具有广泛应用前景的活跃的研究领域.这些研究中,大多数发展均基于统计技术来发现并建立不同时间内测量值的周期性.
19. 统计学中的盐
我平生所遇之最不平常的一件事,是我在一本哲学著作中发现食盐的用量变成了一次雄辩的争议的主题,其他许多类似的事情也受到类似的称赞.
Pheadrus(柏拉图的“爱的盛宴”) 1947年印度刚独立,新德里就发生了一些公共暴乱.一个少数民族团体中的大多数人避难到被称为“红色堡垒”的地方,这是一个被保护的区域,少部分人逃到另一个地区的修姆因庙里,这个庙临近一个古建筑物.政府有责任提供食
物给这些避难者.这个任务委托给了承包商,由于没有任何关于避难者人数的信息,政府被迫接受和付出承包商所提出的为避难者所购买的各种日用品和生活保证品的账单.政府的这项开支看起来非常大,因而有人建议让统计学家(他们能计算)来求出“红色城堡”中避难者的正确人数.
在当时的混乱条件下,这个问题看起来很困难.另一个复杂的情形是,政府所谓的统计学家是属于多数派团体的(与避难者所属团体对立),因而如果要应用统计技术估计避难者的人数而要求进入“红色城堡”的话,这些统计专家的安全没有保证.摆在统计学家面前的问题是:在没有任何避难者人数的先验信息、没有任何机会直接了解那个地区人口密度的情形下,同时在不能使用任何已知的用于估计或人口统计调查中的抽样技术条件下,来估计一个给定地区的人口数量.
专家们不得不想出某个办法来解决这个问题.无论是统计学或是统计学家
的失败,政府都是容忍的,不管怎样,统计学家们接受了承包商交给政府的账单,这些账单记录了提供给避难者的不同的生活用品,如所购入的米、豆类和盐.如何利用这些资料呢?
假设全体避难者一天所需要的米、豆类和盐的总量分别为R,P,S.由消费调查,每人每天所需要这些食物的量分别为r, p, s.因而R/r, P/p, S/s,提供了一个集团中相同人数的平行估计量,也就是说,这三个值无论哪一个均是等价有效的.专家们利用承包商提供的R,P,S计算了这些值,发现S/s最小,而表示大米的R/r最大.与盐相比,商品中最贵的大米的量有可能被夸大了(当时在印度盐的价格非常低,因而不会夸大盐的用量).因此,统计学家提出估计值S/s为红色城堡中避难者的人数.对所提出的这种方法的验证是用同样的方法独立地估计了修姆因庙里的避难者人数(这里的人数要少得多),得到了很好的近似值.
这个基于盐量的估计方法思想来自森古普塔(J.M.Sengupta),他长期在印
度统计研究所工作.统计学者所给出的估计值对政府做出行政管理决策时非常
有用.这也提高了统计学的威信,从那以后,统计学受到政府的大力支持,可以说,这个估计方法对印度统计学的发展做出了很大的贡献.
这里所用的方法在任何教科书中都没有记载,是一个非惯例且很巧妙的方法.这个思想的背后是统计的推理或定量的思考,或许也可以说包含了一种艺术成分吧.
20. 血液检查中的经济学
第二次世界大战期间,必须招募很多人到军队,要检查申请者中某种罕见的疾病需要对每一个人进行血液检查,这无疑是一项巨大的工作.尽管被淘汰的比率很低,但这个检验是决定一个人是否能参军的关键.如何保证“有问题的”会被淘汰掉,同时又减少检验次数呢?这在教科书上是没有答案的.这里介绍一个统计学家富有才气的解答.
假设申请者中平均20个人中有一个人患有此病,也就是说,将申请者20个人分为一组,对每一组进行20次血液检验,则平均每一组有一例呈阳性.显然,如果把几个人的血样混合起来进行检查,仅当至少有一个人的血呈阳性时混合血样才呈阳性.代替20次单个检验,我们把20个人分为两组,对10个人一组的两个混合血液样本分别进行检验.平均来说,此时一个混合样本呈阳性,另一个呈阴性.然后仅对呈阳性的混合样本进行单个检验,以确认哪一个人的血液是阳性的.这样,对每20个人一组平均仅需2+10=12次检验,即减少了20次中的8次(或减少40%).可以看到,如果把20个样本按5个一组进行混合,则平均实验总数仅有4+5=9次,这是对20个申请者一组进行检验所需次数的最佳值,减少了11次,即55%.
类似上述问题的求最佳值过程依赖于要调查疾病的流行率.如果假设某种疾病个人患病的比率为,则进行血液检查时,混合样本人数大小的最佳值应为使(1)n(1/n)最大的n.得到最佳值n一个最好的方法的过程,是对不同的n列表求出函数(1)n(1/n)的值,选择其中最大值所对应的n.
这个思想非常漂亮,可用于其他领域.例如,常常要对来自不同水源的水进行检验,确定是否被污染.按上面所描述的混合样本和分组的试验手段,则有可能在不增加实验设备的情况下,检验大量来自不同水源的样本并能做出精密的检查.混合样本检测的方法现已广泛实践于环境保护研究和其他领域,用于削减实验检测费用.
21. 家庭人口、出生顺序和智商I.Q
过去20年中,人们对中学高年级学生的平均SAT(学业才能测试)成绩降低已经有一些研究.为了解释这个现象,在一些国家收集了子女SAT成绩以及可能与之相关的父母的职业,家庭人数和出生顺序等数据.下面表5和表6给出了两个相关研究的数据.
表5和表6的数据表明:成绩随家庭人数的增加一般在降低(表6中家庭仅有一人的情形例外),随出生顺序的增加而降低(表明后出生的不如先出生的聪明).
有争议的是,比起早出生的来说,是否后出生的子女是在较低智商的环境中成长的,这里考虑的智商环境是父母与较早出生子女智商水平的平均值.可以认可的一种情形是随着增加子女间年龄的间隔其影响是可以逆转的.因此,仅取决于年龄来判断智商水平将使得早出生的子女高于晚出生的子女的好几倍. 表5 英国家庭人口中按子女人数分类计算的子女平均智商I.Q.
表6 1965
22. 令人悲哀的数字
不要告诉我那些悲哀的数字,人生不过是一场空梦.
朗费罗(H.W.Longfellow)
今天,通过报纸、杂志和其他新闻媒介,我们已经能不断地认识到我们的饮食习惯、运动、吸烟和饮酒的习惯,以及在工作单位和其他日常活动中所受到的压力对我们的影响.这些信息,常常用带有单位的损失或增益的数值来表示.下面,从Cohen和Lee(1979)的文章中我们抄录了一些悲哀的数字.
我们如何解释这些数字呢?这些数字传达的是什么信息呢?个人如何利用这些数据形成自己的生活模式来增加幸福呢?(参见表7)
首先,考虑表7中的第一个数字,即未婚男性平均寿命的损失.这个数字通常可以由死亡纪录中有关死者的性别、婚姻状态和年龄的信息中得到.灾难性的死亡纪录中,只须分别对已婚和未婚简单地计算平均死亡年龄.这些平均数字的差
为3 500天.这个结果可能给未婚者一个危险的信号,说明结婚的惯例是好的,而且为某些人的早结婚可大约延长10年寿命的建议提供了一个强有力的根据!然而,这里并不意味着这个原因(结婚)和结果(延长10年寿命)的关系适用于每一个人.十分可能的是,对某个人来说,结婚就意味着是自杀!毫无疑问,如果按照男性的个人特征进行分组所做的死亡纪录,会得到有更多信息的更好的列表结果.一般来说,不同的组寿命的长短也不同.每个人可根据自己的特征,参照与自己的特征相似的分组的数字进行分析.
表7 不同原因所引起的寿命损失
从表7可以看到,惯用左手的人比惯用右手的人少活约9年.这意味着惯用左手的人在遗传上有什么问题吗?恐怕不是吧:这个差别或许是由于惯用左手的人生活的这个世界,即绝大多数日用品都是为惯用右手的人的方便而生产的
不利因素所造成的.但是,统计信息对那些惯用左手的人是有用的,保护自己免遭可能的危险.
一般说来,平均值是把个体组成的集合(总体)视为整体的一个概括特征的指标,可用于比较各个不同的总体.我们可以说,平均月收入1 000美元个体组成的总体比平均月收入500美元个体组成的总体富裕.但是,平均值对个体之间个人收入的差别没有任何评价.例如,个体的收入可以在20美元到100 000美元之间变动,而平均值为1 000美元.一个总体内,个体之间收入的差别称为变异(variability),也是与总体之间的比较有关的指标.绝大多数情况下,平均值和某些变异的量度(如收入的范围),可以提供一些实际水平的信息.平均值自身有可能是靠不住的,因而在对个体进行判断时并不总是有用.可以想象一下,如果让一个不会游泳的人涉过一条平均深度浅于他的身高的河,会是什么情形!
23. 天气预报
可信赖的天气预报员将他们的麦克风移近窗户,从而决定是否采用官方的预报或是根据他自己对窗户外情形的判断来预报.
几年以前,天气预报用的是笼统的表达形式,诸如:明日有雨,明日可能有雨,明日不会降雨等等.天气预报经常出错.今天,天气预报采用了不同的形式:明日有雨的可能性为60%.这个60%意味什么?这样的预报比起早期的预报形式来说包含更多的信息吗?或许,对那些完全不知道“可能性”代表什么的人来说,今天的天气预报会引起混乱,甚至会产生今天的预报不如过去准确或是不如过去有用的印象.
天气预报中,无论怎样都会有不确定的因素.因而,从逻辑上讲,没有给出预测精度的预报,对决策来说是毫无意义或者是没有用的.天气预报中,60%这个数字提供了预测精度的一个量度.作出这样的预报,常常意味的是明天有60%可能会降雨.当然,不可能断言某一特定时刻会降雨.在这个意义下,预报“明日有雨的可能性为60%”更有用,比起“明日有雨”的笼统说法来更有逻辑性.那么,在什么意义下这个叙述是有用的呢?
假设基于天气预报“明天有雨的可能性为60%”的情形下要决定是否带伞.再假设无论哪一天,由于带伞所引起的不便能用钱来量度,设为m元,而由于没有带伞被淋湿了的损失设为r元,则当降雨的可能性为60%时,以元的形式求出两种决策下所期望的损失为
决策 期望的损失
带伞 m
不带伞 0.6×r+0.4×0=0.6r
因而,当m≤0.6r时,决定带伞,m0.6r时不带伞,可以最小化你的损失.
这是一个简单的例证,说明如何利用预报量度的准确与否,来加权处理不同的可能的决策下所产生的如果,从而选择最佳.如果在预报中,没有指定不确定的量度,就没有基础去做出一个决策.
24. 社会舆论调查
即使我下定决心,我仍充满了犹豫.
奥斯卡·列文托 (Oscar Levant) 过去,当权者们利用侦探系统来查明公众的观点.或许,由此所收集的信息帮助他们形成公众政策,制定和实施法律.现代的社会舆论调查的历史,是由盖洛普民意调查的第一个报告开始的.今天,社会舆论调查在报纸和其他新闻媒介中已经扮演了一个非常重要的角色.他们收集公众对各种社会、政治和经济问题上的信息,出版摘要报告.这样的舆论调查在民主政治社会中能起到积极的作用.他们可以告诉政治领导人和官僚们什么是公众的需要,什么是公众的爱好.他们也向公众报告新闻,通告公众的想法,或许可帮助在某个重要的问题上明确表现公众的观点.
通常以某种特定的统计形式宣布公众舆论调查的结果同时需要一定的解释.例如,播音员说:
赞成总统外交政策的人占42%,正负误差界限为4%.
代替给出单个数字,这里播音员给出一个区间(42-4,42+4)=(38,46). 这是如何得到的?如何解释呢?
假设所有美国成人中,实际赞成总统外交政策的比率为数值T.为了了解T的大小,必须接触每一个美国成人,得到他们对“你赞成总统的外交政策吗?”这样问题的反应.如果必须要得到一个限时的、迅速的答案,这是不可能的.最好的方法是求出一个最接近于T的估计值.新闻媒介对某一数量的“任意选择的个体”进行电话采访,得到他们的答案.如果接触了数量为n的个体,其中有m个人回答“赞成”,则T的估计值可为100×(m/n).当然,这样的估计是存在一定的误差的,因为我们所取的仅仅是某个集合中的样本(美国成人中很小的一部分).如果接触另外的n个人,可能得到不同的估计值.如何求出估计值的误差呢?基于两个统计学家内曼和阿·皮尔森发展起来的一个理论,我们可以算出一个数字,使得T的真实值以很高的概率,一般为95%(或99%),落于区间(100×(m/n)-,100×(m/n)+)之内.也就是说,这个区间不包含真实值的事件,等价于在装有5个(或1个)白球,95个(或99个)黑球的口袋中随机地抽取一球,抽得白球这样一个几乎很少发生的事件.
社会舆论调查的有效性,基于所选择个体的“代表性”.十分明显的是,调查的结果是依赖于所选择个体所属的政治团体的(民主党或共和党).即便假设所选择的个人的政治所属是没有偏差的,如果有些个体不回答问题,有些又恰恰属于某些特别的政治团体,则结果也会不同.任何调查中,都有不同程度的不回答者,这种场合下要评价误差是困难的,除非有更多的可利用的信息.
25. 迷信和心理作用
当问到伦理学家斯马利安(R.Smullyan)为什么不相信占星术时,他
说他是双子星座的人,双子星座的人绝不会信占星术.
我的一个朋友是一个虔诚的基督教徒,他把刚参加工作得到的第一个月的薪水全部捐给了教会.当我问他是否相信上帝时,他回答到:“我不知道上帝是
否存在,但相信上帝的存在并以此来行动,是安全的.”或许,信仰和迷信在每一个人的生活中都存在,一旦当它们变成一个人行动的唯一指导时,就会产生危险.
心理作用会对一个人身体的生物功能产生影响吗?很遗憾,这个问题还没有实验证据.但是已经不断有研究报告涉及支持所谓“心于物质之上”的谈论.最近有一个研究报告,圣地亚哥的加利福尼亚大学的菲利普斯(D.Phillips)花了25年的时间,对老年美籍华裔妇女在一个重要的节日——中秋节前后的死亡率进行了调查,他发现节日前一周死亡率比通常低35.1%,节日后一周死亡率比通常高出34.6%.看起来,人具有一种能力来延续死亡直到经历某个吉祥的时刻.
在菲利普斯较早(1977年)的研究中,对1 251个著名的美国人的出生和死亡月份数据的调查的论证也有类似的结果.表8给出了菲利普斯报告的数据,以及英国皇家学会中印度籍会员的有关数据.
表8 出生月前后以及出生月间的死亡率
样本1 《400个著名美国人》中所列出的非常有名的人.
样本2 《现代名人录》(Who Is Who)三卷中(1897~1942,1943~1950,1951~
1960)著名家庭中的家长.
样本3 英国皇家学会中去世的印度籍理事.
从表8可以看出,出生月前去世的人数比在出生月中和出生月后去世的人要少.这个现象在最著名人物的集合中是比较显著的.整个数据看起来显示了一个趋向:延缓死亡到诞生月后.
这些研究结果是否显示一些人能够运用他们的能力延缓死亡日期,直到某个重要的事件发生,如生日、节日或纪念日.与这个类似的一个著名例子是有关托马斯·杰弗逊(Thomas Jefferson)的报道,据说他延长了他的死亡直到1826年的7月4日——刚好独立宣言签字后的第50年,他仅仅问了医生:“今天是7月4日吗?”就去世了.
像菲利普斯发表的这样有关死亡日期的研究报告,并不一定能说明整个问题.研究工作中,普遍的是有很多研究者在研究同一问题,或许是偶然地,仅仅发表了那些肯定的结果.而那些否定的结果一般没有报道,保留在文件夹里,成为“待考”的问题.因此,如果仅仅引用发表了的结果,要从中得出什么结论的话,均需谨慎处理.
26. 统计学与法律
一般,不了解法律的是下面三种人:制定法律的人、执行法律的人和那些破坏法律而遇到麻烦的人.
哈利法克斯(Halifax)
最重要的不仅是要执仗正义,而且要使执仗正义可视.
过去10年中,统计概念和统计方法,在民事诉讼中解决复杂的问题时扮演了重要角色.典型的例子是:有争议的父权之认定;在雇佣和住房均等上对少数民族的歧视的申述;环境和安全的规则;反对不实广告,保护消费者等等.所有这些诉讼中,辩论都是基于统计数字以及对这些数字的解释.一个法官不得不决定所提供证据的可信程度,并做出适当赔偿的合法裁定.这个过程要求所有与案件有关的当事人、辩论的双方以及双方的律师,或许最重要的是那些做出裁定的法官,在某种程度上了解统计学,以及应用统计学时经常面对的困难.
让我们来看艾松(Eison)的诺维尔(Knoxville)市的例子.这里,一个女学生抱怨诺维尔警官学校在进行强力和耐力测验时,对女性有歧视.她提出的证据是表9中她所在班级的测验结果.
她说,因为比率0.666/0.919=0.725
表9 原告班级的合格率
表10
法官当然有权说参加测验的是“全体人”而不是一个特殊的“子集合”.这是一个典型的例子,即当事人所选择的进行诉讼的部分数据,与整体数据结果不同.
通常,在一个特殊的量度或概念之下,基于对总体中个体一小部分人的调查所产生的定量的证据是以平均值或比率的形式出现的.所引用的数字能代表总体作为一个整体的特征吗?这在很大程度上是依赖于所包含人数的充分性,同时,选择这些人时要不带偏差.
在应用总体的样本估计值时,要求对所组织的调查过程进行详细的检验,
如所抽取样本的代表性的保证.以及为了保证估计值一定的精度所抽取的足够的样本量.如果法官能对抽样调查方法有一定的了解,则他们能够在各个诉讼案情中,决定是否采用或者拒绝样本估计值,从而做出更公平的裁判.这里并没有提议一个法官必须是一个有资格的统计学家,但是对统计推断以及在做出决策时对所包含的不确定性的知识的了解,是一个法官的财富,使他能够在提出的有关统计数据的辩论中形成自己独立的判定.
在任何裁决中,当给出所有的证据时,都需要对一个事件为真的证据或可能性的程度进行评价,而且在做出决策的同时,必须考虑把有罪的人误判为无罪、无罪的人误判为有罪的影响.涉及证据的各种程度的标准用语可表示如下:
⑴ 占优势的证据;
⑵ 清楚和使人信服的证据;
⑶ 清楚,无任何暧昧和使人信服的证据;
⑷ 无任何怀疑的证据.
为了验证法官一般如何解释这些证据的标准,维因斯坦法官向他所在地方法院里工作的同行们进行了调查,各种证据标准的概率可表示为百分数在表11中给出.
从表11中可以看到,法官对4个标准给出的概率是一致单调增加的.然而,对较高的证据标准程度的概率分配,法官之间存在着一些差异.
实际上,统计学中存在一种称为贝叶斯过程的巧妙的统计方法,一个法官判定某人有罪的先验概率能够由给定信赖程度的新的证据进行修订.这个在新证据给定条件下修订后的概率称为后验概率,是做出决策时主要信息的来源,统计学中贝叶斯决策理论的发展似乎对公正执法提供了一个客观基础.
表11 纽约东部地区法院法官对各种证据标准的概率表示
27. 超灵感与惊人的巧合
宇宙,与其说是由逻辑,不如说是由统计的概率来支配的.然而,这对宇宙来说仍然是了不起的.如果人生就像掷骰子连续出现几百次6,我们知道这样的事件在如此众多的世纪里不会再发生第二次;但是我们也知道,没有破坏宇宙的计划,今夜在这个房间里,可能发生连续出现几百次6的事件,这是令人安心的.
切斯特顿 (G.K. Chesteron)
我们常常会看到一些报道说某人具有超灵感(ESP: Extra Sensory
Perception)可以透视他人的内心之秘密,占星术做了准确的预报,某人有4个月内连中两次彩票的惊人的好运.这样的事件制造新闻,可能会引起读者的兴趣,那么,是否显示存在着某种隐藏的能力引起这些事件的发生呢?
也许完全否认某些人具有的超能力(如ESP)存在的可能性,或者是某人出
生时刻所处的行星位置可以决定他一生所经历的一切事件的可能性是不慎重的.但是,这类报道只选择成功的例子并不能为这种可能性提供强有力的证据.
例如,考虑一个典型的ESP实验,实验者从两个物体之中任取一个放在纸板下,要求被实验者猜出放在纸板下的物体.这样的实验反复进行4次,则一个人纯粹由猜想得到所有正确答案的概率为1/16.这就是说,如果从一般人集合中任意选出64个人进行这样的实验,则有三、四个人以很大的机会猜中所有的正确答案.这样的实验并不是表明这三、四个人具有超灵感!但是,如果仅仅报告他们的结果会吸引我们的注意力!!
再看一个例子:如果你出席一个至少23个人的宴会,询问所有出席者的生日,你会发现他们中有两个生日相同.这似乎是惊人的巧合,其实通过概率计算我们知道发生这样事件的概率为50%.
在一篇发表于美国统计学会杂志(Journal of the American Statistical Association, Vol. 84,p.853~880)上的文章中,两个哈佛大学的教授,戴肯斯(Diaconis)和莫斯特雷(Mosteller)证明了绝大多数的巧合,如一度作为一惊人事件报道的美国某地某人在4个月内中了两次彩票,是在一定的时间内以相当小的概率发生的.
统计学中存在一种法则,它是这样叙述的:一次实验中以很小的机会发生的事件,当样本足够大时必然会发生,并且可以在任何时候发生,并不需要归因于任何特别的理由.
- 41 -