关于当代统计学的几点思考(现代统计学论文)

内容提要: 本文考察统计推理方法的特点、统计学所具备的科学与艺术双重特性、以及电子表格软件对统计学应用的重要性等几方面,以加深我们对当代统计学的认识,更有效地使用它。

关键词: 归纳推理;数据分析;XD建模法

统计学是人类认识世界的基础科学之一,其重要作用在当代愈发显现:凡是通过对自然、社会及经济现象等从事观察而得到相关数据,并在此基础上进行分析、提炼有用信息,从而对所获数据做出合理解释的人类活动,都离不开统计学。统计学因此受到了前所未有的重视。

本文通过考察统计推理方法的特点、统计学所具备的科学与艺术双重特性、以及电子表格软件对统计学应用的重要性等几方面,来加深对当代统计学的认识,并试图在此基础上提出某些带有规律性的东西供读者参考。

一、统计学采用归纳法作为推理方法

“从统计学发展历史、从统计学原理、思想体系和方法来看,其大部分并不出自数学,而是来自对真实世界的观察、以及基于观察得到的各种形态信息的分析与推断方法,从而(使人们)更好地直接认识世界,这和数学仅限于利用形式逻辑来建立推理基础间接认知世界的思维方式有很大差别……。在认知世界的过程中,大多数结论或结果是通过观察和分析得到的,无需或无法用数学严格证明,即用科学的推断比用严格的数学证明更多更广。人类获取知识要经过从观察到认识、再观察再认识循环不止的过程,统计学的任务就是为人们提供这类从观察得到信息认知世界的一般原理和方法的。”鉴于统计学的这种特点,归纳推理在统计学中得到了广泛的应用。

因此,我们需要对归纳推理在统计学中的应用有一个较为全面的认识。

如同演绎推理一样,归纳推理也是人们获取知识的一种重要手段,但它和演绎推理有很大不同。对于前者,只要推理的前提符合客观实际(是真判断)且推理的过程遵守推理规律(推理形式正确),则其结论必然真实可信;对于后者,它是以个别(或特殊性)的知识为前提,推出一般性知识为结论的推理。需要指出,人们一旦超越观测数据而进行相应的推断,所表达的其实就是观测数据和相应推断之间的一种逻辑联系,这种逻辑联系显然不属于演绎推理,因为它并不声称由观测数据演绎地证明或否证相应的推断,而只给出在一定数据下对推断的支持,更重要的是这种支持可以在程度上有所不同。在给定条件下,一个事件无例外屡次出现的证据,比在同样条件下该事件只出现一次的证据,自然要强许多倍。我们可以把一组数据与相应结论之间的联系称之为概率,它在本质上可视为当代多值逻辑。

在科学研究乃至实际生活中,根据案例进行归纳推断的情形到处可见。换句话说,如何从经验和数据中进行学习,已经成为科学发展(以及人们的日常生活)所面临的一个基本问题。由于贝叶斯定理“后验概率 ∝ 先验概率 * 似然”抓住了要害,又满足信息时代的要求,它自然就成了科学推断的主要形式。

因此,我们需要对贝叶斯定理和科学推断之间的关系作比较深入的讨论。

普通逻辑通常是预先给定一组公设,以后所有命题都根据这组公设(不必每次重述一遍)进行断定。但在概率论中观测数据及所考虑的命题假设均可随时改变,因此有必要把有关的数据清楚地表示出来,即命题假设关于给定数据的概率等于某一个数a。而为了和加法规则相容,表达信念程度的数允许在0及其某正数(常取为1)之间选取。

如果在数据变动的条件下考虑关于不同命题的相信程度,就需考虑数据变动的后果,此时要求考察概率时所用的数据不能自相矛盾。如果在数据中存在自相矛盾,应采用演绎推理予以检查并作相应的修正。显然,观测数据本身不应该有矛盾,但在两个假设之间或在观测数据与假设之间却可能存在矛盾,而这些假设正是有待检验的。

实际上,所谓的贝叶斯定理就是乘法规则的直接结果,若将贝叶斯公式具体写出则很容易理解该定理和科学推断之间的种种关系。

自然,由归纳推理做出错误断言的事例也屡见不鲜,而科学的进步,在很大程度上正是依靠深入研究被归纳推理做出错误断言的事实而取得的。科学的进步是没有终结的,它是一种不断逼近的过程。实际上我们只需把所研究的某种学科的定律用最普通、最简单的形式表述出来,而后随着经验的增加不断地修正这些定律即可(此即“简单化原则”)。这种作法不仅能避免自相矛盾,而且唯一可行。

总之,从经验中学习并据以做出超越直接由感官所获信息的推理是可能的,先验概率可以用多种方法无矛盾地加以指定,而要求所考虑的命题关于某一经验事实有正概率亦已足够,要解决的问题是如何找出最能满足研究目的的先验概率。(“劝说某人去不假思索地考虑贝叶斯方法并不符合贝叶斯统计的初衷。进行贝叶斯分析要花更多的努力。如果存在只有贝叶斯计算方法才能处理的很强的先验信息或者复杂的数据结构,这时收获能很容易超过付出,由此能热情地推荐贝叶斯方法。另一方面,如果有大量的数据和相对较弱的先验信息,而且一目了然的数据结构能导致已知合适的经典方法,即近似于在弱先验信息时的贝叶斯分析,则没有理由过分地敲贝叶斯的鼓“即过分强调贝叶斯方法”,S. Kotz,吴喜之《现代贝叶斯统计学(前言)》,中国统计出版社. 2000)。

在结束本节时我们再次强调,这里所说的数据都是和具体对象有关的,不是抽象的数据,抽象的数据没有任何意义。

二、统计学是收集和分析数据的科学与艺术

《大英百科全书》认为,统计学是“收集和分析数据的科学与艺术”。与传统定义——统计学是对数据进行收集、分析及解释的数学分支——不同,《大英百科全书》强调统计学的艺术性,重在说明为了灵活使用统计方法,人们不应满足于机械地套用公式,不能以教条式的态度来看待数理统计方法,而要充分依靠判断力以至灵感才行(陈希孺. 数理统计学简史. 湖南教育出版社. 2002)。

我们认为,《大英百科全书》的这个定义极其重要,它揭示了统计学的本质,为我们在信息时代深入认识统计学从而更好地使用它、发展它提供了依据。

现试举几个例子来做说明。

先看赤池信息准则(Akaike InformationCriterion, AIC)。它是1971年由日本学者赤池弘次正式提出的,但这项工作开始于1968年。当时赤池弘次正在运用多变量自回归时间序列模型,从事正态噪声操作环境下水泥回转窑生产过程的统计识别研究。在此项研究中,他很快发现最主要的问题在于确定所用时间序列的阶数,以及需要多少历史数据才能预测水泥回转窑未来的工作状态。通过引进“最终预测误差”概念(FPE),利用某种统计方法估计模型的参数,进而得到预测的均方误差,赤池弘次得到了该问题的一个解答(Akaike H. Fitting autoregressive models for prediction. Ann. Inst.Statist. Math. 21:243-7, 1969),而FPE估计的最小化是通过对模型的定阶加以实现的。

1970年,赤池弘次应邀参加在前苏联亚美尼亚Tsahkadso举行的第二届国际信息论论坛。那时,他对把FPE扩展到因子分析模型以确定因子数目很感兴趣(因子分析模型肇始于心理学研究)。但是非常遗憾,因子分析模型的预测误差到底为何人们却一无所知。随着上交会议论文的最后期限越来越近,赤池弘次倍感压力。由于压力过大,他竟然接连好几个星期都长夜难眠。

1971年3月16日的早晨,赤池弘次坐上城际列车去上班。当他坐在座位上的一瞬间,他突然意识到因子分析模型中的参数是通过最大化似然估计出来的,而且似然比对数的均值恰与Kullback-Leibler信息数有联系。于是,赤池弘次考虑用Kullback-Leibler信息数替代预测均方误差。这样,一种新的衡量统计模型预测质量的方法应运而生了。其定义由下式给出:

AIC = (-2) loge (最大化似然) + 2 (参数数目)

在AIC表达式的右边,第一项反映拟合的优劣,增加模型的复杂性(即参数的个数)有可能使这一项减少;但模型的复杂性由第二项来处罚,最优模型即极小化AIC是这两项间的一种权衡。

事实上,基于观测数据选择最优参数模型的AIC,是20世纪统计学的重要发现之一,它具有一般性和简单性的特点。用AIC作为选取模型的准则已经在各个领域,例如水文地质学、地理学、工程学,计量经济学、心理学和医学等得到了广泛的应用。可以证明AIC有独特的优越性,这也是AIC被越来越多的成功引用的重要原因。

我国著名统计学方开泰教授发明的“均匀试验设计”方法(与王元院士合作),堪称体现统计学兼备科学与艺术特性的又一个成功典型。

1978年,航天部三个导弹指挥仪的模型设计需要一种新的试验方法。例如在“舰-舰导弹火控系统数学模型研究与设计”中,提出一个五因素的试验,其中每个因素要求分10个以上的水平,而试验次数又要求不超过50次(如果采用“正交试验法”必须做100多次试验)。受华罗庚与王元合著的《数论在近似分析中的应用》一书的启发,方开泰教授敏感地意识到华、王的这一思想和试验设计有共同之处,数论方法能够应用于试验设计。经过和王元院士三个月的合作,“均匀试验设计”这一全新的试验设计方法问世了。其基本思想是只考虑试验点在实验范围内“均匀散布”而不考虑“整齐可比”,因而可以大大减少实验次数。利用它不但满足了上述设计需要,而且在以后我国国民经济和自然科学的其他研究中, 也连获佳绩,迄今已累积2000多成功案例。该项成果获2008年度国家自然科学二等奖,并引起国际同行的广泛重视,特别地,国际著名统计学家C. R. Rao在主编《统计学手册》时,曾邀请方开泰教授撰写一章,专门介绍均匀设计的理论和它在工业中的应用。

有趣的是,国际同行几乎在同一时刻也遇到上述系统工程中复杂的难题,他们于1979年提出了“超拉丁方抽样方法”,其均匀性布点思想与均匀设计如孪生姊妹,只是前者是随机布点设计,而后者是(利用数论知识)确定性布点设计。它们现在都已成为计算机仿真试验的主要方法。可见,即使对于同样的问题,统计学家所提供的解决方法也可以很不相同(尽管它们都能奏效),从而呈现出某种体现其独特学养的“艺术”品质。

从上述两例我们看到,赤池弘次因为任务紧逼而做了较长时间的专注思考,一天早上突然顿悟!他的这一“灵光闪现”,实质是其思维中心与思维边缘在看似无意间发生碰撞,迸发出了智慧的光芒;而方开泰教授发明均匀设计则是交叉研究取得成功的案例,只有对数论方法和试验设计均具备扎实精湛基础的学者,才有可能迈出这充满想象力的重要一步。这种“艺术”特性,非具备精准捕捉不同学科间共性的统计学家莫属!

事实上,近年来这种统计学方法创新的动人案例还有许多。例如,美国统计学家Efron受重抽样jackknife(刀切法)的启发,发明了bootstrap(自助法);范剑青教授综合整体建模和局部建模的长处,首创了“局部建模”法而为非参数统计奠定了理论基础,等等,均属此列。这就启发我们,在鲜明的时代背景之下,研究人员如果具有解决问题的强烈愿望,而且如果又能像艺术家那样,充分发挥想象力,及时捕捉灵感,则由他们发明、创造出新的统计学方法,就不足为奇了。本文希望这种受研究背景与动机刺激、推动的统计方法创新,能够引起我们的高度重视。

三、统计学的应用离不开电子表格软件的支持

我们认为,随着以Microsoft Excel为代表的电子表格软件的普及,现在许多统计分析工作都要以Excel为平台才能完成,而熟练掌握Excel并熟悉至少一种统计专业(可编程)软件,已成为当代统计学人才必须具备的基本素质之一。统计专业(可编程软件)的采用在于它的应用针对性,如Eviews是专门用于计量经济分析的,SPSS是专门用于统计分析的;而采用Excel的原因是,“Excel是一个代表了当代最高水平的、既高效又方便的定量化决策分析工具。一般地说,通用软件在特定领域中的功能很可能不如那些为该领域应用而开发的专用软件强。但Excel却与众不同,它除了作为一个通用软件具有良好的财务报表制作功能、常规的数据统计汇总功能、列表(数据库)处理功能与相应的图形制作功能等之外,在决策模型的建立与相关的数据分析方面所具有的功能,决不比许多专用的决策分析(与统计分析)软件包逊色。Microsoft Excel的这种既是最流行的通用软件又是功能极为强大的决策分析软件的卓越性能,使它成为广大财经管理人员提高定量化决策分析能力的首选软件工具。”( 王兴德. 电子化商务决策. 清华大学出版社. 2003)

顺便指出,Excel 2007已享有更大的电子表格行、列容量:它已有2的20次方行(1048576行)、2的14次方列(16384 列),可以导入和处理大量数据,借助对双处理器或多核处理器的支持完成包括随机模拟在内的、更为高级的计算与图形处理任务。

除了通常的统计计算离不开电子表格,就是某些函数的表示离开列表或模拟也无法表示,维纳过程就是这样的例子。

周知,维纳过程(用W(i)表示)是一个离散的随机游走过程在时间间隔趋于零时的极限,其导数是一个在时间上连续的服从正态分布的白噪声过程。维纳过程是一个抽象概念,并不是一个在实际中可以实现的过程,故W(i)的函数很难用通常的解析法表示,但却可以方便地用列表或模拟法表示其分布。

现在是重新认识查表法的重要性并在统计学中广泛使用该法(与解析法及图像法相结合)的时候了。然而,要高效率地应用Excel解决统计计算与分析问题,首先就需要一个适当的建模分析方法。综合国内外相关的文献并根据我们自己的经验,我们认为上海财经大学王兴德教授创造的“基于Excel的XD建模法”在应用上表现不俗,值得推荐(XD建模法是“基于Excel的、以科学方法论为指导的建模分析方法”之简称)。

我们认为,按照规范建立模型,结合实际问题用活Excel的公式与函数(特别是Match( )函数与Index( )函数的配合),并把由此生成的数据系列、由数据系列生成的图形及其动态调整,作为一个有机的整体加以把握,从而树立关于所研究的问题的完整认识并得到满意的解答,是掌握XD建模法的关键。

事实上,Excel是非常出色,它不仅是极具代表性的电子表格软件,还是集文字处理、数据分析、图表展示、科学计算等功能于一身的功能强大的应用软件,可以满足我们多方面的需要。我们认为,为解决一个不太复杂的统计问题而频繁改换软件的做法并不足取。

最后,我们以C. R. Rao教授在其《统计与真理——怎样运用偶然性》一书的一句话结束本文:

“在终极的分析中,一切知识都是历史。在抽象的意义下,一切科学都是数学。在理性的基础上,一切判断都源于统计学”。

参考文献

  1. Robert R. Pagano. Understanding Statistics in the Behavioral Sciences [M]. 北京. 中国统计出版社. 2002.12.
  2. Theory of Probability [M] [英] Harold Jeffreys著,龚凤乾译《概率论》.厦门大学出版社. 2014.

3. 范剑青,姚琦伟著. 陈敏译. 非线性时间序列——建模、预报及应用. [M]. 北京. 高等教育出版社. 2005.

4. [美]John Walkenbach著.盖江南等译. Excel2003高级VBA编程宝典 [M].北京. 电子工业出版社. 2004.

5. 程民德主编. 中国现代数学家传. 第四卷 [M]. 南京. 江苏教育出版社.2000. 544-559.

6. 王振龙. 统计哲学研究 [M]. 北京. 中国统计出版社. 2002.

7. 陈希孺. 概率论与数理统计 [M]. 北京. 科学出版社. 合肥. 中国科学技术大学出版社. 2000.

8. 范金城,吴可法. 统计推断导引 [M].北京. 科学出版社. 2001.

9. 张尧庭. 指标量化、序化的理论和方法[M]. 北京. 科学出版社. 1999.

10. 王兴德. 投资学原理及其计算机方法[M]. 北京. 清华大学出版社. 2008.

11. 王兴德. 基于Excel的XD建模法 [M]. 北京. 清华大学出版社. 2008.

12. 张晓桐. 计量经济分析(修订版)[M].北京. 经济科学出版社. 2000.