统计方法
统计方法是根据一定目的采集数据的方法,以及通过数据分析,得出为其目的有用的信息所用的数学方法的总称。在实验设计法与时间系列数据分析方面,著名学者鲍克斯(G. E. P. Box)的如下基本思想:所谓科学研究就是提出假设或理论,为验证假设和理论,要有针对研究对象收集数据的阶段;还有分析这些数据并确认假设与理论正确与否,有必要时还要加以修正的阶段,并伴随着与返复反馈的学习过程。即使没有统计学,这种返馈循环也是一种功能。然而,使功能更加圆满,促进研究的有效进行是统计方法的目的。当然,质量管理中有所谓PD-CA(计划、执行、检查、处理)管理循环的方法。这种方法不管是科学研究、技术开发,不管对何种客体发挥作用,都是让人们自己提高向上的通用过程。在日本出现统计质量管理(SQC)的名词,从质量管理的启蒙时期就认识到上述含义的统计方法的重要性。即使是对实干家的质量管理教育,统计方法也占了很大份量。但是,普及与徒具形式相当于光和影的关系。除了采集数据法与实验设计法之外,奈曼·皮尔逊(Neyman-Pearson)等的假设检验论是统计教育的中心。因而,在统计预测方法中就不易徒有形式。假设检验的方法也总结成流程图写入教科书。如图1所示,■开始,①假设的建立;②计算统计量;③看表决定是否显著;④最后结束(适合实干家的教科书与工作程序集往往采用这种记载)。前面提到的鲍克斯(Box)论述了数据分析本身的反馈循环。如图2所示,左边的方框是分析者将已有的事前信息实现定型化部分,具体说来,就是选择分析用的测量项目(变量),模型的数学定型和相应的假设的建立,对有兴趣的命题,通过假设来表现。上面的箭头说明建立(假定)的模型适合于数据的过程。适用的结果、数据带有的信息、参数估计值与检验结果(采取将未知参数看作随机变量的贝叶斯(Bayes立场)都会集中到事后概率分布。下面的箭头是假设的模型对实际数据偏离的检出部分。模型是现实的近似,不存在完全等同的模型。但是,某些模型比另一些模型可能更近似。不用说,用偏离大的模型来理解现象和预测结果的可靠性很低,模型与数据之间有没有大的差距?如果有的话,是什么样的差异,如何修正模型都是要研究的过程。如图1所示,伴随着所示单纯理解的统计方法,做出判断的主体是否已从分析者(例如:本来应是润滑剂或通讯的工具)转移到统计方法上来。因此,认为统计方法如图1所示是以假设检验为中心时,现场一方当然对其有效性会提出疑问。作为现实的目标“有意义”和统计的显著性是有区别的。统计方法与建立数据的方法及其分析法有很大的区别。认为数据在本质上内部存在内在偏差,但经过尽可能严格的处理,可得出可靠的数据,实验设计法就是其标准调查法。制订良好的数据收集计划,此外,按照计划收集数据便于连续地进行分析。在进行单纯的图表思考或总的统计量的比较,方差分析和调查数据时,通过利用频度表与交叉表,可完成八成以上的分析。然而,由于最近全面质量管理活动的普及作为质量管理对象的数据质量和类型,其范围迅速扩展。所得结果的数据未经检查就处理的机会增多,因此,渴望有解决这类问题的分析方法。这是由于期待采用开始于数量化理论的多变量(多因次数据)分析方法。分析用的统计方法很多。但能适用于特定场合下的方法,往往是实用家所感到烦恼的问题。在数据分析时,数据类型与性质主要决定于所选用的研究方式、方法。此外分析者所具有的固有技术知识的质量和数量,对分析方法的选择构思模型过程,对结果的解释有很大影响。显然数据分析的目的是多种多样的。因此可适用于所有情况的统一数据分析系统是不存在的。在什么情况下,把叫做什么方法编出来“指南”也是不可能的。把分析数据的目的归结为“模型选择”,也有通过某种数学规则的计算来完成一切事情的立场,看起来通常不会成功。著名数理统计学家雷曼(E. L. Lehman)根据事前信息的多少,数据分析研究方法。大致分为:①探索性的数据分析;②统计推测(估计与检验);③贝叶斯(Bayes)分析。后来果然得出较过硬的结论而且是更详细的结论。因此,在现实情况中更具体的结论,是以不确切的假定为基础的。分类是重要的,但不能一成不变。需要掌握各种方法或者使方法具体化的各种分析方法的特点及其相互关系。计算机硬件与软件两方面发展和其他领域一样,对统计数据分析的状况有很大的影响。例如,①由于计算过程实现程序化,将分析者从“计算”中解放出来,通过优秀的统计的软件包的登记注册,几乎就不需要烦恼的程序维护与开发;②强调在数据分析时诊断的重要性;③开展用图表示数据的研究,已开始实际应用并取得重要成果。特别对于第①点,由于理解不够和操作错误而得错误结果,却往往反而埋怨是统计软件包的危害。但是,目前还没有比这个更好的方法。问题是对带有统计学的课题,如何制造连接统计方法用户和统计软件的接口。