异常值检验
百科全书39 阅读
远远脱离数据剩余部分的观测值,称为异常值。异常值混入数据中的原因:①测量的错误,转抄的失误,穿孔的谬误;②抽样不合理,混合分布;③考虑原来分布边缘的重要性、处理回归分析、方差分析等结构的数据时,忽视了交互作用;④模型的定式化不充分时也会产生异常值。异常值对正态性假设的通常推测法(推断、检验)影响很大,在数据分析上,检验出异常值非常重要。为此,从探索性数据分析角度出发,仔细研究数据是有效的。为了评定异常值的偏离程序(异常性discordancy)进行检验。此时,常以正态性为前提,在存在异常值的条件下,检出力可看作是大正态性检验统计量。主要示例如下:①斯米尔诺夫—格鲁布斯(Cмирнов—Grubbs)的舍弃检验。X(1)≤X(2)≤…≤X(n)为顺序统计量,S2为无偏方差时S2=n ∑ i=1(Xi-■)2/(n-1)按(■-X(1)) /S或(X(n)-■)/S判断X(1)或X(n)的异常性。②狄克松(Dixon)检验,适当选择p, q, r,s采用(X(p)-X(q)/ (X(r)-X(s) )。③非对称性■与尖峰b2,容量为50水平的样本,因1—2个异常值往往成为显著的。可用格鲁布斯检验,在存在多数异常值的条件下,由于“遮盖效果”应注意检出力降低。对多数异常值检验有许多办法。