科驴助手

回归分析

分析两个或多个变量之间相互关系的一种统计方法。回归这个名词是由英国生物学家高尔顿最初提出来的。他在研究父母和子女个子高矮之间的关系时,统计大量资料后发现,父母个子高,子女的个子一般也高。他还发现,高个子的父母其子女的身高有低于父母的趋势。从整个人类来看,人的身高有回归于人的平均身高的趋势。生物统计学把这样一种遗传变异现象引用到统计预测上来,便形成了有名的回归分析方法。在社会统计中,运用回归分析要求先建立变量之间的关系式,即回归方程式,然后通过回归方程式,由自变量的数值去预测因变量的数值。回归分析与相关分析的不同在于相关分析中所得出的相关系数,只是用以说明变量之间相互关系的密切程度,而回归分析则是要得到变量之间数量上的联系方程式及其变化规律。在回归分析中,如果各变量值之间的数量关系在坐标系中能近似地形成线性分布,然后用回归方程式来表示它们之间的数量关系并进行分析的方式称为线性回归或直线回归。在直线回归中,按照自变量的个数的多少,可以分为一元直线回归和多元直线回归。一元直线回归和多元直线回归在社会学研究中都运用得相当广泛。 回归分析能弄清楚结果特征(解释变数)变化的平均值与一个或数个特征因素(解释变数)的依存关系。回归线是指按第一特征的平均值(这个值对应于特征因素的平均区间)而划的一条线。 当研究课题要求弄清楚一个特征的平均值在第二特征(或几个特征关系)变化为一时有多大变化,这时可使用回归分析。在社会学研究中回归分析可用来研究劳动生产率的社会因素,研究影响工作时间、自由时间、以及工作成绩等因素。回归分析能确定提高一级机床工人的文化水平,就要增长平均产量4%。回归分析只可用于数量变数的研究(被测的区间及变数),回归分析本身包括回归方程、评估及其分析方程在内。 1.建立回归方程。方程的基本阶段(步骤)如下(如我们探讨一对回归,即探讨描述一个特征因素影响结果特征的方程):1)联系方式的初步计划。在不大的子样本中,用图似法划出一条回归线。这种线性关系写成方程yx=a+bx,其中a表示方程的项,对方程中未考虑的因素的结果特征起作用,方程中的b表示回归系数;2)计算回归方程的参数(a和b叫做方程的参数)。为了求出参数必需解两个方程组:解方程组得出计算参数的下列公式:a=(∑y∑x2—∑yx∑x)/(n∑x2—∑x∑x)b=(n∑xy—∑x∑y)/(n∑x2—∑x∑x)例;设x为业务员的工作速度;y表示工作质量即误差数。假设我们对下面五个业务员的工作进行测定即:将a、b值代入方程y=a+bx,即得回归方程y=2.54+0.32x。 2.方程评介。为检验计算的准确性我们将 ■=(∑xi/n)=26/5=5.2代入所得方程。如果求得的参数准确,则得:y=∑xi/n=21/5=4.2■=a+■=2.54+0.32×5.2=4.2 把x1值代入方程,我们会求出计算值(理论值)yi(用■i表示)。在我们所举的例子中■1=4.14;■2=4.78;■3= 3.5; ■4=4.46; ■5=4.14。 可见,这些值近似经验值yi。为了更精确的作出评价应求剩余方差S2剩余=[∑(yi—■i)2]/n,方差可表示成评价所求方程的未知判据;而方程与经验数据近似。如果计算值■i等于经验值yi,那么剩余方差等于0。 3.回归方程分析。回归系数b=0. 32表明在增加单位时间、工作速度时,误差平均应增加0. 32。 方程的自由项a=2. 54表明,平均来看,2. 5个误差是方程中评估得到的结果。既然误差的平均数■=4.2,那么这种情况就占60%多,剩下40%左右是估计得到的因素。从分析中得出的实际结论是:工作速度的调节几乎不会涉及到2/3的可能性错误。应该分析一下对如工作条件、熟练水平、刺激作用等这些因素对质量所产生的影响。 工厂社会学家在研究质量经济等类似课题时,常常产生一些在上例中所探讨的类似问题。小样本(班组、职业团体、工段)运用回归分析能有效地完成工作,并根据报告材料(不是问卷调查)来制定有根据的建议。 在进行大量观察时(n>30),手工计算回归方程的参数劳动量很大。在评价结果特征与某些因素特征的关系时要作出多重回归方程。 方避免错误和节约时间,计算多重回归方程参数必须用电子计算机进行。这种情况下,系数的解释和成对回归情况下一样。

数学与计算机科学 · 相关知识