科驴助手

项目分析

百科全书16 阅读

(Item Analysis)爱用基于项目特征曲线理论的项目分析程序的案例,已在别处举过(见Item ResponseTheory) 。这里,只需一提这一情形便够了,即对测验编制中大量实际工作来说,直接运用赖以建立项目特征曲线理论的基本抽样统计学和原始项目反应数据本身,就够人繁忙的了。似乎有些自相矛盾,或许随着人们更好地了解这些方法与现代方法的联系,这些传统或经典的项目分析程序就更有价值。项目的难度变化像λ,系数就像二列相关,当人们认识到它们如何适合项目特征曲线理论,它们看上去就不再有何特别之处了(桑代克,1982)。当然,评价经典统计学的限制条件须防范任何过分解释结果的倾向。也许还要补充一句,将项目特征曲线理论置于初学者之手,功效并不明显。看来,使用经典方法的一定学徒年限,即使时间较短,也是必不可少的。1项目的难度就任一项目而论,由个体选择各选择项的数目以及称为“漏题”的未答题数的频率数构成原始反应数据。据此,我们可能立即计算出个体选择正确答案的比例或百分比。这个统计数便是项目的难度或容易度,采用难度或容易度视个人喜爱而定。或许称容易度比较合适,因为答对百分比越大,项目就越容易。像所有百分比一样,项目难度或容易度(通常以符号p表示)也有一个缺陷,即不能把所含量表看作按等距矫正过的量表,容易度分别为0.40和0.50的两个项目之间的差异(难度方面的强度)不等于,甚至小于容易度分别为0.10和0.20的两个项目之间的差异。量表的这种伸缩性既造成容易度比较中的误判,也排除对p的简单统计操作,除非用求和法估算整个测验平均值(见5.1节)。解决这一问题即直接测量项目难度的方法是,根据以下原理,将p转换成表面上的等距量表(亨利森,1971)。测验理论的一个十分普通的假设是,回答某一特定项目的能力在被试者总体中变动于能力的极低和极高之间。我们假设,根据图1所示的正态分布,被试者分布在该项目的连续体上。项目的连续体 图1被试者在项目连续体上的正态分布项目连续体是一个专对各项目的假设性构含,即测量解决所问项目的能力量表。然而,在实际工作中,它按比例p和1-p被二分为非对即错的两类,这点已在图1中阐明。Z值以标准分数的形式表示这个区分点。正态概率曲线值表是用来找到对应于p的Z值的,并用来表示答对该项目所必需的能力水平(与在该项目连续体上测得的标准分数Z一样)。表1—个项目分析的举例就表1中分析的项目来说,项目比例为p = 0.46。从常态曲线表上可查到,将此分布分为0.54和0.46两个比率部分的标准分数为Z=0.10(进入面积为0.04的范围)。这是项目难度指标。因为Z可以从—3到+3之间变化,所以就有将它转换为全部正值量表的捷便。均数的标准分数Z=0和标准差等于1,可以通过线性转换等式Δ=13+4Z转换成均数Δ=13和标准差为4的分数。实际上,Δ值将在6~20之间波动,数值高的表示项目难。在该例中,Z=0.1, Δ=13.4。这意味着,该项目稍高于平均难度。Z值的其它转换也是可能的;上述方法只碰巧为教育测验服务处采用了数年。其中之一就是50+10Z,它表示均值为50时的难度量度。将p值转换并非绝对必要。如果遵从其限定范围,那就任其自然。注意Δ并不像p那样,具有与均值这样的测验统计量数的直接联系,但这易于通过转换总分加以弥补而使之具有与Δ相同的均值和标准差。其它转换也是如此。2项目的区分度区分度指标是指告诉我们一项目把在某一潜在特质方面能力强的人和能力弱的人区分开来的力量。从操作上说,通常的程序是要计算出在一项目上的成功与失败与一被认为体现了这个潜在特质的测度的分数之间的二列或点二列相关。典型地且传统地看,这个测度便是项目所属测验的总分。但其它量度也行。其思想是被试者在一个项目上的得分与他们在该测验上的分数相关愈高,则该项目在区分被试者时就更为有效。很自然,这种关系是相对的关系,因为一个项目在某个测验中时会有较高的项目—测验相关,而在另一个测验中时相关就低,进而区分性也更差。因此,那些因为在项目选择背后的推理带有循环论证的味道而不满于内部准则的人便被劝告去寻求一个外部准则。相关有两种形式可供选择,尽管还有某些将予简要考虑的其它相关。点二列相关是一般的皮尔逊积差相关的特例,其中,把变量之一(试卷得分)看作连续变量,另一个变量(项目得分)可取两个间断值之一,典型的如答对计1,答错计0。点二列相关依据的假设是:两者都是连续变量,但其中有一变量在某一点上分成两组,一组为通过该项目者,另一组为未能通过者。通过者只有在具有更多项目量度的东西—即当足以逾越阈点而答对该项目时方被认为是不同于未通过者(桑代克,1982,p.71)。这两个连续变量都被假设为在取样的总体中遵守高斯正态分布。当将p转换为Z和Δ时,就已为二分化的量表项目连续体作出假设。注意,二列相关并不是积差相关的一种形式;应当把它看作一个联系量度。2.1 点 二列相关样本点二列相关的标准公式是:但采用其另一对等式可能更为方便:其中,MR=答对连续变量的平均值MW=答错连续变量的平均值MT=整个样本的连续变量的平均值ST=整个样本的连续变量的标准差p=答对项目或项目容易度的百分比。(1-p)通常也写作q。很明显,通过计算■就成为一个分离量度。它也是项目容易度的函数,且即刻看到该项目的效果。为了计算表1中这个项目的rpbis,可以直接在表底横行即“均数准则”栏中找到MR和MT值,其中,“准则”即测验分数。这些平均测验分数提供了有意义的补充信息。因而,选答A,即正确答案的平均测验分数是30.79,即为MR。同理,选答B的13个被试者得18.77的平均测验分数,使他们成为四个错误选择项组中的最低得分者。整组的测验平均值MT为26.02,列在“均数准则”一排的右末。标准差ST为8.96,表中未予列出。因而计算rpbis为:结果为0.49。问题随之而来,“ rpbis为0.49是好、是坏还是没有差别呢?”这是一个得出这种相关值要问到的合理问题。如果相关值是正常积差相关,那么我们可以在-1到+1的范围内来解释此值,该范围具有点二列性,但由于全距缩短了,所以派不了用场。如果全组分数呈正态分布,那么点二列相关决不会超过±0.8(桑代克,1982)。而且,可能的全距取决于通过者和未通过者的百分比,两者相差扩大,全距将缩小。当总分分布呈正态时,p=0. 1和p=0.25的rpbis的最大值分别为0.58和0.73(p=0.50时,rpbis为0.80)。如此说来,一个0.49的值标志着很强的区分度。2.2二列相关计算样本的二列相关系数的公式和点二列相关的公式两者非常相似:其中,各符号的意义如前;只有y不同,它表示在正好割除曲线下比例p所占面积时这一点上正态曲线的纵轴或纵高(见图1),公式中出现y是因为有关于基本变量呈正态分布的假设。这一假使通常可见诸于Z那样的统计表中。从理论上说,二列相关可以取-1到+1之间的任一值。负值通常表示计算的是错答数。大于0.75的二列相关值极少,尽管在非常情况下,通常因测验分数或标准分布的异常而导致二列相关也可高达1。就表1的项目来说,二列相关的估值为0.62,可以说大致与点二列相关值相同,表示区分力很强。2.3二列相关和点二列相关的比较正如可以在下式关系中见到的那样,点二列相关r总是低于二列相关r。根据这一公式可以看到,当p=0.50时,rpbis=0.82rbis;当p逐渐大于0.50时,rpbis围绕着rbis波动,尽管只有当p特别高或特别低时才会有这么引人注目的效应。虽然从一个系数或指数推算出另一系数或指数是一件很简单的事情,但有必要了解其各自利弊。当采用点二列相关r时,我们在项目连续体上考虑的只有对或错两个不同的位点。但在通过者与未通过者的差异更多地在程度上而不是类别,这就使得二列相关所依据的连续性假设更加合理,尽管其应采取特定的分布形式(正态分布)的要求更难令人信服。已经可以看出,项目难度使得点二列相关不纯。这不一定是坏事,实际上,可以证明,点二列相关值在项目对测验功能所作贡献这一点上提供相当多的信息,因为很易或很难的项目几乎难以区别能力较强和较弱的被试者。即使如此,也没有掩盖点二列相关是一个有效的难度和区分度的复合指数这个事实。那些坚持认为这两个概念不应该混合为一个单一指数的人(桑代克,1982),将偏好于二列相关。由于它较少受项目难度的影响,人们认为,从一个被试组到另一个被试组,二列相关可证明是不变的,或至少是比较稳定的。这必然是一个经验研究问题(洛德和诺维克,1968)而研究结果尚不可知。关于其价值如何,个人经验表明,即使是表面上平行的被试组,同一项目的二列相关估值可以在预期的“猜估”误差边际之外“波动”。称其猜估误差是因为没有一个真正良好而精确的估值适合于这个统计量——一个与之相对的分数。二列相关在项目特征曲线理论中(在估计曲线的陡峭参数的等式中)起作用,点二列相关则没有。与此相对,而且重要的是,点二列相关直接适应了多变量分析的代数计算(桑代克,1982)。当我们要从项目参数(见下)估计测验参数时,需要的正是点二列相关。这对本文所论及的这种实用项目分析来说,更为重要。确实,可以很概括地说,对实际测验编制目的而言,与某种有意义的测验总分参数(洛德和诺维克,1968)没有明确(简单明了)关系的任一项目统计量都是一个有限值。虽然二列相关和点二列相关各有弱点而且严重到若因异议所迫,则可以弃之不用的地步。实际运用者将会发现,只要不出现明显的非正态能力分布,那么大体上相同的项目将被采纳或剔除,其指数用来评价区分度。只有为构思具有合意的特征的测验分数时而选择项目时,正像对传统的团体测验情境来说,项目选择多多少少应该根据常模参照背景时,点二列相关才占优势。否则,最好的建议是,只用某一个统计量,了解其变化(有关抽样误差不大的有效信息),而且始终不渝。企图从一个统计量转到另一个统计量或同时解释两者,都可能是徒劳无益的。2.4其它区分度指数在以上提及的所有区分度指数中,最简单的无疑是D,或称之为纯D。就任一项目来说,如果ph是上27%最高得分的正确答案比例,p1是相应的下27%的最低得分者的答对比例,那么D =ph-pl。也许看起来有些怪,假设所测能力呈正态分布,且是一个很重要的条件,那么,摒弃分数分布的中间分数却能同采用整个分布一样地获得良好的结果,事实就是如此。附带说来,这也表明答对百分比更可能像21%,但即使如此,27%或更简便的25%不可能距最佳效果太远。重要的是记住:D统计量是为了满足一种简便的手工估计一个项目区分力的需要而发明的。对那些想要或需要以手工方法——而且至今仍是获得项目成绩“感觉”的好方法—来进行项目分析的人而言,可以说D与二列相关值非常接近,即使当基本分布为非正态时也是如此。与点二列相关甚至与二列相关一样,D指数取决于项目的容易度。具体说来,当容易度接近0或1时,指数D急剧缩小,此时必须谨慎地解释D指数,但这样一来,正如以上所提及的,测验编制者可能对这些项目不再有兴趣(桑代克于1982年提供了计算了D值的表)。那些更喜欢采用不受项目难度影响的区分度指数的人或许对等级二列相关系数感兴趣(亨利森,1971)。但是,当测验分数中出现常见等分时,那就会带来许多问题,并且它不适应于大样组(n>50)。我们还有许多其它区分度指数。近来蒙蒂·卡洛对10个这种指标的研究(比尤切特和门多萨,1979)的结论是,指标的选择应主要依据计算的方便和统计上有显著性的测验之需要而定。这种建议忽略了与测验参数联结的需要,应该予以慎重考虑,但可把它看作对“次要”指标应用的判断。2.5对假性估值的校正业已证明(亨利森,1977, p.150),项目分数与测验总分之间的点二列相关呈假性高相关,因为这两个变量都包含了项目分数。而且还证明,将项目得分从测验总分中迁出来并与剩下来的n-1个项目总分相关时,误解了表面校正,因为每当分析一个新项目,准则并不相同,每一维度的构念效度都会有所改变。为克服这一缺陷,已经证明的是,我们所需要的是各项目与共同因素(整套项目所测的潜在特质)之间的相关,且使之与问卷项目的任何特殊变异无关(桑代克,1982)。假性估值的校正量与n成反比,n是进入总分且与总分相关的项目数。当n大时——比如说40到50——相关就极小,以致不具任何实际意义。而且,校正将不会显著地改变相关本身的相对大小。因而将这些项目最终纳入一项测验的决定常常不可能因校正而改变(桑代克,1982) 。据说,如果计算机程序照例用于项目分析,那么就有良好的理由将校正公式纳入程序中,但这是有争议的。3.百分位数表不管编制什么项目统计量数,因为是总和,它们必定比我们所希望的信息少。显然,无穷数量的项目可有不同的反应模式,但却可具有相同的区分度指数或难度。其中的意思便是,过份地依赖项目统计量数是错误的;尤其是当它们不能描述不同成就或能力水平的人们如何对特定项目作出反应时。通过确定测验分数分布的百分位数,并根据这些百分位数的成员将项目反应分类,该表使用者可以看到不同能力范围间的项目变化,还能注意到失灵的迷惑选项,即图表无法表示出来的东西(见下)。这是一个非正规地处理项目特征曲线理论形式上更多地做了什么的问题,虽然它通常只限于校正反应。项目可能:(1)不能将较低者区分开来,有时不能将中等百分位组区分开来;(2)对较低百分位组有用,但提供不了多少或根本没提供关于处在高百分位的人们的信息;(3)以在百分位数表上剧烈波动的方式来区分被试者。举例的话,请看表1。提供资料的一个项目属于319人参加的、一份有50个项目的化学试卷。正确答案(以星表示)是选择项A,有146人选择,如该选择项下所示,答对百分数为0.46。因而,该项目的容易度为0.46,难度(δ)为13.42。正如以上所说,点二列相关为0.49。在迷惑项中,选E的最多(有82人,或写为0.26),然后依次是C、 D、 B。只有2人未答该项目。确定5个能力组——5是使用的方便数目,虽然分3组也行——俾使各组参加人数相等,或尽可能地接近相等,这意味着,除非分数分布呈长方形,分数间距总不会相等。但是,我们没有理由不根据相等的分数间距或某种有关基本的分数分布的假设来确定这些组。比如说,如果一个人想要坚持分数基本分布为正态分布,那么分离出来的组别将是中间部分人数最多,而两端最少。问题是,如果样本人数较少,分布在两端的任一不适变化将会被扩大或曲解。而且对此表的解释也会因各组人数的变化而更易出错。言归该表本身,有一个模式很明显。在正确答案A栏下,选择人数随着能力水平的提高而增加。在迷惑选项栏下(除D项外,因其趋势不清楚),呈现与此相反的趋势变化。这本该如此,如果我们需要项目以根据测验总分而区分个体的话。就该是这个模式。可是我们不要把该模式看作A下的,计数同另一迷惑项下的计数,或者更糟糕的是,同表中每一格中计数是相等的。假如这样,则答案的分布给我们提供了很多信息。相对说来,该试卷中能力最低组中选择B和C的的比其它各组都多得多,而且在能力最低组,选择正确答案的极少超过选择B和D项的,而能力高的两组几乎无人选择这两个错误项。就整体而言,从该表可以看出,无论是将被试者作整体看或分成能力组来看,错误答案,如有的话,也极少等量地分布在供选答的错误项中。也没有瞎猜的迹象,否则话,表中左上格的数字会很大——而现在是9——从而数目梯度会在底端上拉平,甚至在其它方面上变化(作者认为,大多数瞎猜都是有暗示的,而最好的指导便是要被试有多少问题就答多少。见伍德,1977)。于是提出这么一个问题,即是否有某个百分率,如果一个迷惑项被认为令人满意地“在起作”的话,则该迷惑项的分数就不应低于这个百分率。可是,如果在诸迷惑项间平摊的错误反应百分率是依正确反应百分率而变动的话,则不存在上述这个百分率。那就是说,凡5%或低于5%次序的错误反应数都该不用理会,因为这样的迷惑项对差不多每个人来说都是明显错误的,而我们应该研究的是更加似是而非的错误答案。还可以看出,在计算难度指数时,“漏答”一向是当作不正确反应来对待的。这是一项十分实用主义的决定。理论工作力求把漏答当作一种概念上截然不同的反应种类来对待是正当的,而有关漏答行为则仍有很多东西有待了解。但显而易见的是,百分位数表中表示出来的反应数据能使使用者注意到漏答水平以及谁在漏答(通过均数准则)。4.概括化的项目统计量数人们总希望查看百分位数表,但人们仍可问有否同时汇总了各种反应模式的方法。合适的统计量数便是点二列相关和二列相关系数的概括化,事实上它们已得到发展。为了计算点多列相关,每一反应选择项,包括正确答案在内,都被当作一个单一的称名范畴,犹如各自代表一个诸如眼睛的颜色那样的特征。另一方面,就作为二列概括化的多列而言,有必要在“对”、“错”程度方面将迷惑项分等或分级,使之较好的符合基本正态分布特征的假设。有疑问的是项目是否通常遵从这类等级顺序,至少不会是大规模的。当多重二分变量是某种像考试等级或等级评定这种有自然的测量顺序的东西时,多列系数一般最适用。点多列相关是比较合适的统计量,但计算起来相当繁琐(尽管它一次也未被编程)。关于它是否比一般点二列相关更富有信息量,那是另一个问题。这种感觉就是在常规的项目分析中,这些概括化的统计量数也不具多大价值。使用者也会去掉为每一迷惑项计算的点二列估值,而某些项目分析程序倒确实提供这种信息。5据项目统计量数估计测验参数这有三个方面:第一,测验参数和项目统计量数之间有代数关系;第二,在项目选择过程中利用这些代数关系来(有希望地)推出合意的测验分数分布;第三,实际筛选项目以满足测验说明。5.1估计平均数、标准差、平均相关和信度在使用任何可比的估计程序时,对于据以做出估计值的样本来说,必须或最好具有与将使用最终测验的总体相同的特征。项目的难度与测验平均分数之间的关系十分简单。如果■为测验平均分数,Pi为项目i的难度,则对一个含n项目的测验来说,通过绘制各条由0和1或组成的人乘项目反应矩阵图,并求各边人和项目的分数总和,即可容易地检验这种关系。测验得分的标准差由下式估计:其中,rit是项目i与整个测验之间的点二列相关。有确凿的根据使人相信,从选拔考试中得到的区分度估值将低于试卷本身的值,例如,质量标准较低则被试者的反应就较随便;而当采用等式(6)时,必须考虑这一点。只要有了一个可以信赖的标准差估值,那么可用如下公式求得测验内部的一致性的库德一理查逊20型的估值:项目之间的相关并不是关于任一项目的一个统计量数。在这个意义上,它不能满足对有意义的项目参数的洛德和诺维克检验。然而在其它方面,它(确切地说是项目的平均相关)是最有用处的一个统计量数,当用它来绘制和推估测验的分布形状时,尤其有用。项目之间的相关、项目一测验相关以及测验信度之间的关系以等式(7)表示。可以看出,信度完全依赖于项目相关。其中,r ij是平均项目相关(西尔弗斯坦于1980年揭示,如果项目分析如其可能的那样当作方差问题处理的话这些统计量数是如何籍均数平方联系起来的)。最后一个表达式对逆包络计算来说是方便的,在那里,测验编制者有一个颇合乎平均点二列相关本性的好思想。就好像,如果可以得到项目平均难度的一个“猜估”值,P,就可以把均数估计为n■,标准差估计为■注意,由于■总是大于■因而推估表达式往往略为高估了将得出的标准差(桑代克,1982)。5.2绘制测验分数分布图项目难度和区分度对整个测验品质的影响是一个相当复杂的问题,尤其含有多项选择题时(亨利森,1971)。有关这一论题的全面说明还有待于今后,那些过去曾研究过这一问题的人对于多种选择策略效果的看法并不总是一致。人们常说,关于获得矩形分数分布的最佳方法并无一致意见(斯科特,1972),但现在看来,专家们一致认为所需要的是0.33的相关程度和0.50的难度(斯坦利于1971年揭示,上述相关程度是绝对必要的,但是,如果人们希望从50%的困难项目中得到一个矩形分布,这个相关程度还不够)。在没有获得理想的相关局面之前,即只有极端的两个分数是任何频次之前,项目相关高于0.33时,测验的全部分数往往更多地分布在两个极端,不常在中间。测验编制人通过由易而难地变动项目难度,而不是把每个项目的难度都定在大约0.50的方式,来避免出现这种情况,这样,纵使有了高相关,也不会发生中间分数单薄的情况(斯坦利,1971)。事实上,甚少成就测验,如果有的话,具有接近0.33的项目相关;相关通常处于0.10至0.20之间,而即使在0.20,已属高的了。因此,那些希望最大程度地区分被试者的测验编制者可能总是深感失望。在这种项目异质的情况下,合适的策略便是选取难度在0.60(δ=12)到0.40(δ = 14)之间的项目,这个背离了理论上所希望的0.50的范围对限定内容变化来说是必需的(亨利森,1971)。换句话说,这样做犹如矩形分布是可以实现的。经验表明,许多人直觉地认为,项目难度应该分布得广。理由如下:如果所有项目难度相同,那它们只能有效地测量那些能力水平与此难度水平相应的人。只有当项目难度具有一定范围,即让各人都有自己能对付的问题时,它才能充分有效地测量每一个人。这一理由是无可挑剔的——尽善尽美。事实是,两种项目选择策略都不会给出最佳结果,第一种是因为它忽略了最高和最低能力的被试者,第二种是因为在每一个难度/能力分布点上项目太少而不能提供有效的量度,除非该试卷长得出奇。就大数量被试总体来说,同等难度策略无疑是两种下策中的较好者。如果要有效地测量两端的被试者,需要的是根据其能力而精心编制的测验,这出于编制个别化测验程序的动机。自然,会有一些要求特别对待的专门测量需要。例子即是严格的筛选情形,其中比如说,只能选择5%的被试者。在这种情形下,项目难度水平都应该与分割点相称,而区分度(然后是相关)应尽可能地高。5.3实际筛选项目实际筛选项目时,一个根据其统计特性来展示合适试题的简便方法便是绘制出难度或容易度对区分指数值的量表,不管它是什么。习惯上,以难度为横轴,区分度为纵轴,之后用项目标号,或许用方框、圆圈或颜色等某种代码给出各项目位置点,以示不同的项目类型或内容范围。图表上部可以添上的横线和纵线以表示根据要求应该找得到的可以接受的项目区(伍德,1977)。应用休哈特控制图也可取得类似效果。6.准则测验的项目分析本文作者将自己归属于那些希望不再强调区分常模测验和准则测验的一类人中。但要进行项目分析时,两者无疑是有区别的。项目分析一直都是准则参照测验的拥护者之间矛盾冲突的源泉(见Criterion-re-ferenced Tests)。理论上要求我们相信目标、项目编制者和项目三者之间完美的一致性,从而使不甚满意的项目不会出现。但是经验表明,在阐述目标进而在抉定项目编制时,总会存在主观的和不确定的因素,因而使人想到,尚有进行某种项目分析的需要。这种经验观点如今一般被接受了,但在当初,矛盾冲突却造成无谓的反面情况,有人力主容易度尽可能接近100%的项目应该比任何别的项目都好,可在此之前,一种一时的想法也许已经表明这种项目根本不提供有关教学效果或掌握性进步的证据。有人说,所需要的是那些并不具有项目-测验显著相关的项目;那些有效地区分个体的项目通常表明需要修订。这当然只是全然误用常模参照项目统计量数而已(见Norm-refer-erced Assessment)。如果这一想法是要找到对个体内部的变化敏感的项目,那么就有必要在团体接受教学的前后检测项目。对那些甚少或不揭示差异的,即对学习不敏感的项目,应予剔除。如此说来,最好的是那些p值在教学前接近0,而在教学后接近1的项目。有人建议对简单的差别量度作各种改进。但本文不似论及,因为没有两位作者看来能够对任一统计量数的优越性持相同看法。此外,现在看来,也有充分理由怀疑这些改进(范德·林登,1981)。注意到所有项目分析量数(或如他所称之为效度系数)都基于同一教学敏感性观念,要求实行学前学后测验,要求进行评分。范德·林登认为,这些特点在许多论文中被当作典型地参照了准则而受人欢迎,但他又论证说,这些系数有许多弊病和严重的解释问题。当教学效度尚未确定时,学前学后的低微差异可能是由于低劣的教学而不是项目的缺陷造成的。学前学后测验p值差异不变的二个项目也可能使事情复杂起来的原因是对内部效度的威胁——历史的、成熟的影响以及量表编制的影响——这些是所有准实验活动所固有的,其中准则参照项目效度即是明显的一例。学前学后测验方法混淆了两种信息来源—项目特质的和学前学后测验的掌握分布之间的差异——并将后者的变异归咎于前者。这样做,无怪乎发现它剔除高质量的项目(范德·林登,1981)。予“信息函数”以显著地位的一个良好的潜在特质分析——不混淆两种信息源——受人推荐。这种批评具有说服力,那些希望坚持简单差别量度的人将不得不加以考虑(见Criterion-refer-enced Measurement)。进行区分,而且可对由个体组成的团体之间作出区分。这类量度的巨大重要性在于评估教学计划或教学的成功程度。假设对一所学校的多个班级教以同样的教学材料,而我们希望向这些班级所有的成员安排一次测验,以确定哪一班学得最好。区分班内个体的项目未必体现班级间的差异(卢伊,1973)。假设基本观察单位——个体分数和班级平均数——差异极大的话,这是可以料到的事。对能区分班级的项目的选择来说,合适的区分度指数即是班级内部的相关。采用像二列相关这样的指数将很可能导致对班级成绩差异并不敏感的测验(对美国那些宣称学校很少甚或没有造成成就差异的研究所做的批评就在这一问题上做了许多工作)。明显的是,一旦看到观察单位和分析单位之间的差别,就有其它的可能性。我们的兴趣在于最大程度地对特定班级里的学生之间作出区分,或者更一般地说来,在于对各亚群体内而非在所有亚群体间作出区分(卢伊,1973)。当前对分析问题单位的强烈兴趣势必触及到项目分析。个人对来自成就测验的项目反应数据的班级内部相关问题的体会是,其最高值随某些课题的项目产生,这种课题要么对大纲来说是新的,要么是颇有争议的。如果,就像看起来可能的那样,这些课题只被某些教师采用,那么其结果将创造一个学校之间的差异比实际存在的大的可能虚假的印象。7.选择区分团体的项目项目不仅可选来对个体之间和个体之内参考书目:R·伍德(李正云译张云皋、袁军校)

百科全书 · 相关知识