项目库
(Item Bank)项目库是测验项目的汇总,这些项目像图书馆的藏书一样,经过了组织、分类和编目,以便为编制一系列成就测验和其它类型的心理测验提供方便(英国文献中,“问题库”与项目库是同义的)。未被组织的项目汇总(其中有些已沿袭几十年),一般称之为项目集。正是项目的分类和校准方法的近期发展,使得建立带有一定预示性,就是使项目库有别于项目集的测验成为可能。项目库这个术语的应用始于20世纪60年代的研究项目(伍德和斯库尼克,1969)。不幸的是,其含义因与金库及其相关的信用与负债概念相似而引起了某种困惑。也许,将项目库严格地看成项目图书馆更合适一些,人们可以从该馆中把项目提取出来,以编制测验。1.标准化测验问题项目库可视之为单个标准化测验的代替物,或视之为全部标准化测验网。项目库的发展在某种程度上得益于对标准化测验的日益不满。标准化测验需要在标准条件下(标准化测验的原始意义)进行,这样,测验分数才具有解释性。通常,这并不容易做到,因为测验的长度及时间要求并不一定完全适合实际情境。进一步说,即使测验全部或部分不太符合主试的目的,他除了全盘采用或全部不用之外,别无它法。对测验的任何修改都将使常模失效,而常模是解释测验分数的唯一机制。这对成就测验更为重要,因为特别使用的测验的效度取决于它与特定课程及其教学的符合程度。为特殊用途而按常规设计的测验做到了这一点,但却是以背离常模为代价的。没有常模的测验也可用于比较,只要所有被比较的人都接受同一测验。有时这一条件满足了,但还需要许多条件,即需要另一有关测验的分数或施测的某种外部水平。测验常模本身也提出了问题。受测个体极少是常模所在的特定团体中的典型代表,所以运用常模来解释测验分数就给测量课程带来了程度不等的非确定性和误差。2.项目库的优点项目库已发展到在许多方面改进测验实践的地步。这些改进可以分为四个方面:经济性、灵活性、一致性、安全性,依次概述如下。2.1经济性在学校课程的每一主科领域里,每年都有数以万计的新型测验项目被编写出来。新项目的编写运用了世界上几乎所有国家的某些优秀教师和测验者的创造性。他们倡导的大多数试题一旦使用而且只用一次之后,便弃之不顾了。许多项目没有保存价值,但也有一大批高质量的、独特新颖的、鼓舞人心的项目被丢弃了。项目成库的一个主要优点在于,它在重复使用项目的基础上发展。只要仔细看看就能肯定,只有高质量的项目方被纳入项目库中,而项目一旦被纳入进去,那就很可能数年都列在“活跃”的名单上,而被各种不同的测验大量采用。尤其是,项目的首次试用及其功能在相应的统计资料库中的储存,为从这些项目子集中编制出合适的统计描述的任何测验提供了必要的资料,而毋需再次有一个试测阶段。这适用于心理测验的信度、效度等特征,也适用于测验分数的标准,其结果是大大节省了工作和费用。2.2灵活性正如以上所提及的,项目库的一个重要优点是,它为测验的特殊应用提供了便利。新的测验可以藉储存在库中的材料来编制,相对来说几乎没有限制。它们可长可短;涉及多种能力水平或集中于某一特定的能力水平;广泛覆盖课程或集中于某一特定的较小领域;等等。在每一种情况下,每一项目相应的分类和统计信息都提供了对测验信度和效度的实际评价,提供了在一固定尺度内对测验分数的标准,提供了根据在特定任务上的成绩来解释测验分数的指南。根据项目对测验品质的可以预见的影响,我们可以剔除或增加该项目。项目库甚至也可用来完全是适应性的测验,其中呈现给学生的每一项目都是根据学生在此以前完成项目的情况而从项目库中选择出来的(见Adaptive Tes-ting)。2.3一致性对项目完整的校准导致了对由这些项目组成的所有测验的交叉校准,并赋予测量系统在标准化测验网中无法得到的一定程度的一致性。通过变化某些参数,特别是测验的难度水平(例如,为水平较低的学生编制较容易的测验变式),可以从项目库中比较直接地编制平行测验。在这种情况下,由于这二套原始分数均在普通量表上解释,对采用了不同的平行测验的个体成绩加以比较是可能的。2.4安全性传统的成就测验和考试都有一定程度的突然性。受试可能在整体上熟知试卷所要测查的东西,但是如果对问题的详细内容在此之前也已了解的话,那测验就起不到预期的作用了。受试将努力记住待测问题的答案,而不是努力增进对整个学科的理解。测验包括的项目仅仅代表所有全部待测成就的一个样本,而且要使测验有效,每一受试对所含项目的反应应该在某种意义上代表了他对整个学科领域中所有项目的可能的反应(包括那些非本测验的部分)。突然性有时需要,有时不需要。随之而来的对测验安全性的要求,则是一个严肃的问题。总的说来,这要视测验结果的重要性有多大而定。在资源有限的教育系统里,中等或高等教育里的竞争相当激烈,测验结果对个人确实可能具有极大的重要性。在这些国家里,人们不是不知道,国家毕业考试或大学入学考试的盗用本还在测验进行之前就会被秘密流传。项目库的体系在两个方面寻求解决安全性的问题。第一,项目库的规模意味着,学生如果不首先掌握有关内容而要记住所有问题的答案是不切实际的。较大的项目库,比如说有2000或更多项目的项目库,甚至可出版一定规模的全集。这将更加打击这样的想法,即不管有无许可,凡拥有部分或全部项目集的人都必然会获得某种好处。按惯例,安全性也可以通过准备几个可供选择的测验变式而增加,以应付所有那些因测验内容的泄露而可能产生严重问题的情况。如果有4个或5个可供选择使用的测验变式,而且直到最后一刻都无人知晓对特定的个体将实施其中的哪一种,那将会极大地增强测验系统的公正性。原先设计的不同测验形式具有的替换的可能性,无论是发生了可疑的泄密,还是因为第一套结果的分析揭示了渎职的有力证据,都使得我们可以从潜在的可耻情境中解脱出来。三千年以前,中国皇朝的国家科举考试中舞弊的揭露导致了对主考官处以极刑。项目库对减少由其现代设备支付的保险费用作出了贡献。3.测量模型将项目集转换为可能的项目库,其心理测量学关键就是从所编项目的统计性质中获取测验的统计性质(信度、精确度、难度等等)的综合程序。对许多项目库来说,它们决不只是项目的汇集,它们经过了组织、分等和校准,以提供表达测量基本特征的基础。它们必须以某种施测过程的基本理论或模型为依据。这种从概括化的统计技术而来的一种模型,主要用于评估个体的分数范围,即个体已掌握的测验项目中已确定的那部分。休梅克(1975)以此研究为基础提出了成就测验的综合框架。大约在同时,许多美国研究人员,主要是对确定项目范围感兴趣,根据可以用来编制项目库的特殊形式的项目设计了几套适合于计算机的测验问卷(伯内,1975)。从此,对项目成库的有关范围的研究似乎失去了许多动力。模式的构成是以视项目为完全可以互换为基础的,这已证明在应用于教育问题时要严格加以限制。建立项目库的另一方法,其影响在测验领域里正日益稳定地增长。这一方法可追溯到肖邦(1968)提出的建议,即运用潜在特性理论,特别是拉希的模式来校准试题。从重视常模-参照测量转到重视准则-参照测量的早期目标之一,就是根据适合于现实世界的而非课堂生活的任务来确立操作标准。然而除开少数技能(例如打字和游泳)外,业已证明那是不可能的。因此,有关准则-参照便意味着,将某一套测验项目的完成情况与另一些项目所描述的成就程度联系起来。与视项目可互换这一观点相去甚远,潜在特性理论根据难度将项目分级,并在课程全域中分布开来。因而学生藉项目库进行的测量意味着,将在成就图上的某处确定出他自己的位置。这类方法的良好范例可见之于科尼什、怀纳(1977)和康诺利等人(1971)的研究中。4.应用以上援引的两个例子都是为教师使用而设计的、施测于个别学生的小规模的项目库。为团体测验而设计的其它项目库已通过商业渠道出版或通过官方渠道提供给教师使用。这些测验更加关注确立测验的团体水平而不是标出个人的成就图。并且,测验之后的课程分析可能是不详细的,尽管在课程术语中,项目的某种分类通常被认为是重要的(见Achievement Tests)。在美国,公立学校系统同时在对课程的具体要求和完成标准两方面表现了地方的自主性和明显的关心。它对项目库的主要兴趣一直在于,在一个地区或州的范围内支持测验计划,以掌握全盘标准和评估各个别的学生。例如,洛杉矶市学校所有学生受测的材料是从中央库中抽取出来的,测后收集的信息都要用于为每个学生作分析,且由班级和学校把信息集中以提供具体的诊断性反馈(见Kid-map)。与此相似,俄勒冈的波特兰市公立学校评价部,每年运用内容广泛的项目库来评价若干年级水平的学生(多海蒂,1976)。项目库的另外两个作用也值得考虑。二者都包括延续多年的大规模测验计划。它的一个作用是对国家考试体系的支持,其中除了它的经济性和安全性之外,项目库还有利于保持从一年过渡到下一年的标准。这类考试体系正在许多地区发展,包括印度、印度尼西亚和香港地区。它的另一作用是在研究计划中对成就标准的纵向掌握。诸如,英国的操作单位评价(肖邦,1978, 1981)。它提供了潜在品质量表的主要优点以及在不同时刻比较不同测验分数的可能性,但本身产生了新的问题——随学校课程而来的有所变化的项目库的效度。而项目库的普遍适用性和再校准是否能成功地维持其设计者期望的长时效度,现在来说还为时过早。但即使这个问题不能完全解决,项目库仍将为我们比以前更加有力地充分描述课程变化提供了坚实的基础。参见:参考书目:B·H·肖邦(李正云译岑国桢校)