发新话题
打印

经典测量理论简介

经典测量理论简介

经典测量理论是测量理论中最重要的三种理论之一。一般将测量理论分为经典测量理论(CTT)、概化理论(GT)和项目反应理论(IRT)三大类,或称三种理论模型。三种测量理论构成了现代人才测评的理论基石。三种理论各有长短,经典理论容易理解、操作简单,体系完整,在现实中更易于被接受,因为适应面很广。概化理论主要解决测量误差的问题,对于分析测量的信度有一定优势。项目反应理论数理逻辑严密,测量精度高,但对使用者的素质和客观条件都有很高的要求,故应用的范围受到限制。在人才测评实践中,要根据具体的测评对象、目的和具备的条件选择恰当的理论来指导测评工作。当然如果能将几种测量理论的优势结合起来则会获得更好的测评结果。

人们将以真分数理论为核心理论假设的测量理论及其方法体系,统称为经典测验理论(CTT),也称真分数理论。真分数理论是最早实现数学形式化的测量理论。它从十九世纪末开始兴起,二十世纪30年代形成比较完整的体系而渐趋成熟。50年代格里克森的著作使其具有完备的数学理论形式,而1968年洛德和诺维克的《心理测验分数的统计理论》一书,将经典真分数理论发展至颠峰状态,并实现了向现代测量理论的转换。

所谓真分数是指被测者在所测特质(如能力、知识、个性等)上的真实值,即(True Score)真分数。而我们通过一定测量工具(如测验量表和测量仪器)进行测量,在测量工具上直接获得的值(读数),叫观测值或观察分数。由于有测量误差存在,所以,观察值并不等于所测特质的真实质,换句话说,观察分数中包含有真分数和误差分数。而要获得对真实分数的值,就必须将测量的误差从观察分数中分离出来。为了解决这一问题,真分数理论提出了三个假设:其一,真分数具有不变性。这一假设其实质是指真分数所指代的被测者的某种特质,必须具有某种程度的稳定性,至少在所讨论的问题范围内,或者说在一个特定的时间内,个体具有的特质为一个常数,保持恒定。其二,误差是完全随机的。这一假设有两个方面的含义。一是测量误差的平均数为零的正态随机变量。在多次测量中,误差有正有负。如果测量误差为正值,观测分数就会高于其实际的分数(真分数);如果测量误差为负值,则观测分数就会低于其实际的分数,即观察分数会出现上下波动的现象。但是,只要重复测量次数足够多,这种正负偏差会两相抵消,测量误差的平均数恰好为零。用数学式表达为:E(E)=0。二是测量误差分数与所测的特质即真分数之间相互独立。不仅如此,测量误差之间,测量误差与所测特质外其它变量间,也相互独立的。其三,观测分数是真分数与误差分数的和。即X=T+E。

  在上述三个基本假设的基础上,真分数理论作出了如下两个重要推论:第一,真分数等于实得分数的平均数(T=E(X));第二,在一组测量分数中,实得分数的变异数(方差)等于真分数的变异数(方差)与误差分数的变异数(方差)之和。即(S2X= S2T + S2E)。 经典测量理论在真分数理论假设的基石上构建起了它的理论大厦,主要包括信度、效度、项目分析、常模、标准化等基本概念。

  (1)信度(Reliability)。信度是测量理论中最重要的核心概念,指测量果的一致性程度,亦称可靠性程度。在经典测量理论中信度被定义为:一组测量分数的真分数的方差(变异数)在总方差(总变异数)中所占的比率。

  由于真分数的方差和误差分数的方差是无法获得的,因此这个信度概念还只是一个理想的构想的概念,不能直接计算。为了解决这一问题,CTT提出了平行测验(Parallel Test)的概念。

  所谓平行测验是指能够对同一被试的同一特质作相同准确测量的不同测验形式(测验题目)。如果某一测验有许多平行式,则某被试可以在每一形式上获一个观测分数,这样就产生了一个观测分数的分布,这一分布的平均值就称作该被试的真分数。实际上,平行测验是一个构想的概念,要在实际的测验的编制中实现是非常困难甚至是不可能的,最多也只能说是比较接近。

  在平行测验假设的基础上,CTT提出了估计测验信度的一系列方法,如采用相关法进行重测信度(Test-retest Reliability)、复本信度(Equivalent-forms Reliability)、分半信度(Split-half Reliability)的估计,提出同质性的概念以保证反应的一致性,如克伦巴赫(Cronbachα)系数、库德和理查逊(G.F.Kuder & M.W.Richardson,1937)提出的估计一致性的两个公式K-R20公式和K-R21公式、荷伊特信度(Hoyt,1941)等都是进行同质性估计的重要方法。

  (2)效度(Validity)
  测量的效度是指测量结果的有效性程度,也就是已测到的质和量与主试者欲测的质和量相符合的程度,有的也称效度为正确性。效度是任何一种测评必须解决的首要问题,因为有效性决定了一种对测量效度的考查是一个很复杂的问题,特别是对人的潜在特质的测量,因为潜在特质并不是一个看得见摸得着的物质实体,而是一种观念构想。对潜在特质的测量只能采用间接的方法,其测量模型可表示用行为主义的公式S-R表示,在测量过程中我们所能控制的是呈现给被试的刺激S,所能观测到的是被试在一定测量情景下对刺激S的反应R。而潜在特质是介于S和R之间的,在这一中间过程对S传入大脑的信息作出了处理,处理后的信息以R方式输出。简单地说,效度要弄清楚的是在S信号传入大脑后,哪种(哪些或最主要是哪一种)特质参与了对输入信号的处理。

  CTT对效度问题提出了诸多解决方案,因而有很多效度名称。如,同时效度,预测效度,表面效度,相容效度,协同效度,假设效度,效标关联效度,实证效度,经验效度等等。为了规范效度问题的研究与解释,美国心理学会在1974年将测量的效度分为三大类,即,内容效度(Content Validity),是指测验的内容对欲测范围内内容的代表性程度;结构效度(Construct Validity),测量结果与测验的理论假设之间的一致性程度;效标关联效度(Criterion-related Validity),又称实证效度,指测量的结果与某种外在效标之间的一致性程度,一般用测验分数与效标之间的相关系数表示。

  成就测验或学科测验(以检测知识为主的考试)较容易获得较高的内容效度,而对这类测验也往往注重考察它们的内容效度。对于能力测验、个性测验、态度测验、品德测评等,其内容效度的考察往往比较困难,而采用效标关联效度较多。效度的检验不是一次就能完成的,往往要通过累积证据的方法不断积累效度资料来证实它的有效性,结构效度在根据某一理论结构模型(智力、个性等)编制测验时特别注重,它也是通过累积证据的方法来效度获得支持的。

  (3)项目分析(Item Analysis)
  为了提高测验的信度和效度,CTT理论特别注重测验项目的质量,除了深入研究试题的类型和功能及编制技巧外,还发明一系列筛选、甄别项目的方法,统称为项目分析,其中最主要的是难度分析和区分度分析。项目难度的主要指标是通过率,即在该题上答对的人数与全体被试的比率(或平均得分与该题满分的比率)。仅难度还不足以说明题目质量的优劣,CTT还提出以题目对被试水平区分鉴别能力作为评价试题质量的区分度概念。

  (4)常模(Norm)
  CTT理论认为,仅从测验试卷上的得分不能获得被试个体确切地位的信息。为了对测验的分数进行合理的解释,提出常模的概念。所谓常模即是从某一总体中抽取的被试样本在该测验上得分的分布,以常模团体的平均数(或中位数)为参照点,将个体的分数标定在高或低于参照点的某一位置以确定该被试在团体中的相对地位。这种标定可以通过原始分数(Raw Score)转换成量表分(Scale Score),或称导出分数。CTT将这种类型的测验称为常模参照测验(Norm-referenced Test),与此相对应的称为标准参照测验(Criterion-referenced Test),其测验分数的解释与转换方法有所不同。

  (5)标准化(Standardization)
  所谓标准化是指对测验实施程序、对象范围、施测环境、测试方式、测验时限、分数解释(常模)作了统一的规定,使测验能够在异时、异地,不同的主试等条件下进行,并能得到同等有效的测验结果。标准化的思想主要来自于自然科学中对实验条件进行严格控制以降低测量误差,其方法主要源自实验心理学中对无关变量和干扰变量控制的方法。

TOP

TOP

发新话题