二、效度

效度(validity)通常是指测评工具的有效性和正确性,亦即测评工具能够测量出其所欲测量特性的程度。

一般常用的效度指标有内容效度、结构效度、效标关联效度。

如果以上三个回答的肯定性很高,那说明我们推论的正确性就高。

(一)内容效度

内容效度是指测评题目是否能充分代表所要测量的内容范围,即测评题目对有关内容或行为范围取样的适当性。

在评价中心中,内容效度体现在以下两方面:

典型的内容效度检测过程就是由专家评估这两个要求是否得到了满足。

专家比较判断法:由一组独立的专家组成专家评定组,对测评内容取样的充分性、必要性、适合性进行评定,对实际测评到的内容与所要测素质特征的符合程度做出判断。

评价中心内容效度定论

评价中心从测量设计到实际操作,都以对目标岗位的工作分析为出发点,其典型的测评方法——情景模拟练习更是强调模拟工作的真实性,从情景的取材上要与目标岗位的工作内容尽量相关联,因而其内容效度在测评的设计与应用阶段通常能得到较好的控制。

(二)结构效度

我们要测量某一抽象概念,那么就要构想这一概念的组成方面,并构造这些组成方面的测量工具,哪种构想最贴近这一抽象概念的本质特征,哪种方案的结构效度就高,否则就低。

以“智力”这一概念为例:

在这个过程中把抽象素质“智力”构建成具体行为特征,能否抓住“智力”的本质特征进行构建以及构建的程度,就是结构效度的问题。哪种构想方案最贴近“智力”的本质特征,哪种方案的结构效度就高,否则就低。

结构效度常见定量检验方法有两种:

1.因子分析方法

因子分析法最早是由心理学家发展起来的,因为心理学家经常研究抽象的性格特征和行为取向,从而解释人类的行为能力,但有些概念比较抽象,无法直接测量,需要借助特定行为的推断评判来间接测量这些特质和概念,这些行为指标就称为观测变量。科学家在研究的过程中将行为指标描述出来变成量表中的题目,然后开展研究,运用多种统计方法,最后形成测量该概念的量表。例如比奈—西蒙量表、斯坦福—比奈量表、韦氏智力量表。

在上述量表研究中,科学家将量表中众多观测变量(题目),运用数学方法进行分析,从而找到变量的内部结构,验证先前的理论构想,这就是因子分析方法(Factor Analysis)。

由于在长期实践中证实该方法能有效提取内在结构,现在它已经被运用到了医学、社会学、市场营销等各个领域。现在已经有SPSS、SAS等专业统计软件,来处理因子分析这样的工作了。

例如:我们根据智力的构想方案1,形成测量“识记事物(37、43、45、47、51、54、57)”、“空间推理(6、11、12、14)”、“数学计算(15、28、31、38、41)”、“类比分类(1、2)”等测量题目,然后对这些测量题目进行因子分析,形成因子聚类结果(如表2-3所示)。

表2-3 智力测量的因子聚类结果

结果发现,对于因子1,构想假设是通过37、43、45、47、51、54、57等题目测量,因子分析的结果显示,因子1是通过37、43、45、47、51、54、57、32等题目测量;对于因子6,构想假设是通过15、28、31、38、41等题目测量,因子分析的结果显示,因子6是通过15、28、38等题目测量。

我们根据某一个因子结构方案,结合理论构想,对量表中的观测题目进行分类和命名(如表2-4所示)。

表2-4 智力测量的因子分类和命名

2.相关法

我们在理论上可以推断智力得分高低与某些现象的相关性。如果经过检验,两者是高度相关的,则测量工具的结构效度就高。

如果我们要测量某概念A的结构效度,一方面我们要构想A的组成方面,并构造测量A的工具;另一方面要找出理论上与概念A高度相关的B现象,看看测量出来概念A的值是否与现象B高度相关。

如果与概念A高度相关的现象B也是不可直接观察的,那么也需要构想现象B的组成,并构造相应的测量工具对其进行测量。

评价中心中采用多种测评方法来评价候选人多个素质指标的水平,其结构效度的判断在实践中一直是个难点,目前一般采用“多质多法”进行检验,具体思路如下:

其中,区分效度和聚合效度是检验评价中心结构效度的常用指标。

(1)区分效度(Differential Validity)。

区分效度是指运用相同的方法测定不同特质和内涵,测量结果之间应该不会有太大的相关性。例如,用无领导小组讨论的方法去测评50个候选人的“组织协调”、“沟通表达”、“分析判断”、“创新思维”四个素质指标,如果四个素质指标测评结果的总体相关较高,则区分效度低,若相关低,则区分效度良好。

(2)聚合效度(Convergent Validity)。

聚合效度是指运用不同测量方法测定同一特质所得结果应该具有较高的相关性。例如,分析判断能力用无领导小组讨论、公文筐测验、案例分析、口头搜索事实四种不同的方法来测定,如果每一测评工具得到的评价结果相关程度高,则聚合效度高,若相关程度低,则聚合效度低。

区分效度和聚合效度越高,结构效度越好

(三)效标关联效度

效标关联效度是指测评结果与某一外部效标的一致性程度,表明测评工具预测个体在指定活动中行为表现的有效性,因为效标需要实际证据,所以又称实证效度。

那么,什么是效标呢?

效标是一种用来衡量测评有效性的外在参照标准,通常指我们所要预测的行为,既可以是自然、现成的指标,如薪资水平、产量,也可以是人为设计的指标,如学业成绩,工作表现等。

根据收集效标的时间,可将效标关联效度分为:同时效度和预测效度。

测评结果与同时获得效标结果的一致性程度,这种效度称之为同时效度。

测评结果与未来获得的效标结果的一致性程度,这种效度称为预测效度。

例如,用相关的测评工具筛选应届毕业生,选拔合适的候选人;若要检验测评工具的效度,则可以求候选人学业成就和测评结果的相关,得出同时效度;也可以求候选人未来在工作岗位上的表现与测评结果的相关,得出预测效度。

结论:评价中心具有较高的预测效度,其测评结果能够预测受测者未来的管理成就,这是为人们所公认的。如表2-6所示,表内为一些研究者从1970-1987年对评价中心预测效度的元分析结果。

表2-6 测评总结果(Overall Assessmert Rating简称OAR)预测效度的研究总结

结果显示:评价中心测评总结果(OAR)的预测效度最低为0.27,最高为0.64,平均为0.41。

(四)影响效度的主要因素

1.测评工具本身

(1)测评题目对测评目的的适合性,是否能测到所要测的特质。

(2)测评手段的多寡(如表2-7所示)。

表2-7 演练项目数量与测评效度的关系

研究表明,评价中心的预测效度与其实施特征有关,如使用的测评手段越多,演练项目数量越多,评价中心就越有效。

2.选择适当的评价者

在测评中,选择合适的评价者非常重要。Schmitt等人在1990年研究了用评价中心在某行政区域(由若干个分区构成)范围内选拔中学校长的案例。结果发现,下列做法均有助于提高评价中心的效度:

(1)更多地由校长而不是大学教授担任测评师。

(2)尽量避免与受测者有过密切工作关系的人担任测评师。

3.被试状态

4.施测的过程