什么样的测验才“可信”?
所谓信度,主要是指测量结果的可靠性或一致性。也就是说,我们希望在不同时间、不同测验条件下所得分数之间保持一致,而要避免这样的情况出现:一位应届生招聘时测验显示责任心非常强,但录用进来半年以后再测,发现责任心又变得非常差了,这就是测验的信度不足导致的。此外,信度还反映了测验中得到的分数与他的“真实分数”之间的接近程度,这也就是很多HR担心的一类问题:“测验显示他的人际影响力很强,可他的人际影响力真的有这么强吗?”因为心理测量与物理测量一样,都存在着无法消除的误差,不可能达到百分之百的准确无误,而且人的行为会在不同的时间、不同的情境下变动,所以,心理测量比物理测量的误差来源要更多。信度就是衡量了误差大小的指标,信度越高,误差越小。那么,一个测验的信度达到多少,企业才可以放心的使用呢?从专业的角度,一般来说,能力测验的信度应在0.90以上,人格(性格)、兴趣等测验的信度通常在0.75以上,如果测验整体的信度在0.65以下,就不适宜使用了。
什么样的测验才“有效”?
接下来再看衡量测验的第二个指标——效度,效度的定义是:与测量目标有关的真实分数方差与总分方差的比率,通俗的说,也就是测验是否精确的测量了想要测的东西。例如,一个测量影响力的测验,由于测验题目编制的不好,实际上测量的是受测者的性格外向性,而我们知道,尽管二者之间有一定关联,但并不是外向的人就善于影响他人,内向的人就不善于影响他人,这就是测验效度不足导致的。再举一个常见的例子,有些受测者在参加测验时,往往不按照自己的真实情况做答,而是按照一些社会上普遍认可的标准来答题,也就是“装好”,这种情况在招聘中更加常见,像“我在接人待物方面总是不太成功”这样的题目,有些应聘者为了给招聘单位留下擅长人际交往的好印象,即使这句陈述符合自身情况也不愿意承认,而是会在答案中选择“不符合自己”,这就会导致测验测量的不是工作所必需的素质,而仅仅是应聘者的“装好”倾向,这样的测验效度就很低。显而易见,如果在招聘中运用了这类效度不足的测评工具,会严重影响招聘的准确性,进而影响组织绩效。避免这种“装好”问题的方法之一是在测验中加入专门的“测慌量表”来对受测者是否真实做答进行鉴别,从而提高效度,像明尼苏达多向人格测验(Minnesota Multiphasic Personality Inventory, MMPI)、埃森克人格问卷(Eysenk Personality Questionnaire, EPQ)这些经典的测量工具中都包含测慌量表。
反映测验效度高低的指标有多种,例如内容效度、构想效度、效标关联效度等等,与信度不同,效度由于指标多样复杂,并没有一个简明的标准。但专业的测评工具提供商是能够出具测验的效度证据的。
“洋为中用”可行吗?
还需要提出的是,西方的心理测验拿到国内使用,仅仅将题目翻译成中文是远远不够的,而是需要先进行严谨的中文版修订工作,重新进行信度、效度研究。这是由于中西方的文化背景有别,中国人和西方人的思维习惯、归因方式、人格特征、行为模式等等都有重大的差异,导致国外的测验原样照搬并不适用,从测验的理论基础、题目陈述到计分解释都可能发生偏差。所以,在选择国外的测验工具时,更要特别留意是否经过了中文版的修订,也就是“本土化”的过程。这个过程包括题目的翻译、回译和修改、国内常模(参照人群)数据的收集、以及项目分析、信效度研究等等一系列工作,才能保证测验的准确性。由于本土化的过程需要大量的人力、物力和时间,而且只有专业人员才能完成此项工作,因此,选择有专业研发团队的测评公司提供的测验较有保证。
总之,需要慎之又慎的选择好可信、有效的测验。否则,一旦招聘中使用了测量不准确的工具,把不恰当的人安置到了公司的岗位上,对组织不仅无益,而且有害。