测评漫谈：从姜太公选将到评鉴中心-管理实务-经济管理网-新都网

测评是判断，是根据行为样本（特定场合下的特定行为）对行为总体（类似场合下的一贯行为）的判断。关于如何取样、判断，中西方有实质的不同。这种文化差异随处可见。例如，中国的编辑对本文的标题中的“漫谈”二字不会有太大的反感。漫谈和浅谈都是中国作者的特权。漫谈得好，刺激思考；浅谈则是一种谦逊。如果把这类文章的标题翻译成英文投稿到美国，美国编辑肯定大惑不解，而且连内容都不必看了。为什么？作者自己都说文章结构松散（漫谈）或者不深刻（浅谈），那还有什么必要审阅、发表？

由于语言和语言所反映的文化的差异，测评像诗歌一样，是不能翻译的。如果硬是要翻译过来，效果一定大打折扣，这种感觉，仿佛读过P. B. Shelley的诗，再读中文翻译，或者先读李白的诗，再读英文翻译一样。我作学生时，答过一道美国人的测评题，问我一个人开车时想些什么？我当时骑自行车，无法想象开车时会想什么，大概会想“还是四个轮子爽”吧。如今我开车上下班，再答这道美国题，答案还是选不出来。因为美国人开车，道路广阔无垠，他可以浮想联翩（这道题可能不是纽约人编的。）而我却没有这种奢侈。外国的测评再好，也无法简单翻译过来在中国使用。而且也没有必要，因为中国测评的传统足以让我们继承并发扬光大。早在十几年前就听我的导师杨中芳博士谈心理学的本土化，现在离开学术界，更加从实用的角度体会到本土化的必要。

所以，本文以中国测评传统为正宗，并且一反传统做法，以行为观察法为主流，以心理测验法为旁支，讨论我所了解的古今中外测评的理论和实践，不求全面，但求独到和深入浅出。

行为观察法和心理测验法是我对人力资源测评的二分法。我不想为行为观察法和心理测验法下定义，我相信例子比定义更能说明问题。比如测量一个人的口头沟通能力，行为观察的做法可能是：让测评对象参加一个讨论，然后专家观察、记录测评对象在讨论中的行为，并根据一定的标准打分。心理测验的做法可能是：呈现一段对话的文字描述（或录音、录像），然后让测评对象做多项选择题。考过TOEFL的人对此不会陌生。行为观察法记录和评估的内容包括：领导行为、说服行为、人际交往行为、解决问题过程、书面计划、对话等任何现实生活中有目的的社会和个人行为。心理测验法记录和评估的内容包括：选择题答案、反应时、回忆或再认的准确率和数量、生理反应（如心率、皮肤电阻、心/脑电反应），自我评估的分数等可以数量化的指标。投射测验不在本文所称心理测验法范围之内。

中国的测评重视行为观察

一般中国人谈人力资源测评，都把西方（西欧和北美）的人事心理学（personnel psychology）或产业与组织心理学(industrial/organizational psychology)作为正宗。其实，西方研究测评历史的学者，却是言必称中国。他们书写的测评史往往以中国的科举开始。中国的科举制度是大规模应用测评的最早、也是对社会发展有长远重大影响的测评实践。科举制度使得农民天资聪颖的子孙们可以通过寒窗苦读而考取功名、走上仕途、甚至与皇室攀亲。比起古代印度的种姓制度，古代中国的科举对于社会发展的促进作用不言而喻。

可惜，当代中国人很少想起中国测评的辉煌。中国测评专业人员的精力，主要用在学习西方的心理学，特别是心理计量学上了。更可悲的是，许多专业造诣较浅的人力资源从业人员热衷于测评软件。普通中国人所接触到的测评，大多是以多项选择题和自我评估量表为特征的标准化心理测验，主要分认知能力测验和自我报告的人格问卷两大类。像卡特尔16因素人格测验、MBTI等著名的心理测验，许多中国人力资源管理从业人员都叫得出名字。

中国自古崇尚行为观察，孔子说，“始吾於人也，聽其言而信其行；今吾於人也，聽其言而觀其行。”听其言而信其行，是自我报告的人格测验(self-reported personality tests)和情境或行为访谈（situation- or behavior-based interviews）的理念。听其言而观其行，则是工作样本(work samples)、情境模拟(simulations)和评鉴中心(assessment centers)的理念。

《庄子列御寇》中的9 种知人之法，属于行为观察法：“故君子远使之而观其忠，近使之而观其敬，烦使之而观其能，卒然问焉而观其知，急与之期而观其信，委之以财而观其仁，告之以危而观其节，醉之以酒而观其则，杂之以处而观其色。九征至，不肖人得矣。”

先秦时代《吕氏春秋》所载的“八观六验”，汉魏时期的刘劭在《人物志》中提出的“八观五视”等等知人方法，都是行为观察法。

中国的测评，一直没有向标准化心理测验发展的迹象。这不是坏事。中国自隋朝以来的科举的考试方法与西方心理测验有很大不同。心理测验以多项选择题和自我评估量表为主，评分很容易。而科举考试用的是多种测评方式，需要训练有素的测评师评分。当今中国人以为科举考试就是八股文章，这是误解。其实，科举的考试方法很像现在的评鉴中心。

据陈社育的说法，中国测评的传统是方法多元化，并大量使用情境模拟。以科举考试为例，在测评指标上，科举考试可谓全面：政治见解、行政工作能力和体现在文学艺术上的独创能力。陈社育列举了科举考试综合使用的几种方法：

1.贴经：主考官任取经书的一页，将左右两边遮盖，中间只露出一行，另一纸贴3―5字不等，要被试者将所贴的字填出来。

2.墨义：由考官出30条、50条或100条问题，让被试回答，既可笔试，也可口试。

3.策问：要求被试者对现实问题（如政治、吏治、教化、生产等）提出建议。

4.诗赋：要求被试者当场撰写诗词，以考察其思想品德、文化修养和文学才能。

陈社育总结科举中的口试的3种形式：

1.主考询问。

2.根据命题准备好答案提纲，再逐个口答问题。

3.考生讲演，主考和听众进行评议（古称“试诵说”）。

（关于中国科举中的测评，详见陈社育《我国古代心理测量思想述评》江苏教育学院学报：社科版1999.04）

心理测验是人力资源测评的歧途

上个世纪是西方心理学长足发展的一个世纪。产业/组织心理学会（Society for Industrial and Organizational Psychologists，简称SIOP)作为美国心理学会（America Psychological Association，简称APA）的第14个分支，从会员人数、会员收入、和学会影响来看，是最火的心理学分支之一。美国以及其它许多地方，在政府机构、企业和咨询界从事测评的人，大多数是产业/组织心理学（I/O psychology）背景。这些人主导了西方、特别是美国的人力资源测评方法论。

这些产业/组织心理学家，在做测评时，往往以心理测验法为主，而以行为观察法为辅。根据Susan E. Embretson在The Second Century of Ability Testing: Some Predictions and Speculations一文中的预测，这个趋势会在二十一世纪的美国得到延续。

从实际效用的角度看，心理测验和其所依据的心理计量学实际上是对人力资源管理的误导，因为心理测验所测量的认知能力和人格与实际生活中的能力和成就尚有一臂之距。换言之，心理测验所测量的能力局限于学业能力。按照后来的智力理论家（例如R. J. Sternberg和H. Gardner）的观点，智力并不是单一的能力。例如，智力至少包含个人智力(personal intelligence)、自知力(intrapersonal intelligence)、以及人际智力(interpersonal intelligence)。其中，正统心理测验能够准确测量的，顶多是个人智力中的学业智力（academic intelligence）。

美国军队曾经大规模应用心理测验。例如，第一次世界大战中美国心理学家用智力测验作为从近二百万应征者中征兵的筛选工具，当时有α和β两套测验，α用于有阅读能力的人，β用于不懂英语的人或文盲半文盲。心理学界认为这是成功应用心理测验的典范，可是根据美国畅销书Storming Heaven: LSD and the American Dream，

“……结果令人失望。测验淘汰了八千六百四十八个智力低下者，同时得出结论：这些人以及他们所代表的全体美国人的平均智力年龄只相当于13岁零一个月。换句话说，一般美国人的聪明程度与十几岁少年相仿。

一战中心理学家们还用了人格测验预测一个人在战场上的表现，结果并不成功。Storming Heaven一书中这样写道：武德沃兹设计了一套125题的问卷用于测量哪些人格在作战时会崩溃。不幸的是，这个工具在实用性上是一个失败。

即使在重视学业智力的教育测验领域，心理测验法的有效性也受到挑战。二十世纪末，美国有人开始提倡所谓真实测评（authentic assessment），或称作业测评（performance assessment），看重开放式问答题(open-ended responses)、论述题(essays)，以及学生作品。值得一提的是，欧洲的教育考试，一直没有像美国那样依赖多项选择题。

以行为观察为主流，以心理测验为旁支来看人力资源测评的发展，对于一般心理学出身的人来说，不是一件容易事。据中国评鉴中心的先行者陆红军讲，80年代他在国内推广评鉴中心时，许多中国心理学界的人认为是旁门左道。其实，对于综合、实用能力的测评，最有效的方法不是心理测验，而是行为观察。基于这种认识，原HayGroup和Towers Perrin的张伟俊在成立上海人才之初便决意将评鉴中心作为上海人才的核心竞争力之一，并邀请本人创建并领导上海人才有限公司测评事业部。我们为企业评估和选拔管理人员所用的方法，从来都是以行为观察法为主，而以心理测验法为辅。我们的信条是：不以心理测验评判一个人的管理才干。

观察法的外在效度高，成本也高，适用于重要岗位的选拔

战争比商业竞争更残酷。战争中，国家主权和成千上万的人命都掌握在将帅手上。所以选将是所有人事选拔中最要命的事。这种场合，没有人敢用心理测验决定由谁带兵打仗。战国时代的《六韬》一书中的《龙韬》，其中有一篇文章题为《选将》，记载姜太公（又名姜子牙或姜尚，辅助周武王打败商纣王的中国名将）所倡导的结构化的行为观察的方法选拔将领：

武王曰：何以知之？太公曰：知之有八征：一曰问之以言，以观其辞。二曰穷之以辞，以观其变。三曰与之问谍，以观其诚。四曰明白显问，以观其德。五曰使之以财，以观其廉。六曰试之以色，以观其贞。七曰告之以难，以观其勇。八曰醉之以酒，以观其态。八征皆备，则贤不肖别矣。

中国古代军事家关于选将的模型很多，相当于现在所说的资质模型（competency model）。例如孙子的“将者，智、信、仁、勇、严也”。中国古代军事家们大概都有自己的资质模型。但如何按照这些标准选将呢？姜太公的选将八法，是否广为应用，我们不得而知。不过，后来科举制度衍生出的武举制度，考試內容有長垛、騎射、步射、馬槍、舉重、言語、材貌等，都属于行为观察。据说，骑射这一项，应试者射向人形靶三箭，三箭皆中为优，二箭中为良，一箭中为及格。笔试作为补充，例如论述战略及默写《孫》、《吳》等兵書的内容。但是，这些行为观察只限于军事技术技能，而领导能力，决策能力，信、仁、勇、严等品质似乎没有在武举考试中得到考察。

德国人在第一次世界大战中，使用了评鉴中心（assessment center，或译成评价中心）这一术语，并用此法选拔军官。美国人在第二次世界大战中选拔间谍，用到了评鉴中心方法。二战过后英国军队一直沿用评鉴中心为陆军学院招生。我把评鉴中心的特点概括为“二高四多”。二高：高效度、高成本。四多：使用多种测评方法（包括心理测验法）、多个测评师同时测评多个对象的多个测评指标。美国空军军官学校（Squadron Officer School）旨在发展领导力的著名的X计划的核心内容，就是利用评鉴中心的翻版，即发展中心(development center)，在模拟解决问题的情境中观察学员的领导能力。

姜太公选将之法并不是由中国人，而是由德国人、美国人、以及英国人发扬光大。这对中国人来说是一个遗憾！曾经分别在J. C. Penny和AT&T两家公司使用评鉴中心的两位美国心理学家William Byham 和Douglas Bray1970年创立的DDI，是最早把评鉴中心商业化的人力资源管理咨询公司。DDI在1973年发起的一年一度的世界性的有关评鉴中心的技术和商业集会，到2003年已经是第三十一届。评鉴中心无疑是姜太公选将法的技术体现。从姜太公选将到评鉴中心在军事和商业上的广泛应用，我们看到不同于心理测验法的行为观察法的发展轨迹。评鉴中心代表最有效的行为观察法，其它行为观察法包括工作样本、单一情境模拟、可计分行为访谈等。

上文说到评鉴中心效度高。有人会问：效度有多高？国内外的研究证明，评鉴中心的效度远远高于心理测验。根据我在应用评鉴中心过程中所得到的客户反馈，可以说这种方法屡试不爽。

上文还说到评鉴中心成本高。评鉴中心的成本高到什么程度呢？时间上，一天到一个星期的实施过程。出一份报告需要几个测评师十几个小时的时间。所以，美国评鉴中心的价格是几百到几千美元一个人。中国的评鉴中心也不会便宜到哪里去。虽然评鉴中心的成本高，但是从投资回报和风险管理来讲，一个字：值。我的忠告是：对于重要岗位，要么不做测评，要做就做评鉴中心。那么，什么是重要岗位？重要岗位指的是管理、销售、以及客户服务。

我的同事包晨星在他的一篇文章中，用F. Schmidt 等人设计的公式对评鉴中心的投资回报做了一个计算。他假定一个企业要聘用5位销售经理。候选人共有50名。以效度为0.6，并且每位候选人施测成本5000元计，那么一年的收益为98300元，五年为1491500元。（他用的公式为：EG = Ns rxy2 SDy Zx – Nt C，其中，EG代表该测评方法能给企业带来的效益（元），Ns代表聘用的人数，rxy代表该测评方法的预测效度（其平方代表能够解释绩效差异的程度），SDy代表招聘岗位的一年的业绩差异金额，Zx代表被聘用的人的测评成绩的标准分的平均，Nt代表候选人数，C代表测试每一位候选人的成本金额。）

可见，评鉴中心的问题不是成本，因为这个成本是可以带来丰厚回报的。评鉴中心以及多数行为观察法的问题在于评分的主观性。评分标准设计得不好，就会出现评分者信度低的问题，通俗地说，是评分者们对于同样一个人的同样的行为表现仁者见仁智者见智。对于结构化程度不高的评鉴中心设计，评分的问题更加严重。

心理测验内部一致性高，成本低，适合大规模的筛选

行为观察追求外在效度，心理测验追求内在效度，两者有天壤之别。

从Francis Galton和Cattell开始，统计学在心理测验技术中一直扮演重要角色。在智力和人格研究的某个阶段，因素分析方法甚至比理论家更有权力决定智力和人格的元素。从正态分布、相关系数、常模、智商、情商、项目分析、内部一致性、效标参照效度，到项目反应理论，众多术语让外行感到眼花缭乱。这些概念和统计工具，保证了心理测验具有高度的内部一致性、或者说信度。开发一个测验需要漫长的过程，必须保证测验符合心理计量学的指标。所以，对心理测验稍有了解的人都会问：信度、效度怎样？有无常模？这就是心理测验的思维定势。用心理计量学的信度效度指标衡量评鉴中心，结果是信度（内部一致性）一塌糊涂，而效度却非常之高。可见，评鉴中心不是心理测验的一种，心理计量学的信度、内部一致性等概念可能不适用于评鉴中心。

与行为观察法相比，心理测验客观吗？我的回答是否定的。心理测验不如行为观察客观。心理测验（不包括投射测验）只是评分者之间完全一致，评分完全不受评分者的主观因素影响。但是，心理测验的行为样本的代表性有很大问题。西方心理学界有一个颇具讽刺的定义：智力是智力测验所测量的心理品质。人格测验就更不用提了，都是测评对象自己说自己如何如何，答题是主观的，评分再客观也无法弥补。

说心理测验不客观，不如说心理测验的外在效度低。外在效度指的是把一个概念、理论、或工具拿到心理学以外的现实生活中去，它能否解决问题。内在效度指的是一个概念、理论、或工具在心理学内部能否自圆其说。即使有的心理测验的效标参照效度很高，这个效度也只是内在效度。什么是效标？举个例子，智力的效标之一是学业成绩，外倾性格的效标之一是他人评价。效标如果比心理测验准确，那么开发心理测验还有什么必要？参照靠不住的效标计算效度还有什么意义呢？如果说有意义，那意义就是：证明这个测验还没有差到比效标还不可靠的程度！

既然效标参照效度是这样计算的，那么效度指标并非越高越好。试想，如果智力测验和学业成绩的相关系数等于1（perfect correlation），那么我要问，这个测验测的是智力还是学业成绩？

心理测验的优势不是客观性，而是标准化计分导致的低成本。考TOEFL的人自己要买2B的铅笔若干支，然后在答题纸上面涂黑圈圈。这样做是方便了扫描仪，从而极大地降低了ETS（美国的教育考试中心，即Educational Testing Services）的评分成本。在电脑化和网络时代，心理测验低成本的优势就更明显。

由于成本低，心理测验适合大规模的施测。但由于外在效度低，所以它只能测量某些最最基本的能力。由于这一点，它更适合筛选（确定谁不合格），而非选拔（确定谁更适合）。美国一战征兵测验，现在ETS的各种考试都是这类筛选的性质。

文官考试和教育考试是大规模应用测验的领域。现在中国的高考制度，形式上更接近西方的标准化测验。高考真正考察的其实是这几个方面的能力：成就动机、毅力、时间管理、基本智力、记忆力等等。

科举考试不失为一种好的测评方法，它被废除，我认为主要是因为科举考试没有体现现代社会思想和管理理念。科举考试是大规模应用的测验，但不是标准化的心理测验，而更像所谓的performance assessment和评鉴中心，评分的成本估计不会低。中国目前实行的公务员考试，采用了西方标准化教育心理测验的方法，在方法论上不如古代科举考试。这种考试的效度令人担忧。可喜的是，最近党中央提出了“人才强国”的方针，并且强调不以学历、经历、出身选人才。我衷心希望政府也不以多项选择题的考试成绩选拔公务员。

1977年，英国两位心理学家Peter Saville 和Roger Holdsworth创立了SHL，如今SHL已经成为在伦敦股票交易市场上市的世界闻名的心理测验开发商。SHL1984年诞生的标志性产品OPQ (Occupational Personality Questionnaires)，据说用了四年时间研发而成，代表了心理测验的最高水平。美国此类心理测验开发商数量更多。

在上海人才的咨询实践中，我们开发的基本工作能力测验一直被用于企业招聘的筛选或初选，而我们开发的工作风格问卷（Work Style Inventory, 简称WSI），则存入员工档案，以备人力资源规划之用。这类测验的另一个好处，是可以积累大量的数据库，作为参照标准。

中国测评的发展方向

这里谈发展方向，不是做预测，而是希望通过这篇文章推动中国测评向我认为正确的方向发展。中国的产品和服务目前大都不如西方发达国家。连指甲钳这样的小东西都是外国的好。但我感觉中国的服务态度好像普遍比美国的好。在测评方面，我感觉中国人完全可以比外国人做得好。下面我谈谈原因。

中国文化是滋养测评的优良土壤。然而，当今许多人听到测评就嗤之以鼻，本人也经常用“泛滥”二字形容中国的测评市场。甚至，“测评”二字几乎成了骂人的话。但是，这种不满主要是指向心理测验本身的局限和对心理测验的误用和滥用。最典型的泛滥形式是在企业招聘、选拔、晋升中使用心理学经典测验作为主要测评工具。我就听说过有的测评公司用卡特尔16因素人格测验(16PF)为企业选拔管理者。

正如我前文所说的那样，中国的测评有过辉煌的过去，我们有姜太公行为观察的好传统，有孔夫子“听其言而观其行”的测评理念。而且，正因为中国的心理学落后，心理测验不发达，因祸得福，少走了不少弯路。如果我们大力发展行为观察法，中国人有理由在测评领域领先世界。为此，我呼吁业界同仁在以下方面共同努力。

首先，发扬中国测评重视行为观察的传统。对于关键岗位的招聘、选拔、晋升测评，以行为观察法为主，以心理测验法为辅。

第二，推动行为观察标准化。我曾经把计分标准化程度高的评鉴中心比喻为体操比赛评分，把计分标准化程度很低的评鉴中心比喻为选美比赛评分。根据把评鉴中心传授给上海人才的George Thornton III在Assessment Centers in Human Resource Management（中文版即将由上海人才翻译出版）一书中的描述，我得出的结论是，美国的大多数评鉴中心，按照我的比喻，属于选美比赛式的评分。如果上海人才能够代表国内评鉴中心的水平的话，可以说我们在评鉴中心的评分上已经超过了美国大多数公司。

第三，通过研发，利用信息技术降低行为观察法的成本。在这方面，上海人才已经取得了初步成就，例如上海人才的专有技术电脑辅助公文筐测验CIT (Computerized In-tray Tests)。

对于心理测验法，我们同样应该用其所长，避其所短。而且，使用行为观察法的人会得益于心理计量学的修养。因为心理计量学的许多原理，同样适用于行为观察法。特别是现代心理测验理论中的项目反应理论（Item Response Theory），适用于电脑辅助的情境测验。上海人才下一步要做的研发工作之一就是在CIT中采用项目反应理论。

中国人开发本土的心理测验势在必行。为避免西方能力心理测验过于注重学业能力的弱点，我们必须保证测评的维度和题目与工作高度相关。例如，测量空间推理能力不如测量听懂上级指令的能力更能反映大多数工作岗位对人的要求。再如，测量归纳逻辑能力，用抽象的图形不如用工作中的样本。为克服西方人格心理测验过于重视跨情境的人格特征的局限，中国人开发人格测验必须重视人格的工作情境特异性。举个例子，你测量一个人如何与人沟通，不如测量这个人如何与上级、同事、下属、客户、供应商沟通。

管理实务

测评漫谈：从姜太公选将到评鉴中心

Tags：$False$