探索研究

中西方人才测评考官评分模式的对比分析

谷向东

摘  要  本文通过对比分析中西方考官在面试等人才测评中的评分标准、评分方法与程序、考官的思维加工模式方面的差异,结合笔者近二十年的实践操作经验,总结出中西方各自的优劣势,试图探索出一些相互融合的综合应用方法,以期提高我国考官评分的科学化水平。

关键词  考官、评价内容、人才测评、评分、面试

人才测评(assessment) 作为一门交叉学科,有一个很长的过去,却只有一个很短的历史, 尤其在国内仅有十几年的发展历程,理论研究与方法建设非常欠缺,相对于不断引进的大量西方测评技术,理论与方法的本土化研究几乎为空白。

中国是考试(test)的发源地,考试被西方称为中国的第五大发明,中国一直沿袭着考试的传统做法。直到90年代后期,西方的人才测评技术才逐渐由外企引入中国,在国内各类组织中很快就遇到水土不服的问题,随后经历了一个螺旋式发展过程。目前国内的选聘工作都或多或少吸收了西方的思想和做法,但是,显然做的还很不够。我们的主流选聘实践的核心理念和技术仍然是考试,中国考官的评分仍有浓重的考试色彩。那么,发源于中国的考试与发源于西方的测评有什么区别呢?简单的说,考试的理论基础是“择优汰劣”和“干什么,考什么”;考试主要依据岗位职责要求和双向细目表进行命题,采用的核心技术是申论、客观题、案例分析和面试等,评价者多是单位领导和某个专业领域中的资深专家,测试的结果主要是按照分数进行排序,其作用主要体现在人才招聘与选拔上。而人才测评的理论基础是人职匹配,测评主要依据胜任力模型设计测评方案和命制题目, 采用的核心技术是以情景模拟为主的评价中心技术,评价者多是人才测评的专业人士,测试结果的呈现方式主要是素质测评报告,其作用主要体现在选拔、培训、发展、指导。为此,本文试图从中西方的对比研究中进行分析,为本土化研究提供借鉴,为中西考试测评技术的进一步有效融合探索有效途径。

一、西方考官的评分模式

1、评价内容

西方的人才测评一般界定为一个收集和评估有关候选人信息的过程,以便做出针对某职位的人事决策,那么,收集什么信息作为评价内容,长期以来,人们主要采用收集学业成绩和工作资历作为评价内容,直到二战后,才开始采用收集智力测验和个性测验的结果等进行人事决策。实践证明,这些信息至少难以预测复杂工作和高层次职位任职者的工作绩效或生活中的成功。

为此,学者们继续进行着不懈的探索。最近这些年,西方新增加的评价内容主要有情绪智力(EI)、实践智力和胜任力等。美国耶鲁大学的心理学家Sternberg研究发现实践智力是管理绩效非常好的预测指标,后又提出实践智力构成胜任力的核心,从而将实践智力与胜任力概念融合到一起。情绪智商的概念是由美国心理学家Salovey和Mayer提出的,用于描述对成功至关重要的情绪特征,后他们又推出情绪胜任特征的概念,也实现了与胜任力概念的融合。可见,西方人才测评领域得到普遍接受和广泛应用的主流评价内容为麦克利兰德(McClelland)胜任力,围绕胜任力有一整套技术方法,为人才测评提供了很好的评价基础。

对于胜任力,目前西方所采用的主流测评技术是基于多质多法的评价中心技术,测评的原理是人职匹配。为了建立科学的评价内容,首先要通过工作分析建立相应的胜任力模型,并且界定行为的操作定义,使之可被准确观察、记录和评价。如将“组织能力”的定义为“在小组讨论中既能主动发言,又能顾全他人,组织大家发言,及时向他人提出疑问,及时纠正跑题,发言能综合他人意见,适时概括、总结别人的发言。”然后,将各种评价方法得出的评分进行整合,得到一个“组织能力”的最终分数。最后将该分数和其他胜任力得分与岗位胜任力模型比照,得出总体的人职匹配的水平,以此作为人事决策的主要依据。

 而对于那些抽象的胜任力,如责任心、敬业精神等,则必须进一步分解和操作化,才可以采用测评技术进行测试。西方认为情景模拟测试是难以测试出品德、个性等深层次胜任力的内容,这些需通过心理测验、工作考核、背景调查等手段进行了解。更重要的是,被测者在实际工作环境中的品德行为需要依靠法律、工作制度和激励方法加以规范和保证,并在实际工作中对其长期考察,仅靠短时间的评价中心是很难解决这一问题的。

2、评分方法与程序

在测评中,西方考官对于被测者观察评价的主要方法是行为报告法。这种方法不是直接对被测者的行为表现进行打分,而是强调先观察、记录被测者的行为信息,也称为ORCE技术,具体的可以分为以下几个步骤:

(1)观察行为(Observing ):考官在测试过程中全面而有重点地看与听被测者的行为细节,包括语言、语气、动作等;

(2)记录行为(Recording):考官在观察的同时,采用速记法尽量全面地进行记录;

(3)将行为按照测评指标归类(Classifying): 在观察和记录行为后,考官将被测者的大量行为细节归类和划分到对应的测评指标上。例如“在充分肯定别人之后,对大家说出了自己的相反意见” 可以划分到“影响力”这一测评指标中等;

(4)初步对测评指标打分(Evaluating):考官在将行为归类完成后,对每名被测者的行为表现情况严格比照每个测评指标的描述情况, 按照“吻合率”或者“一致水平”给出一个初步的分数,比如,符合率为80%,按照十分制评分就可以给8分;

(5)整合分数:考官们开展集体讨论,围绕每个胜任力指标的评分进行讨论,在讨论中,每一名考官都针对同一名被测者的同一个指标给出自己观察到的行为和评分,各考官之间的观察行为报告可以相互补充、印证,不同考官的不同评分可以通过讨论达成一致。在上述工作的基础上形成整合性的评分结果和完整的测评报告。

3、考官的思维加工模式

在面试、小组讨论等测试中,考官工作的原则和具体的任务是观察和记录候选人所有重要的行为和语言,在观察中要保持高度集中和注意;对所有的候选人都保持公正公平,排除主观印象;注重行为事实,而非主观感受;在测试中,不进行任何主观的推理,直到测试结束后才做出判断;所给出的具体评价分数要有足够事实作为支撑,加以佐证;要充分克服各种误区,比如第一印象、近因性、晕轮效应和刻板印象等。

考官思维加工的关键原则是客观性原则,在观察阶段仅仅关注事实,即那些看得到的和听得到的内容,不可以掺杂主观推测和判断的成份。用一个不太恰当的比喻,考官在观察记录阶段需要表现得像一台摄像机,而在评分阶段则可以进行一些归纳概括判断,但仍然必须保持充分的客观性。

二、中国考官的评分模式特点

1、评价内容

中国有着悠久独特的中华文化,人才的评价与选拔标准自然有自己独特之处。历史上许多大师级的专家学者在此方面的论著颇丰,他们对于选人的标准和方法都进行了深入的论述。概括起来,他们非常重视对抽象的个性、品德等内容的考查。比如,《易经》中提到领导应具有定力、情怀和效率等品质;《尚书》 提出了“九德”概念;而春秋时期对后人影响较大的有儒家、墨家流派等,儒家提出选人的标准为节用爱人、以身作则;乐观积极、刚直不阿;谦虚踏实,理性求实;文质彬彬。墨家则提出厚德载物,认为在形成领导者品质的各要素中,道德品质占据很重要的位置,并提出“德”的十一项指标。这方面的论述非常多。上述种种流派的理念代代相传,沿袭至今,构成中国自己的观察和评价人的内在标准。

2005年,笔者开展了一项“处级正职内隐的领导素质结构初探”的研究,对60位特大城区的党政处级正职领导进行访谈调查,经过质性研究概括出20个素质条目,其中的核心部分包括品行正直、奉献精神、事业心、政治素质、服务意识等品德的内容,另外还包括许多个性内容,这些素质的被提及率都比较高。这证明了对领导者评价的内在标准十分强调品德和个性成份,说明考官在实际观察和评价的思维加工中会下意识地将这些素质内容纳入到评分标准中。

中国不但重视个性、品德的评价,而且中国人的个性框架结构也有较强的独特性。近年,台湾学者杨国枢和北大的王登峰教授所开展的中西方人格结构的比较研究表明,与西方的大五人格不同的是中国人存在大七人格结构,而且,虽然在“外向性”和“情绪稳定性”上中西方有着较高一致性,但从内容上看,西方人的这两个维度主要反映外在行为的特点和倾向性,而中国人则较多涉及个人品质。另外,中国人独有的人格维度包括“精明干练--愚蠢懦弱”,指的是能力;“善良仁慈--狡诈卑鄙”,指的是道德品质;以及“淡泊知足--功利虚荣”,指的是一个人所追求的目标。这三个维度,都是中国人评价自己及他人人格的重要维度。所以,中国有自己独特的评价内容。

今天,人们在选人用人实践中已经或多或少引进西方的测评标准的理念与技术,对综合分析、组织协调等行为化的素质进行测试,但仍然非常重视品德和个性因素的考察,以面试为例,在正式的面试实践中,考官通常仍然十分重视责任心、谦逊、有魄力和进取心等个性和品德的内容内容的观察与评价。具体表现为:考官们尤其是领导考官在评分讨论和决策讨论中频繁使用上述有关个性和品德的用语,同时使用许多相关的推测性语言,并强调这些因素的重要性,赋予其很高的权重等。

笔者认为这样做抓住了选人评价的关键要素,问题是如何才能实现对这些要素的准确测评。

2、评分方法与程序

概括说来,中国考官观察评分方法有三个突出特点,一是倾向于非结构化面试的方法,“中国选才调查”2010年出炉的调查数据表明,英国在招聘选拔中采用结构化面试的比例为69%,中国仅为38%,而中国在选任中普遍采用面试的方法,说明中国存在大量非结构化面试实践。二是具有浓厚的考试色彩,表现为多数面试等测试的目标仅仅为了给候选人排出名次。三是评价中强调个性、品德等内容胜任力标准,而这些标准往往概括性、抽象性较强,缺乏操作化和量化标准,更多需要依靠观察者的经验、悟性和直觉进行评价。

中国考官的评价程序是首先提出问题,引发被测者的言语与行为反应;其次,观察被测者的言行, 凭借记忆进行“记录”;最后,概括性地进行思考加工, 调用经验储备,比照评分标准,给出分数。这种方法的优点在于充分发挥考官的能力,为最大程度地深挖被测者信息提供了可能,不受评价标准的限制。但是整个过程由于操作性不强,考官没有进行详细记录,往往凭借记忆比照概括性的评价标准进行量化,量化过程常常是模糊的,评分是“仁者见仁,智者见智”的过程,考官的主观性难以控制,也就造成了对同样的被测者,不同考官的评分出现较大差异而且难以调和的情况,可能的结果是,甲考官打5分,乙考官打8分,两人均无法拿出充足的理由说服对方、改变对方的评分,而且也很少采用考官相互讨论达成一致的分数整合办法;这种评分方法对于有些考官故意操纵分数、打出极端分数、给出不稳定不恰当的分数等等问题都没有很好的处理办法。实际操作中往往只能采用七位以上的考官同时观察评分,对于考官之间的评分差异问题要通过计算平均值的方法加以解决。

3、考官的思维加工模式

中国历史上无数精英人士经过大量实践和反思,形成了观察评价人才的独特视角、思维模式和评价方法,并以非常概括性的语言加以描述,代代相传,但是实际掌握应用需要具有很好的悟性、长年的阅人用人的经验,并且善于反思、归纳、总结,而这对于一般考官尤其是年轻考官是有相当挑战性的。

考官必须借助主观能动性进行推测,正如《淮南子》所主张的考察人才要注重行为的细小方面,然后推知总体品行。其中,暂且不说推测存在多大的误差,考官若没有很好的悟性和经验,做到这一点是很困难的,在这方面的大师有曾国藩、诸葛亮等等,他们都有无数阅人经历和很高的天赋。所以,这种做法很难复制推广。

三、两种评分模式综合

1、融合的原因

笔者认为两种模式各有特点和利弊,根据各自特点可将中国的主流评分方法定义为概括经验法,将西方的主流评分方法定义为机械评分法。

西方评分方法是更强调客观性,最大限度排除了主观成份的影响,而且易于掌握和大面积推广复制,对于评分人员的领导经验和观察人员的天赋等要求不高。但是西方的评分法比较机械,内在的逻辑是加减乘除,采用的是“具体行为点”归纳出“ 内在胜任力”,是 1+1+1=3的思维,而由于割裂的行为细节相加未必准确推导胜任素质水平,因而可以说它在一定程度上忽略行为整体的复杂性,造成了“只见树木,不见森林”、“不识庐山真面目,只缘身在此山中”的局面。而且这种方法比较繁琐,费时费力。

西方采用上述方法也是受西方的文化传统影响,西方强调采用精细化、数量化方法研究事物,包括将事物细化、分解,不断放大来仔细研究,这种方法对于自然现象的观测与研究是十分有价值的,对于现代心理学等的发展也做出了巨大的贡献,将心理学送进了科学殿堂。但是心理现象的影响与构成要素是非常复杂的,与自然现象有着本质的不同。所以,单纯用西方量化的方法评价人的心理素质就存在很大的局限性。 

而中方则将事物联系起来,形成一个整体,借助有经验观察者的慧眼,站在一个更高的层面俯视地进行观察评价。这种方法淡化细节内容,重视整体的概括评价和直觉的判断,解决了“在对人的评价中细节成份的简单相加推测出综合因素未必合理”,即“1+1+1未必等于3”的问题。(但)这种方法对于考官要求很高,正因为如此,在今天的公开选拔和竞争上岗测试中,我们挑选考官往往只能选择那些相应行业或者专业领域的成功人士和高管。因而合格的考官难觅且所需成本很高,难以进行大面积的推广。而且更重要的是它为主观性打开了大门。

总之,两种方法各有利弊,难以替代,应该相互融合。

2、融合的办法

目前,中国在考评工作中,考官的构成往往是临时抽调的非测评专业人员,可以称为“临时考官”,多是以本地组织、人事、纪检监察等部门和用人单位的领导为主,评分基本依赖于参照拟定的标准答案,或者根据直觉进行评价,却没有足够的专业测评技能评判出被测者的各种素质能力水平。

有鉴于此,我们在实际操作中,要侧重注意充分吸纳西方重客观、重量化的思想与操作化强的评估技术,借此提高这些“临时考官”的专业技能水平,尽量减少评分中的人为主观成分,提高我们评分的科学性与严谨性,同时充分保留中方评价方法的精髓,从而形成科学高效的综合方案。

笔者认为有两种具体的操作方案:

方案一是,对于“临时考官”开展至少1-2天的西方评分方法的训练,使他们同时掌握两种评分方法的技巧,在分要素的评估时采用西式方法,在综合评估时,采用中式方法。即采用西方的方法得出每个要素项分后,可以将所有要素分相加得到一个总分,这个总分与采用中方方法得到的总分往往会有一定的差异,这正是前述的评价标准和视角不同所致,最后的总分可以采用数理统计的方法加以合成,将两个分数按照一定比例或者权重进行加权,比如按照7:3的比例合成。

这种方法的操作难点在于让考官们掌握西方的评分方法,为了帮助他们快速习得西方的评估方法,可在评分表的设计上下功夫。具体可以对每个评价要素采用行为列表法,给评价人员提供行为观察上的帮助,在行为列表上对每一维度进行操作化界定,至少列出10种左右的典型行为,尤其是一些关键性的行为,同时最好将列表上的行为按照实际发生的类别进行分类,这样就可以帮助他们在缺乏系统训练的前提下快速掌握西方的评分方法。

方案二是,考官组由两部分人构成,一部分为专业的人才测评师,另一部分为所谓“临时考官”。对于前者,要确保人才测评师熟练准确掌握西方专业化的评分方法,以提高评价的客观性。对于“临时考官”,尽量选择那些在选人和用人方面有丰富经验的领导和人事专家,他们对人的观察、评估与分析上是“行家里手”,可以熟练高超地运用中国式的评分方法。每位被测者的最后得分可以将两类考官的评分按照一定权重进行合成,形成最后的得分。

为此,今后应进一步加大专业人才测评师的培养力度,以满足社会迅速增长的对专业测评师的需求,不断增加专业人才测评师在考官组中的构成比例,至少达到半数以上的水平。另外,在测评方案的设计上也要按照评价中心的设计原则进行,比如,要进行科学详细的工作分析以建立岗位的素质模型作为评价的基础和标准,对所有评价人员进行科学选择和专业化的深入培训,采用多个评价者,对于同一个素质采用多种测评手段进行测评。只有在评价的方式方法上不断完善,才可以最终实现科学的测评,真正推进中国的考试测评水平。

 

 

参考文献:

1.北京双高人才发展中心.《领导人才选拔研究与实践》.北京出版集团公司北京出版社.2009年

2.谷向东.特大城区党政正处级领导胜任特征的研究.北京师范大学博士论文.2005年

3.陈德述.儒家管理思想论.中国国际广播出版社.2008年

4.宋荣、谷向东等.人才测评技术.中国发展出版社.2008年

5.杨国枢,彭迈克.中国人描述性格所采用的基本向度—一项心理学研究中国化的实例.台北,桂冠图书公司.1984

6.王登峰,方林,左衍涛.中国人人格的词汇研究.心理学报.1995, 27(4):400-406

7.王登峰,崔红.中国人人格量表(QZPS)的编制过程和初步结果.心理学报.2003,35:127-136

8.刘安.淮南子.万卷出版公司.2009年

9.刘远我.面试.北京新华出版社.2002年

10.Zeidner, M., Matthews, G., Roberts, R. D. Emotional intelligence in the workplace: a critical review. Applied Psychology: An International Review, 2004, 53: 371-399

11. Spencer, L. M., Signe, M. Spencer. . competence at work: models for superior performance , John  Wiley & Sons,inc.1993:1-87,237-263

12.Terpak, Michael A.. Assessment center strategy and tactics. PennWell, 2008.

13.Nathan, R. Kuncel, etc. Academic performance, Career potential, creativity and job performance. Can one construct predict them all?  Journal of personality and Social psychology, 2004, 86(1):148-161

14.Sternberg, R. J., Wagner, R.K., Williams, W.M., & Horvath, J.A… Testing common sense. American Psychologist, 1995, 50(11):  912-927

15.Boyatzis, R. E., Goleman, D. . Clustering   competence in emotional intelligence intelligence insights from the emotional competence inventory (ECI), Handbook of Emotional Intelligence, San Francisco: Jossey-Bass, 2000: 343-362

 

 

 

作者单位:北京双高人才发展中心 北京第一资源研究院

上一篇:处级领导班子和领导干部综合考核评价体系  
下一篇:领导干部心理健康与工作压力状况分析与对策