(灵碧曰:考试赋什么分?这是一个需要深思的问题。)
{详见:GB/T 7714
章建石.一项公平与效率兼备的高考改革为什么难以为继?——标准分制度的变迁及其折射的治理困境[J].北京师范大学学报(社会科学版), 2016,(1):31-41.
MLA
章建石.“一项公平与效率兼备的高考改革为什么难以为继?——标准分制度的变迁及其折射的治理困境.“北京师范大学学报(社会科学版) 1(2016):31-41.
APA
章建石.(2016).一项公平与效率兼备的高考改革为什么难以为继?——标准分制度的变迁及其折射的治理困境.北京师范大学学报(社会科学版)(1), 31-41.}
一项公平与效率兼备的高考改革为什么难以为继?
——标准分制度的变迁及其折射的治理困境
章建石
(教育部考试中心,北京100084)
[摘要]实施标准分制度是恢复高考后考试标准化改革的一项重大举措,试点和推广历时二十余年,涉及七个省份。与传统的高考分数制度相比,标准分在分数评定的精确性、人才选拔的效率以及对形式公平的保障上均有明显的优势。然而,在多重的制度变迁逻辑中,标准分制度并不能满足各主要利益相关者的诉求。社会对高考改革在科学与公平维度上的独特要求,政府在应对上的民意依赖等,使得这一整体上功能更佳的制度难以为继。高考改革既关系“民生”又涉及“国计”,双重的改革任务对治理方式提出了更高的要求。
[关键词]高考;标准分;制度变迁;社会公平
一、标准化:恢复高考后的一项重大改革
1977年恢复高考,举国沸腾,制度的重建让个体和社会看到了希望,但紧接而来的具体工作却是困难重重。“文化大革命”期间,考试理论和技术、高考相关科目的学科研究几乎完全停滞,考试的实践经验几乎为零,这给高考考试工作的各个环节都带来了前所未有的挑战。对此,原国家教委考试中心①主任、参与恢复高考工作的杨学为先生有着深刻的体会。
题型基本上是科举以来传统的贴经(填空)、墨义(简答)、策论(论述)等;命题没有基本的质量指标,仅有抽象的要求(如难、中、易),靠少数人“入闱”突击;评卷、分数统计完全靠手工操作;管理几乎没有必要的法规予以规范和遵循。当时的考试,时有科学性错误出现,试卷水平时高时低,试卷覆盖面窄,导致押题严重,死记硬背;评卷需要大量人员,评分误差大。②
这些问题表面上指向了高考的命题、阅卷、评分等技术环节,更深层次上指出了高考在捍卫“科学、公平”这一核心价值上的不足。客观而言,高考恢复后前几年的考试质量是可以打上问号的,这与特殊时代背景有关。幸运的是,这些问题及其带来的后果,很快就被一些刚恢复研究工作的心理学学者所关注。20世纪80年代初期,北京师范大学一批有志于推进考试科学化进程的学者,经过努力获得了几年的高考成绩数据,并且进行了严谨、科学的分析,得出的结果用触目惊心来形容一点也不为过。对此,一位当时领衔的专家回忆:
单看区分度,每年有150分左右的题目必须淘汰。更严重的是,大部分试题信度(可靠性)很低,效度(有效性)竟然出现了负值。……“有些文科卷子,只四大道论述题平分天下……拿语文来说,同一张答卷,五个地区打分能差出32分来,数学也差15分。③
显而易见,这些问题表明:高考这一把尺子出了不小的差错。如此权威的量具,如果丧失了科学性,公平性也将荡然无存。高考无小事,高考中存在的这些问题,很快得到了教育行政部门的回应。1985年1月,教育部在广州市召开第二届高考科研讨论会,就高校招生体制改革、定向招生、推荐保送以及考试科学化等问题进行了讨论。会后决定,广东省率先进行高考标准化改革的试验。试验采取“由点到面,逐步推进”的策略,即部分学科、省份先试,最后在全国推广。这期间,进行了若干重要的实践探索:
1985年,首先,数学在广东文、理科8万考生中试验,英语在广东英语类3000名考生中试验。
1986年,广东除数学、英语外,增加了物理;英语扩展到广东、山东文、理科;辽宁省文科,广西英语类共20万考生。
1987年,广东除数学、英语、物理三科外,增加化学、语文;英语扩展到广东、山东、辽宁、广西、四川、湖北、陕西等7省区,约40万考生参加;物理科扩展到广东、山东,约20万考生参加。
1988年,广东继续进行语文、数学、物理、化学、英语的试验,英语扩展到17个省区,物理仍继续在山东试验。
1988年11月15—18日,由国家教委考试中心主持,国家教委教育科学研究规划领导小组办公室参加,并邀请全国几十名教育、心理、教育测量、教育统计学专家及部分省级学校招生办公室负责人、高等学校招办负责人、中学负责人与会,召开了“广东省普通高等学校招生标准化考试试验评估会”。①
经过前期的试点和成效的评估,1989年6月27日,国家教委颁布了《普通高等学校招生全国统一考试标准化实验规划》,开始在全国正式实施标准化考试。
所谓标准化考试是指按照系统科学程序组织的,具有统一的标准,并对误差做了严格控制的考试。它一般包括命题标准化、考试实施标准化、评分标准化和分数解释标准化这四个环节②。基于这样的认识,标准化考试改革一开始的定位就非常明确,即把考试作为一项系统工作,以标准化为抓手,以命题、考试实施、分数解释等为切入点,来进行整体设计。各环节分别推出相应的改革措施,提升考试的科学化水平。具体的改革涉及三个方面:一是命题。根据国情研究并建立了高考科目的考试目标,制定高考的考试大纲,高考的考试目的、性质、内容、范围、题型等都做了详细的规定。二是考试实施。针对新设计的选择题题型,引入了光电阅读器和电脑阅卷,大大提高了阅卷的准确性和效率。对于主观题阅卷中出现的不同阅卷者评分之间的差异,也尝试借助电脑来进行监控,减少了多种误差,尽可能保证阅卷过程的公平。三是分数解释。以高考的分数报告为突破口,尝试将原始分转换为标准分。
标准化改革是我国高考发展史上的一次标志性事件,是恢复高考后的一次重大突破。从改革的紧迫性和必要性、改革目标的切适性以及对后续改革的影响来看,这次改革可以说也开启了我国高考考试现代化的进程。然而,时至今日,当年标准化改革提出的三项任务,其现实境遇差别很大。命题和考试实施方面的改革在原有基础上不断以累进的方式向前推进。具体而言,命题方面:高考的考查目标不断明晰,在学科层面不断细化。作为纲领性的文本,考试大纲几乎每年都要进行修订,1995年制定《高校入学全国统考命题工作章程》。考试实施方面:现代信息化与网络技术在考试实施中更是迅猛发展,从高考报名、准考证发送、考试安排、监考、阅卷到成绩统计和发布等各个环节,都可以见证科技进步所带来的高效和便利。各级政府部门在保障考试安全,捍卫考试公平上投入了大量的人力、物力和财力,成效显著。除了硬件上的投入之外,测量、统计的方法和技术也在阅卷中广泛使用。在多年试验、探索的基础上,2008年教育部颁布了《国家教育考试网上评卷暂行实施办法》、《国家教育考试网上评卷技术暂行规范》、《国家教育考试网上评卷统计测量暂行规范》(教考试[2008]2号)三个重要文件,这些措施对提高阅卷质量起到了积极作用。最后一个分数解释,令人惋惜的是,具体的举措——标准分改革在经历了多年试验之后又几乎退到了原点。标准分改革从1985年在广东试点开始,随后有关省份先后加入,截至1997年,推广到海南、河南、陕西、广西、山东、福建等省,涉及82万考生,人数约占当年考生总数的三分之一。另外有20个省(自治区、市)开始在高考模拟考试中尝试使用标准分,影响不可谓不大。然而,从2001年开始,以上试点省份纷纷停止使用标准分①,2007年广东省也宣布停止使用。时至今日,全国只有海南省还在使用这一分数制度。对于海南省的坚持,社会舆论中一直都存在质疑之声,2013年12月,国家权威媒体还以“标准分还能挺多久”为题进行了报道。
高考考试标准化三项改革的不同遭遇引人深思:同样的改革背景,同样的改革主导价值,同一个改革主体,同一个改革时间点,动用了同样的政策资源和专家资源,同样也有测量、统计方法在考试中的应用,甚至改革者的热情几乎都一样,为何唯独标准分改革昙花一现?这项改革究竟触及了什么?改革是否合理?要回答这几个问题,就要先看一看标准分制度提出的动因及其本身的合理性。
二、制度变迁的动因:为什么要实施标准分?
(一)原始分的局限
从考试行业的规范和工作流程来看,分数报告是考试的最后一个环节,通俗地说,就是把考试成绩告诉考生以及成绩的使用方。分数报告主要建立在测量与统计方法之上,采用不同的算法,就会得到不同的结果。其中,原始分是最简单的一种分数报告方式,通常被称为卷面分数,只要统计一下答对题目的数量,参照各题的分值,经过简单加法就能得出结果。如果把考生各科成绩的原始分相加,就合成一个原始分总分,这个值的大小就可以表明考生水平的高低,高校招生时也就可以据此来划线、录取。原始分简洁、明了,计算方便,这是优点。但是原始分的缺点也非常明确:一是分数的意义不明确,不能表明位次方面的信息;二是稳定性欠缺,没有可比性;三是不具备可加性。举一个简单的例子,某学生一次期末考试的成绩(均为原始分)为:语文80分、数学70分、英语85分,表面上看,这个学生的英语成绩最好、语文其次、数学最差,而实际的情况可能并非如此。如果不考虑各科的平均分,这三个成绩的优劣并不能加以判断。如果语文试题简单,平均分较高的话,该学生的语文成绩可能较差。如果数学试题较难,平均分低的话,该学生的数学成绩可能名列前茅。另外,原始分很容易受到试题难度、区分度等影响,而试题的这两个测量学指标只能在考试结束后才能计算出来,考试之前根本无法精确控制,因而原始分的不稳定性是显而易见的。如果同一个考生连续参加两次高考②,语文的原始分成绩都是80分,或者某个考生高考语文、数学的原始分成绩都是80分,从本质上来讲这里的80分根本无法进行比较,因为同一科目不同次、同一次不同科目考试的原始分单位分数的内涵完全不一样。就像在体育的全能比赛项目中,如果某运动员跳远的成绩是7米,跳高的成绩是2米,尽管两个成绩的计量单位一样,但跳远1米与跳高1米是不“等值”的。最后,原始分的不稳定性、单位内涵的不一致也决定了不能将它们简单相加。如果一定要加总,就如同把不同货币按照其面值绑定在一起,得到一个没有明确含义的结果。道理很简单,不同货币的单位值有不同购买力,1美元、1英镑和1元人民币的价值完全不一样,3个“1元”加在一起,只会带来更多购买上的不便。然而,在我国各级升学考试中,将原始分相加进行录取的做法早已成为习惯沿用至今。对考试成绩的误用或滥用,引起了政策制定者和理论研究者的关注。能不能找到新的办法来消除原始分的种种弊端?标准分成为了理想的选择。
(二)标准分及其科学性
针对原始分存在的种种不足,统计与测量专家们提出了与之相对应的一个概念,即导出分数。导出分数是在原始分数转换的基础上,按照一定的规则,经过统计处理后获得的具有一定参考点和单位,且可以相互比较的分数③。其中,按照相应的规则和方法把原始分转化为导出分数的过程可称为分数转换。分数转换所采用的方法、算法和约定的规则不尽相同,导出分数的形态也有差异。标准分就是一种广泛应用的导出分数。
标准分是依据教育统计与测量的原理和方法把原始分转化为具有相同意义、相同单位和共同参照点,能表明考试成绩在总体中位置的分数。一般用Z表示,是将原始分与平均分的偏差以标准差为单位表示出来的结果。用公式表示为:Z=(XA)/S。其中:Z为标准分,X为原始分;A为全体被试原始分的平均值,S为原始分的标准差。从具体的算法来看,经过转化后的标准分,具有以下基本属性:第一,平均值为0,标准差为1;第二,分数之间等距,可以作加减运算;第三,转换过程属于线性转换,不会改变原始分的分布形状,也不改变原来分数的位置次序。其中的第三点非常重要,因为高校招生是按照分数的位置次序来录取的。标准分的这三个属性为分数使用带来了极大的便利。因为标准分的单位相同且以标准差为单位来衡量考生分数与平均分之间的距离,不管考生群体的平均分、标准差有多大差异,转换为标准分后,都是以1为单位来衡量考生分数与0之间的距离,度量标准统一且固定不变,因此不同科次考试的标准分之间就具备了可比性和可加性。但是,通过转换后得到的标准分在一般情况下都带小数,而且会出现负值。在大规模考试中的取值范围一般在-3到+3之间。这对实际使用很不方便,也不符合传统习惯。测量学家提出的做法是对标准分进行线性转换,转到更大的标准分数量表上,以消除负数和小数点。转换的通行做法是将标准分乘以一个常数,再加上一个常数,两个常数的值不一样,最终得到的标准分结果也不一样,常数的选择可以根据需要、以约定的方式来确定。目前,国际上一些重要的考试和心理测验都是以这样的结果来进行分数报告,如托福、SAT、GRE、各种智力测验等。我国当时标准分试点采用的转换公式为:高考成绩= 500+100Z。值得注意的是,这里的线性转换尽管引入了两个常数,但对所有考生的分数都一样处理,相乘和相加的效果具有普惠性,同样不会改变原始分的分布形状和位置次序,只是放大了刻度而已。需要指出的是,标准分转换的一个前提是原始分正态或接近正态,对于非正态的情况则需要通过一定统计方法来强行正态化。这种转换在方法上并不复杂,在考试行业中也很常用。本文关心的核心问题是:对于原始分的一系列统计处理,会不会带来原始分位置次序的变化?会不会最终影响考生的录取情况?
(三)标准分引起的考生位次调整
在高考中,从考生的卷面成绩即原始分转换到最后的报告分数即标准分,经历了以下几个关键的技术处理,分别是:(1)单科的正态化处理;(2)单科的标准化;(3)单科标准化后的线性转化。考生总分的合成,在单科上述三个步骤基础上,再加上(4)总分正态化;(5)总分标准化;(6)总分标准化后的线性转化。因而,标准分实施后,考生的成绩已经经过了以上复杂的技术处理,考生拿到的高考成绩单也发生了很大的变化,分数变得相对难以理解①。技术本身的复杂性客观存在,但在科学性层面的改进也是非常明确的。但一个不得不承认的现实是:在上述技术处理过程中的步骤(4)会引起考生位置次序的变化,也就是说,考生总分的原始分位次与总分标准分的位次是不一样的。这是标准分的核心技术之一,它充分考虑了试卷难度以及原始分的标准差,是避免原始分弊端的合理做法。然而,在依据总分进行录取的招生体制下,成绩的高利害性决定了这种变动的高度敏感性,很可能影响一部分考生的录取。对此,在试点过程中也有过专门的分析和探讨。
广东省在试点过程中对原始分和转化后的标准分进行了对比分析,计算了两者之间的相关系数,总分的相关系数达到0.984,说明原始总分在转化前后的顺序变化很小②。考试中心也就分数转换对录取分数线上下人数的变动进行了研究,结果表明:“上、下线的考生每年约占录取考生的7%”①。有关省份也进行了类似的分析,结果也差不多。如:1994年的高考结果表明,所有上录取线的考生中,文史类、理工类和外语类各省高分段前三名考生的原始总分位置在标准分转换后未发生变化,其他考生有不同程度的变化,但大多数变化幅度很小,对录取不会带来实质性影响。对于原始分位置处于录取线边缘的考生来说,这种变化幅度也不大,范围也很小,变化的人数仅占上录取线人数的6%-7%②。这个比例对于部分考生的影响有两种情况:一是在原始分中被录取而在标准分中落榜,二是在原始分中落榜而在标准分中录取。这对部分考生的个体利益调整是非常大的。在社会改革中,利益的调整是不可避免的,关键是基于什么样的价值导向。常用的标准是科学与公平。如果把标准分的实施放在科学与公平这两个广受认同的价值天平上来度量,情况将会怎样?
从技术上来看,标准分较原始分在科学性上具有明显优势。在高考总分录取的现实规则下,标准分充分保证了分数的可加性,维持了各个科目在录取中权重的稳定性,避免了试卷难度差异给招生带来的不稳定性。最关键的是它能够全面反映学生的真实水平,对中学教学的反拨作用也很积极,能够引导学生全面发展,尽量避免出现偏科现象③。“分数面前人人平等”一直是我国现阶段高考制度核心的价值宣示,这是全社会在高考分数使用方式上最具共识的要求,甚至成为社会公平的底线。但是,践行这一核心价值的前提是高考分数评定的科学性,这是保证分数使用公平的基础。标准分的实施本质上是用更加合理的方法来对每一个学生的成绩进行处理,分数的评定以及对考生能力的评估都更加准确。它对于整个高考制度无论是在科学和公平的维度上,还是在高等教育入学机会这一资源的配置效率上,都起到了积极的促进作用。从这一点来看,它的实现方式——对考生位次的重新排列以及由此带来小部分考生的位次变动,恰恰是有理有据,而且是公平的。