转阅二一：考试赋分(二)_即将消逝的乡村

(灵碧曰：顺序名次分，将是未来考试的赋分方式，如果我们要实现素质教育的话！顺序名次分，既可以保证质量，又可以保障公平。)

关于改进新高考选考科目赋分方案的若干思考

英文题名：Some Suggestions the Prrade Sew Gaokao

作者：于涵，韩宁，关丹丹，章建石，焦丽亚

英文作者：YU Han，HAN Ning，GUAN Dandan，ZHANG Jianshi，JIAO Liya （ioions Authority， Beijing 100084）

期刊名：?中国高教研究

作者单位：教育部考试中心；教育部考试中心评价处

年份：2018

页码：P44-49

期号：?第6期

英文关键词：Netios;prrade sdard setting

基金：国家社会科学基金2017年教育学重点课题“新高考制度实施与动态调整研究”(AFA170006)的研究成果

摘要

新高考改革的重要内容之一是将学业水平考试选考科目实行等级赋分，并计入高考总成绩。结合新一轮高考改革的相关政策文件和相关研究结果，以及试点省份的实践反馈等，通过梳理现有选考科目等级赋分的优点和可能存在的缺陷，并对其原因进行探讨，从兼顾科学性、公平性和可操作性出发，提出改进选考科目赋分的方案，为进一步深化考试改革提供参考建议。

关于改进新高考选考科目赋分方案的若干思考

一、研究背景

恢复高考制度以来，?尽管考试科目多次变化组合，但基本规则都是全体考生被分成若干子群体，每个群体考规定的若干科目，以总分作为排序和录取的依据。?从社会视角看，这种录取办法具有高度程序公平、极高操作效率、现阶段最为公众普遍认可的特点。

2014?年?9?月颁布的《国务院关于深化考试招生制度改革的实施意见》提出，“改革招生录取机制，探索基于统一高考和高中学业水平考试、参考综合素质评价的多元录取机制。”［1］同年?12?月颁布的《教育部关于普通高中学业水平考试的实施意见》要求，“计入高校招生录取总成绩的学业水平考试?3?个科目成绩以等级呈现。?”［2］3?门统考科目和?3?门选考科目（即学业水平考试，下同）分数相加形成总分是新高考（即高考综合改革试点，下同）的一个重大特征。这种包含选考科目的总分，不同于以往基于相同考试科目的总分，对考试技术提出了严峻的挑战，从国际上也很难找出成熟的先例可以借鉴。

不同选考科目的原始分显然不能直接相加。新高考实施前各科目原始分之所以可以直接相加，是由于对于同一共同竞争群体（如某省参加高考的全体文科生）而言，其考试科目是完全一样的，各科目试卷无论

难易，?对这一群体的所有考生来说具有相同影响，原始分数直接相加不影响竞争公平性。?而新高考中，各共同竞争群体中考生的选考科目会有不同，在各科试卷难度也不同的情况下，若将选考科目原始分直接相加，再以总分进行排序，很明显是不公平的。这同时会给命题带来极大的压力和风险。

浙沪设计了一套“等级分”方案，基本思路是“将卷面分按事先公布的比例确定等级（浙江设?21?级、上海设11?级），再转换为百分制分数计入总分，相邻等级的分差均为?3?分”［3］。

从实施效果看，等级分简单直观、计算简便，各等级比例事先公之于众，容易被公众接受和认可。?2017年的录取平稳落地，取得了新高考试点的阶段性成功。但试点中也出现了一些新情况和新问题，其中一个比较突出的现象是各选考科目的考生结构发生了不平衡的变化，产生了潜在的问题。

从管理视角看，解决选考结构不合理及学科失衡的现象需要综合施策，如高校应对选考科目提出更加明确具体的要求，对国家发展战略需要的学科可适当提高较高等级的比例。?但是，通过对等级分的技术分析，正视等级分可能存在的区分能力低、可能产生价值扭曲情况［4］［5］，某种程度上甚至加重投机性选考、学科失衡等不符合教育规律和人才培养导向的技术缺陷［4］［6］［7］，提出改进办法，无疑有助于帮助试点省份和后续省份修改完善方案，让高考改革在不断发现问题、解决问题的过程中取得更大的成就。

二、主要问题及原因分析

综合有关文献、实践反馈和我们进行的大量数据模拟来看，以下?3?个问题值得特别关注。

1.可能诱导考生及家长在选科时的博弈心理，造成学科失衡现象。朱邦芬院士指出分数（等级分）高低依赖于一起参考的考生的水准，这种设计非常不利于国民科学精神和科学素质的提高［7］。他的观点和浙江传统理科组合（全部在物理、化学、生物、技术?4科中选择）的选考比例仅为?18.7%的实际数据吻合［4］。陈爱文和胡银泉指出，等级赋分采用看似公平的相对分，但实际上是“伪相对分”。从考生功利的角度出发，每一位考生都要争取自己分数的最大化，能否得到高赋分不但要考虑自身水平，更要看跟谁比较，所以在科目选择上不可避免地产生驱赶效应和磁吸效应［8］。柯政也指出“田忌赛马”现象是等级赋分制度激励的结果［9］。王小虎等指出，由于等级赋分重在相对位次，

“目前成绩”不好的学生会主动追求相对较为容易的学科参与竞争，这种行为事实上扭曲了不同科目的分数价值［4］。另外，科目的冷热不均特别是物理学科作为科学素养的重要代表学科，在高中生中遭受冷遇，很可能意味着大批考生的科学素养在相当程度上会呈现减弱之势，对高校人才选拔和培养工作造成明显压力［4］。部分理工科专业对人才的特质性要求高（如化工专业要求学生同时具备物理和化学的优秀素质），而新方案招收的学生可能在知识结构上有所欠缺，不利于国家人才的培养［4］。杨君提出不同科目之间在分数转换过程中会出现分数倒置现象，即不同的原始成绩经等级转化后，出现有的科目原始分高转化分低，有的科目原始分低转化分高，这种倒置现象会引发公众对考试公平性的质疑［5］。

理论上，如果考生群体充分大且随机分配，按固定比例划分等级是合理可行的。?但从实践来看，在高校对选考科目不同需求的牵引和考生获得高分的利益牵引的共同作用下，难以避免造成不同科目的考生基数不均衡和能力分布不均衡，这时如果仍按照不区分科目的固定比例来划分等级和呈现等级分，就会降低不同科目之间赋分的可比性。?如物理本身难度较大，?在高校需求牵引下优秀学生报考比例也较大，这就会造成部分中下水平考生不敢选考，且这种现象可能会形成恶性循环。

赋分过程中可能产生分数差距扭曲，?不利于提高考试的信度。试点两地在选考科目成绩的呈现方式上都是循着?“原始分-百分比例-等级-等级分”的路径，由于最终呈现的等级分没有保留考生达到某一等级程度的信息或者说考生原始分数差距的信息，对于落到同一等级内的学生以及落到不同等级的学生都会带来不同程度的分数差距扭曲：对于相同等级的考生，不管他们的原始分数相差多大全部对应到同一个等级分值；而落到相邻等级的考生即使他们的原始分差只有?1?分转换后等级分也要相差?3?分。

文东茅等模拟研究显示，等级赋分造成“苦乐不均”，会影响学科特别拔尖者的相对优势［10］。他们发现，在物理科目中，每个等级之间的原始分差大约为

5~7?分；而在化学学科中，则为?2~3?分。在原始分分布标准差较大的情况下，等级赋分有可能缩小原始分的差距（如物理），原始分分布标准差较小的情况下，等级赋分则会扩大原始分的差距（如化学）。在极端情况下，甚至有可能原始分?2?分之差转换为等级分后相差

6?分之多。

3.造成选考科目分数的区分度和权重降低，不能合理体现选考科目的价值和重要性。王小虎等指出，等级赋分必然使高考总分的区分度进一步下降。它一方面减小了分数全距，另一方面会导致高分学生的大量同分现象［4］。文东茅等通过模拟考试的真实数据，显示选考科目会有过多的人获得三科满分、同分甚至是满分现象将导致语数外三门课程的重要性进一步提升［10］。朱邦芬院士以物理为例，指出物理学得好而语文、外语成绩一般的同学，很难被录取，因为物理成绩对高考总成绩的贡献被边缘化了［7］。秦春华也表示，由于语数外在总分中的权重较大，中学势必会选择将其作为应试训练的主要科目，物理等基础性理科教育将受到极大削弱。类似现象曾在前些年个别省的高考改革中出现过，曾迫使部分顶尖大学不得不大幅削减在该省的高考招生指标［11］。

选考科目?3?分一个等级，在考生规模较小的省份

对录取的影响还不明显，但对于考生大省来说问题会更加严重。?3?分一个等级的设计，初衷是为了减轻学生负担，避免“分分计较”，但从实际反馈看，为提升选考科目在总成绩中的竞争力，在“3?分一台阶”设计下，学生和老师反而更加“计较”。陶百强指出现行?3分一个等级的做法使分数区分作用降低与高考的选拔性要求分数差异大以区分考生的客观需求两者之间是矛盾的。他认为测验的计分方式应服务于测验目的和功能，不宜为了反“分分计较”迂回计分方式［6］。

三、改进方案与建议

已经出现了一些关于如何改进选考科目赋分方案的操作性建议。

杨志明提出应该采用标准设定与测验等值相结合的解决方法：各选考科目首次考试成绩要进行等级标准设定，?以后每年要精心选择一个测验等值样本，?通过测试和测验等值推算每个科目每次考试的水平等级线［12］。这是理论上最为完美的解决方案，是最与世界接轨的思路与做法，也是国外很多著名考试项目的常规做法。但我国的考情和欧美一些发达国家大不一样，他们很多成熟有效的做法在我国未必可行。如每次考试都要组织动机相似的考生样本组进行保密的额外测试和数据分析等值等工作，不仅在我国由于操作可行性原因难以实施，从理论上看，我国高考和西方以选择题等客观性题目为主的考试形式不同，大量内容是难以定量分析的主观性试题，更有满分达

60?分之多的作文等特有的大型主观题，也会提出更多的技术挑战。

也有专家提出重新试验使用标准分［13］，在标准分的理论框架下，原始分的作用仅限于对考生排序，将每一个原始分分值对应的百分累积频率对应作为标准正态分布下的左端面积值对原始分分布进行强制正态化，再按照设定的均值和标准差进行一个线性变换后得到在特定分数全域内的标准分数值。与等级分相比，标准分既可以大幅度提高分数区分度和选考科目的权重，又可以在一定程度上减少因为人为划分成绩带来的不同等级分数差距加大、相同等级分数差距抹去的扭曲现象，可能在一定程度上改进对等级分存在的问题。但标准分自身也存在很多缺陷，在对原始分数（特别是偏态分布情况下）进行强制正态化过程中，很可能在低分和高分端人为扩大或缩小分数差距，产生了新的扭曲。如在试题难度较低、区分度不明显、考生分数相对集中的科目上，标准分会将原本微小的分差放大。反之，在试题难度较大、区分度较强的科目上，经过正态转换后的标准分就会将高分端考分之间的距离缩小、将低分端考分之间的距离扩大。另外，它无法解决选考博弈带来的学科失衡问题。同时，标准分的前提条件是建立在相同考生群体之上，在选考造成考生群体不同的背景下，由于起决定作用的仍然是排序，学科博弈现象将仍然存在，且由于科目间人数不均衡，考生群体存在明显差异，违背了各学科标准分可比的理论假设和大前提。温忠麟和罗冠中也明确指出，在选考科目上直接使用标准分是错误的，必须根据该科目考生群体在必考科目上的整体表现

来校准选考科目的标准分［14］。

陈爱文和胡银泉提出设定“熔断机制”，即当某一门学科在选考人数达不到一定要求时，如果考生采用赋分制的得分低于实际的卷面得分，取学生的卷面得分作为实际高考得分。他认为在这种相对分与绝对分相结合的给分机制中，只要考生的真实水平高，考出实际高分，即使赋分低，最终可以取卷面得分作为反映真实水平的实际高考得分，从而减弱高水平学生找低水平学生垫底的需求［8］。但考生的卷面得分（即原始分）不仅与考生水平有关，还与当次考试的试卷难度有关。如果试题容易，将出现较多考生相对分低于实际原始分的情况，而试题较难，则会出现较多考生相对分高于原始分的情况。而在我国由于没有试测等环节，试卷的难易较难控制，这种“熔断机制”很可能会产生新的不公平问题。

借鉴以上改进建议，从考试的公平性、理论的科学性、操作的可行性?3?个原则出发，笔者认为选考科目赋分优化主要面临?3?个问题：①等级划定原则要改进，对于共同竞争群体（如同一省份按照高考总分排序录取原则录取的考生），不同选考科目的等级划定在评价考生的升学竞争力意义上必须是公平的，简单以考生比例划分等级的做法不可取；②同一等级内的赋分原则要改进，同一等级内考生原始分数间的差别是他们能力差别的体现，可以根据考试招生的需要给予不同程度的显现；③等级分量表范围要做适当调整，从而提升选考科目对人才选拔的贡献。比较而言，第三个问题是简单的数学问题，解决起来最为容易。第二个问题经过总结试点的经验和教训，比较容易取得共识，关键是如何在实际工作上形成各方都能接受的解决方案。至于第一个问题，无论在政策上还是技术上都面临很多挑战，需要以创新的精神和科学的研究来解决。

本研究提议，保留浙沪试点等级分的主要逻辑框架但针对上面提到的?3?个问题加以技术改进，形成改进的新等级分。下面按照从易到难的顺序分别讨论以上?3个问题。

1.适当扩大分数全距。在语数外满分各为?150?的前提下，将每个选考科目的分数全距扩大至?80?分到?100分（如采用［20，100］或［0，100］的分数量表），从而提升选考科目在高考总分中的权重。

2.同一等级内原始分转换为等级分的“等比例原则”。设有原始分?x1?和?x2（x1＜x2），分别对应到等级分t1?和?t2，（t1＜t2）。此时，对于介于?x1?和?x2?之间的任何一个分数值?x0，按“等比例原则”可以非常直观和简便

地将这个得分值转换为介于?t1?和?t2 ?之间的一个得分值?t0，方程如下：

x2?－x0?＝?t2?－t0 x0?－x1t0?－t1

通过“等比例原则”，可以将原始分反映出的能力差别等距地映射到等级分上，既避免了分差扭曲，又有效增加了等级分的区分度。

我的书城网

转阅二一：考试赋分(二)