

效度,因此,是测验开发和测验评价中最基本的考量。
《教育与心理测验标准》(2014版)
Validity is, therefore, the most fundamental consideration in developing tests and evaluating tests.
Standards for educational and psychological testing (2014).

2026年5月,印度全国统一入学考试(NEET)医学类本科入学考试爆发大规模试题泄露。230万名考生成绩被取消,引发全国性抗议。
印度国家考试机构被迫决定于6月21日重新举行考试。为确保考试安全,印度政府历史上首次出动空军飞机和直升机向泰米尔纳德邦等多个城市运送试卷。
空军运试卷这个画面本身已经足够震撼。但从效度验证的角度看,这起事件是一个关于"当考试安全崩塌时,分数还意味着什么"的教科书级案例。
试题泄露的五重效度冲击
1. 评分推论的基础被瓦解
在Kane的IUA论证框架中,评分推论(scoring inference)是论证链的第一环:考生在考场上的表现应当真实反映其在该时点的知识和能力水平。当试题提前泄露,部分考生在上考场之前已经知道答案,他们在卷面上的"正确回答"与临床知识之间不再存在任何对应关系。
分数在这种情况下依然是一个数字,但它代表的不再是能力,而是信息获取的不平等。评分推论的前提被彻底消解。
2. 内部结构的污染
Messick五种效度证据中的"基于内部结构的证据"(internal structure)关注的是:试题之间的相关模式是否符合预期的构念结构。但当泄题发生时,常见的、高频被泄露的试题项目会出现异常高分和异常低区分度——不是因为试题本身质量差,而是因为部分考生提前掌握了答案。
这种系统性污染会扭曲整场考试的项目分析和等值锚定。如果考试机构未能及时识别并排除污染数据,后续的试题校准和题库建设都会受到影响。
3. 反应过程的分裂
"基于反应过程的证据"(response processes)要求所有考生以相同或可比的认知过程完成试题。泄题在此处造成的后果最为直观:一部分考生在回忆和推理,另一部分考生在复述记忆中的答案。两种完全不同的"反应过程"被包装在同一张试卷上,产生的分数却使用同一个标尺解读。
这不是统计学上的微小偏差。这是测量对象本身发生了质变。
4. 概化推论的中断
Kane的概化推论(generalization)要求:某次考试中观察到的分数可以推广到特定全域中的所有可能观察。泄题造成的是典型的"情境污染"(context contamination):在泄题环境下获得的分数无法概化到正常的、无提前接触试题的考试情境中。
即使只有5%的考生接触了泄露的试题,这5%产生的异常高分就足以推动切分点的偏移,影响所有考生的资格判定。
概化域被污染后,不仅作弊者分数无效,整个考试的公平性基准也遭到破坏。
5. 后果效度的全面崩溃
Messick提出的"基于测验后果的证据"(consequential evidence)在本次事件中受到最严重的冲击:
- 考生维度:230万人成绩作废。无辜考生付出了数月的备考时间和心理成本,换来的是一个被取消的分数和一个重新排队的复考。
- 社会维度:全国性抗议、政治介入、公共资源消耗。一场标准化考试的社会成本远远超出了它的测评功能。
5. 决策推论的失效
Kane框架的终点是决策推论(implications):基于考试分数做出的高利害决策(录取、淘汰)应当是合理的。当考试安全丧失时,任何基于该次考试分数做出的录取决策都无法通过合理性检验。
印度政府取消全部分数并组织复考,正是承认了这一事实:决策推论已经无效,唯一的方案是退回起点、重建论证链。
对考试机构的启示
NEET泄题事件不是孤立案例。全球范围内,标准化考试的试卷安全始终是效度论证中最脆弱的一环——与试卷编制、评分标准、等值设计相比,安全保护机制在效度文献中讨论得并不充分。
三个方向值得考试机构关注:
第一,效度论证应当将"考试安全"明确纳入评分推论的前置条件。没有安全交付的考试,后续所有效度证据都建立在沙滩上。
第二,安全事件的效度影响分析应当成为标准化操作。泄题发生后,不仅要追责、重考,还应当系统评估:哪些效度证据来源受到了污染?哪些推论环节需要重新论证?
第三,高利害考试的安全架构设计应当从"防止泄题"升级为"泄题后仍可维持效度"。AIGC时代,基于题库的组卷策略和实时项目暴露监控可能比物理安全(空军运试卷)更具长期价值。
效度证据映射
Messick 五类效度证据:
- 基于内容的证据:本次事件未直接冲击内容效度,但复考试卷的内容平行性需要新的证据支持
- 基于内部结构的证据:可能被污染。泄题项目的难度和区分度参数失真
- 基于后果的证据:严重负面。230万人成绩作废、全国抗议、机构公信力危机
Kane IUA 四个论证环节:
- 评分(Scoring):崩溃。分数与能力之间的对应关系不成立
- 外推(Extrapolation):无意义。基于污染分数的外推没有可靠基础
一句话总结
NEET大规模泄题事件从五个维度同时冲击了效度论证体系,其教训不仅关乎考试管理,更提醒整个测量学界:考试安全不是效度论证的外部条件,它是论证链的第一块基石。基石动摇,全部推论失效。
数据来源:Reuters, The Hindu, Times of India, NDTV 2026年6月报道;Messick S (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13-103); Kane MT (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50(1), 1-73.


A Production of international
Medical Education & Assessment Newsletters
国际医学教育评价简报出品
助力医师成长,成就医师梦想!
国际医学教育评价简讯(international Medical Education & Assessment Newsletters)是由医学考试从业者/爱好者维护的个人公众号,旨在通过遴选和分享国际医学教育和医师评价的简讯,促进医学考试领域的科学研究与理论实践。愿与同仁携手,助力医师成长,成就医师梦想!