在考试工作中,我们常常会遇到这样的讨论:试题难易是否合适?考查范围有没有偏颇?一份试卷的质量究竟如何判断?
不同的人会有不同的看法——考试机构的领导、用人单位的负责人、考生、培训机构、大众媒体,大家站的位置不同,感受自然也不一样。
这些看法背后,其实都指向两个根本性的问题:考试内容由谁来决定?试题质量由谁来评判?
我一直很想聊聊这个话题。今天以一名从事省人事考试二十余年的“老考试人” 的身份,做一个清晰、客观的梳理,说说自己的观点。希望能为考试工作的科学化、规范化提供一点参考,也避免因为角色错位而影响了考试的公平与权威。
先说第一个问题:考试内容,到底该听谁的?
在公务员录用、事企业单位招聘、干部选拔等这些人才选拔类考试中,考试内容、大纲、命题素材、题型结构等核心要素,其实有着科学的、严格的分工。它从来不以行政意志、个人感受、市场舆论或者培训机构的套路来决定。
考试机构领导:负责组织,不负责命题
考试主管机构的领导,核心职责是什么?是管好流程、管好纪律、管好规范——比如考场安排、考风考纪监督、保密管理、后勤保障等等。
这些都是非常重要的工作,但唯独不包含一项:干预考试的专业内容。
具体来说,领导们不划定考试重点,不指定考点,不要求命题偏向某类题型或素材,不根据个人经验调整考试内容,也不干预试卷定稿和难度设定。
说白了,行政领导负责“管流程、管纪律、管规范”,而“管知识、管考点、管命题”这件事,应该交给专业团队。这种分工不是为了限制谁,而是为了防止非专业的干预损害考试的科学性和公平性。毕竟,行政管理能力强,不等于精通命题测量学。
用人单位领导:提出需求,不决定内容
用人单位是人才的使用端,最清楚岗位需要什么样的人。所以,他们的职责是输入岗位需求——提供岗位职责说明,明确需要哪些专业能力、综合素养,提出考查方向的建议。
这些需求非常宝贵,是命题的重要依据。但是,用人单位领导不参与考试大纲编制,不参与出题,不参与审题定稿。
为什么不让他们直接出题呢?有三个很现实的原因:
第一,容易片面化,只考本单位日常琐碎的工作,忽略了通用能力;第二,标准随意,缺乏统一的人才选拔尺度;第三,选拔狭隘,不利于大范围公平选人。
所以,用人单位拥有建议权和需求权,但不拥有决定权和定稿权。这叫“用人不命题,命题不用人”。
考生、培训机构、媒体:没有决策权,但有监督权
考生是最直接的参与者,但个人对题目难易的感受,主观且差异大——会做的题觉得简单,不会做的觉得难。这种感受很真实,但不能作为考试内容设定的依据,更不能左右考试内容。
社会培训机构呢?他们的目标是应试刷题、套路培训。越套路的题,他们越觉得“好”;越考查真实能力的题,他们反而排斥。如果让培训机构影响考试内容,考试就会变成“套路大赛”,选拔不出真正有水平的人。
新闻媒体是社会舆论的监督者,可以在事后评价考试的公平性和社会影响,但同样无权干预考试内容的设计。
这三类主体,都是考试的重要相关方,他们的反馈和监督很有价值,但不具备决策权。
那么,最终谁说了算?
答案是:权威专家与学者。
正规考试的考试大纲、科目、知识范围、能力结构以及所有试题,最终全部由一支复合型权威专家组研究、论证、审定、定稿。
这个专家组一般由三类人组成:
专业学科专家:把控知识体系的科学性、严谨性、前沿性;
测评命题专家:把控题型结构、难度梯度、测量学指标;
岗位实务专家:确保试题贴合真实工作场景和履职能力。
所有考试内容的增减、考点的取舍、题型的设计、素材的选择,都基于专业论证,而不是个人意志或舆论偏好。
再说第二个问题:试题质量好不好,谁来评判?
很多人习惯凭感觉评价试题:“这题太难了,质量不行”“这题太偏了,不好”。但试题质量其实不是主观感受问题,而是心理测量学、人才测评学中的量化专业问题。
为什么不能由这几类人来评判?
领导评判:领导擅长行政管理,但多数不掌握测量学指标,容易凭个人经验或主观好恶判断。不是说领导水平不行,而是专业领域不同。
考生评判:考生只凭“会不会、难不难”来评价。但难的题未必差——恰恰相反,一道有区分度的难题,可能正是好题。简单的题也未必好,如果人人都会,那这道题就失去了选拔价值。
培训机构评判:培训机构追求套路适配,标准完全错位。越套路的题他们越叫好,越考查真实能力的题他们越排斥。
新闻媒体评判:舆论关注热度,容易以舆情代替专业标准。一次情绪化的吐槽,可能毁掉一套科学设计的试卷。
那专业评判看什么?六个维度
专业专家团队会从以下六个维度,对每道试题、每套试卷进行严格评审:
科学性。知识准确、政策依据权威、表述严谨。没有知识性错误,没有过时的政策,没有逻辑漏洞。
严谨性。题干清晰、设问精准、选项排他、条件完整。没有歧义,没有漏洞,保证所有考生理解一致。
区分度。这是核心指标。好的试题,优秀考生能答对,普通考生居中,薄弱考生答不对。这样才能有效拉开人才层次,实现择优选拔。如果一道题所有人都对或所有人都错,那它就没有区分度,是废题。
效度。通俗说就是“考没考到点子上”。试题要真正考到岗位需要的能力、大纲要求的素养,不考偏难怪,不考无效知识点。
信度。就是稳定性。试卷整体稳定、难度均衡,不同批次、不同状态下考试,选拔结果要可靠、可比。
岗位适配度。试题要贴合真实工作场景、履职思维和实务能力。不能只考书本理论,脱离实际。
还想说第三个问题:科学的评价机制,是一个完整的闭环
光有理论还不够,还要有可操作的机制。正规考试实际上已经建立了一套完整的质量保障体系,我把它概括为六个环节:
第一个环节:命题审题“双审隔离”。 命题组出题后,由另一组审题专家独立审核,多轮交叉把关。从源头消灭错题、偏题、超纲题、歧义题。
第二个环节:指标量化评价。 所有试卷都要测算难度、区分度、信度、效度、覆盖率等量化指标。不达标的试题一律淘汰,失衡的试卷重组优化。不靠“我觉得”,只靠“数据说”。
第三个环节:试测预判校准。 高规格考试前,可以选一批同质样本先试答,根据数据反馈微调难度、修正偏题,避免正式考试“翻车”。
第四个环节:考后大数据复盘。 考试结束后,分析每道题的正确率、失分分布、高分组与低分组的差异。形成质量分析报告,指导下一轮命题改进。
第五个环节:第三方督导监督。 由组织、人社、考试主管部门等组成独立监督体系,全程监督命题、审题、组卷流程,杜绝人情命题、权力干预。
第六个环节:年度动态迭代。 考试命题不是一成不变的。每年更新题库,淘汰老旧试题,增加新政策、新场景,保持考试内容与时代、岗位同步。
这六个环节形成一个闭环,从命题前到命题后,从数据到复盘,从监督到迭代,确保每一次考试都在不断进步。
最后,我想总结一下:一份试卷的诞生,权责边界清晰分明。
回到最初的问题:考试内容和试题质量,究竟该由谁来决定和评判?
答案已经很清晰了:
考试内容的划定、大纲的制定、试题的命制,应该由权威的学科专家、测评专家、实务专家主导决策。考试机构领导和用人单位领导,分别承担组织管理和需求建议的职责,这是他们的专长所在。考生、培训机构、媒体,则发挥监督和反馈作用,他们的声音很重要,但不参与决策。
试题质量的评判,属于专业测量学的工作,只能由命题评审专家依据科学指标进行,不应该以个人感受、行政意志、市场套路或社会舆论作为评价标准。
正规的人才选拔考试,已经建立了从命题审核、量化测评、试测校准、考后复盘、监督管控到动态迭代的全链条科学评价机制。尊重这套机制,就是尊重考试的科学性、公平性和权威性。
希望每一位参与考试工作的同事,都能在自己的角色上发挥专长,相互配合,共同把好人才选拔的每一道关。
毕竟,考试关系到千千万万人的前途,也关系到整个社会的人才质量。这件事,值得我们认真对待。