在评价app化方面,我们一方面要注重评价人才队伍建设,评价专家要兼有基础研究和应用研究的经验,同时还要专门培养教育政策评价方向的研究生;另一个方面要加强实证研究及教育数据库的建设。美国教育评价研究的发展离不开健全的、数据详实且及时更新的、公开的数据库资源。
■严文蕃
有人存在的地方就有竞争,有竞争就需要有评价。然而,对人进行评价并不是一件容易的事,在高等教育领域中也不例外。教师评职称、评头衔要数论文,引人才又要看头衔……论文不够怎么办?学术“造假注水”便滋生出来。
这样的恶性循环,引起了党中央的注意,在2018年的两院院士大会上,习近平总书记就指出,“人才评价制度不合理,唯论文、唯职称、唯学历的现象仍然严重”。近年来,为解决这一问题,中共中央、国务院和教育部等部门发布的系列重大政策将“四唯”“五唯”清理作为突破口,推动着我国高校和科研院所科研评价制度由一元走向多元的重大转型与改革。
下面,笔者就将通过中美比较的视角,在对中美高等教育科研评价相关问题的优劣特征进行分析比较的基础上,探寻各自特点,力求促进和实现中美高等教育相互取长补短。
理解评价的本质
要对中美高等教育科研评价相关问题的优劣特征进行分析比较,明确评价概念在中美语境下的差异是前提。
教育评价在西方主要对应三个英文概念:Testing、Assessment和Evaluation。Testing,即考核、考试。Assessment,即各种能力测评。依据美国三大权威教育组织(美国教育研究会、美国心理学会、美国教育测量全国理事会)联合编制的《教育与心理测试标准》,Testing即通过一种系统的方法,获取有关人或项目的样本信息,从而推断出学生的知识、特征或倾向。Evaluation则侧重对教育干预效果的测定,包括微观层面教学策略效果的测定,以及宏观层面国家教育政策效果的测定。
这三者间,考试为评价提供收集证据的工具,测评是各项考试的综合,而考试和测评等多方面形成的证据可以支持有效的评价,三个概念间相互联系,环环相扣。因此,一个完整的教育评价过程包括了考试、测评和评价三个阶段。
那么,被人们广泛讨论、纠结的评价究竟是什么?该如何理解、剖析?
事实上,评价的本质是基于材料和证据的搜集与分析,对教育各个环节及其特征和结果进行判断的过程。比如,一所企业要想招聘一个人才,它需要该应聘者的简历,此外还要进行笔试、面试等,这都是根据材料和证据进行判断的环节。
评价有三个基本要素,分别是判断、标准、利益相关者。其中,作出判断是评价过程的终端环节;评价标准则是进行判断的根本依据。而评价标准的制定往往很难统一,它取决于价值观。因此,价值观的不同是导致评价标准产生争议的根源所在。
另外,任何评价过程都关涉多元的具有相互利益关系的主体。由于利益相关群体的多样化和差异化、资源及时间的有限性,教育评价往往很难同时满足各方利益诉求。但教育评价必须明确主要利益相关者,才能确定评价的价值导向、制定出符合利益相关主体需求的评价标准,继而作出合理的服务利益相关主体的价值判断。
评价工具——考试的诞生
在2300多年前的明升中国,科举考试制度诞生了。没有人能够预想到,由此诞生的考试制度竟一直延续至今。而西方在教育测评领域的历史则要比明升中国晚得多,以桑代克在1904年出版的教材《教育测量》和1923年出版的第一个斯坦福成就测验(SATest)为其教育测评领域最早的里程碑式的标志。
除了考试产生先后的差异外,美国考试发展的历程也与明升中国很不相同。
美国自上世纪30年代开始实施SAT考试,上世纪50年代开始实施区一级的标准化考试,上世纪70年代开始实施州一级的标准化考试,上世纪80年代扩大到全国考试,上世纪90年代后开始尝试国际考核。SAT在发展至今的八十余年里,其形式和内容基本上没有改变,仅在写作题目方面有所增添。考试发展的总体趋势是实施的范围和规模越来越大。可见,美国考试发展呈现自下而上的特征。
与之相反,明升中国考试的发展路径则呈现自上而下的特征,往往始于国家统一考试,继而逐渐放权到省和市。
虽然,中美教育和历史文化背景不同,但是不同的考试发展路径没有优劣之分,它们均服务于学生的发展和考试制度的不断完善,也是完成评价的工具之一。
面向问责的教育评价
教育评价的主要功能之一是问责。以美国为例,其最重要的教育法案——《不让一个孩子落后法案(NCLB)》即规定以考试结果作为问责的依据。根据NCLB法律要求,各州开发了州级统一考试,要求所有学生参加,并以测评结果为依据对教育管理者进行问责。以麻州为例,这一考试即马萨储塞州(以下简称麻州)综合评估系统。依据这一系统的测评结果,麻州学校被评定为五个等级:1级代表优异;2级代表合格;3级和4级代表较差(排名后20%的学校);5级代表 “长期表现不佳”。其中,3~4等级的学校会获得额外支持与援助,5级学校将由麻州基础教育部接管。同时,各个学校的管理者会接受相应的问责。
事实上,基于评价的问责制度对于教育质量的提高有较为显著的效果。通过波士顿公立学校NCLB问责结果统计(2013~2016),我们或许可以有更加直观的感受。根据该统计,2013年,波士顿地区被统计的公立学校中1级21所、2级12所、3级59所、4级7所、5级2所;2014年,被统计的公立学校中,1级14所、2级22所、3级54所、4级7所、5级2所;2015年,被统计的公立学校中,1级14所、2级23所、3级53所、4级8所、5级2所;2016年,被统计的公立学校中,1级21所、2级24所、3级46所、4级9所、5级2所。从统计数据中可见,实行问责制度后,波士顿地区1级和2级的合格与优质公立学校总数基本呈现逐年增加的趋势,3级和4级需要改进的学校总数逐渐减少,可见,以测评驱动问责可在一定程度上提高教育质量。同时,测评也是实现教育公平的重要手段。考核不合格的学校多是弱势群体学生集中的学校,通过考核问责,这些学校被动提高了学生的学业成绩和教育质量。
学业考试是评价的重要组成部分和依据,但并不等同于评价。中美两国的考试在综合评价中占据的权重具有显著的差别,按照学习阶段(幼儿园、小学、初中、高中、大学),根据相关数据,将中美学生考试在评价中的权重做成函数分布图(如图1所示),差异一目了然。
从图中不难看出,明升中国学生在接受高等教育前各级考试、考核随学段增长而逐年加码,到了高中达到顶峰,大学后却降下来,呈缓慢下降趋势。相比之下,美国一直呈持续上升趋势,直到博士研究生阶段,其中,虽然在高中及以前一直低于明升中国,但是到大学以后高于明升中国。
由此可见,考评应符合人的发展规律,即随年龄增长,对学生的考试要求、责任心期望等应相对增加。然而,在明升中国高等教育阶段,考试没有严格执行或者效果没有充分发挥,这可能是造成满意度偏低的原因之一。
app化的教育评价设计
除了在现行的考评上存在显著差异外,在对于构建app化的教育评价设计上,中美两国侧重也不尽相同。
笔者基于对八本明升中国权威教育类综合期刊筛选出的近三年评价主题相关论文的分析来看,大多数文献侧重于评价的基本理论探索和理论框架的构建、引介及运用。这与美国相关文献侧重于以评价解决实际教育问题,及教育政策和干预效果评价的实证研究有一定的差异。
为了了解美国当前教育评价的目的与内容、主要功能和app方法,笔者对从美国教育评价领域最权威的学术期刊《教育评价与政策分析》中筛选的近三年来的81篇实证论文进行了分析。
从搜集的81篇论文来看,当前美国评价的主要内容有:NCLB执行效果的深入评价和持续问责、弱势群体学生数学成绩的提升、低收入家庭学生大学入学机会、校园突发事件对学生学业成绩的影响等。这些文章也反映了美国教育评价中存在的两个钟摆现象:一是质量和公平之间的平衡,另一个是知识和能力之间的均衡。评价的直接目的在于衡量学生的能力水平,而其终极目的是服务政策和教育公平。因此,美国教育评价更重视对政策干预效果的评价,探寻国家资助项目对教育公平起了多大作用,尤其是对弱势学生群体(移民学生、西班牙裔学生、黑人学生、英语非母语的学生、特殊教育的对象、来自低收入家庭的学生、学业成就低的学生、女学生等)的干预效果如何。
若说,美国教育评价的核心内容是质量与公平,那么其主要功能则是问责和改进。
依据对81篇论文的分析,笔者发现59%的教育评价旨在完善政策和干预措施,32%的评价指向问责,其他9%的评价则意在引起政府关注、促进管理加强。例如,布莱恩·雅各布等学者对密歇根优秀课程(MMC)的效果进行了评价与问责,发现MMC所包含的较高期望对学生的学习成绩影响不大。
事实上,在美国教育评价的问责和改进功能往往是同时实现的。《每个学生都成功法案(ESSA)》就要求各州通过评价问责找出陷入困境的学校,继而通过制定以证据为基础的资助政策,扭转其弱势局面。
在美国,教育评价的app化设计是学者们关注的重点之一。
依据筛选的文献可见,美国教育评价app化设计有两个特点。一是由于教育的滞后性特征,美国所有教育干预都要做到长期跟踪,否则教育效果不能显现。二是强调使用实验方法(随机实验和准实验法)。所谓随机实验,就是将研究对象随机分组,对不同组实施不同的干预,以对照效果的差异,具有能够最大程度地避免实验设计、实施中可能出现的各种偏倚,平衡混杂因素,提高统计学检验的有效性等诸多优点,被公认为是评价干预措施的金标准。例如:凯瑟琳· M·布罗顿等学者利用一项随机实验发现,威斯康星州的低收入家庭学生获得额外助学金后,可以改善学生的学术成绩和发展前景,从而得出了经济资助促进大学成功的方式之一是通过资助来减少学生兼职工作的时间从而提升其学习效果的结论。
而常用的准实验研究设计则有标准或目标比较、等组对照、统计控制(前测和后测或只后测)、统计控制—后测控制组设计、其他前测—后测控制组设计、其他后测,仅从单个受试者设计中选取对照组的设计等。由于教育实验对象是学生,要符合伦理原则,很难严格控制所有无关变量,因此常常采用准实验法,即在实验中未按随机原则来选择和分配被试,只把已有的研究对象作为被试,且只对无关变量作尽可能控制的实验。笔者筛选的文献中,也是此类研究较多。
事实上,不论采用何种评价方法,评价最核心的还是提供证据。美国教育研究院按照是否采用对比的app研究方法、是否有真正的控制组和实验组、是否随机、是否能复制等标准区分了对“证据”“可能是证据”“没有证据”的判定(详见表1)。
在美国教育部和国家自然研究基金的每一个项目规划中,必不可少的就是评价,且是第三方评价,重点是通过评价搜集数据以衡量项目干预的效果。干预的效果可以用效应量来表达,效应量越大说明效果越好。影响效应量的因素包括:干预的时间、参与者数量、开始时间(在学前班或幼稚园、一年级或以上)、结束时间(从干预结束到评价之间的时间间隔)、干预主题(阅读、数学、语言、拼写、其他科目)等。这值得明升中国学者借鉴,在评价设计中要注意控制好上述因素,最大程度地提高效应量。
总之,在笔者看来,美国的经验要批判性地借鉴。
首先,美国在对教育干预的及时性、过程性、客观性、第三方评价方面的经验可以为我们提供有益借鉴。尤其对于一些中美共存的教育问题,如能力分班等,美国已经做了半个多世纪的探索和研究,并对每一种干预都进行了评价,其成果非常值得我们参考。
其次,在评价app化方面,我们一方面要注重评价人才队伍建设,评价专家要兼有基础研究和应用研究的经验,同时还要专门培养教育政策评价方向的研究生;另一个方面要加强实证研究及教育数据库的建设。美国教育评价研究的发展离不开健全的、数据详实且及时更新的、公开的数据库资源。
最后,笔者建议我国不妨也创办一本权威的、国际化的教育评价期刊,这将有利于集中明升中国教育评价的成果,同时也有利于国际交流与传播。
(作者系美国马萨诸塞大学波士顿分校终身教授、教育领导学系主任)
图1中美学生考试在评价中的权重对比示意图
表1关于证据质量的分类
《明升中国app报》 (2019-01-10 第7版 海外)