欢迎来到速发表网,咨询电话:400-838-9661

关于我们 登录/注册 购物车(0)

期刊 科普 SCI期刊 投稿技巧 学术 出书

首页 > 优秀范文 > 教育测量与评价论文

教育测量与评价论文样例十一篇

时间:2022-08-18 11:11:43

教育测量与评价论文

教育测量与评价论文例1

提要 本文针对教育评价相关关系不清的总是从多角度对此进行了辨析,并对教育评价学科群的建设,提出了许多有益的建议。

关键词 教育测验 教育测量 教育评价

作者 刘尧 浙江师范大学教科所副研究员(金华 321004)

教育评估、教育评价是20世纪30年代在美国兴起,60 年代兴盛于西方世界并传入我国。这些学科虽然在我国大力发展已有20余年,但理论

研究的进展不大,学科的成熟度不高,与我国广泛开展的教育评价活动很不适应.我国各省市都有考试院(中心),也成立了许多评估、评价机构,广泛展开了对教育测评估评价活动。而与此相应的教育测验、教育统计、教育测量、教育评估、教育评价理论很不成熟.尤其值得重视的是教育评价与教育研究和发展,以及对教育评价实践的指导.鉴于此,本文对与教育评价相关概念进行简述和辨析.

一.关于教育评价相关概念简述

教育测验:即为考试,它是对人的知识、技能和能力以及某些心理特征的测量。考试是教育评价的一种手段。考试是个系统,它由主考、

被考(考生)、试卷(试题的集合及其评分标准)、考分四要素组成。考试的过程就是主考组织编制试题,通过试题作用于被考,将正确答案、评分标准与被考的反应(答案)相比较,然后给出考分的过程。考试从宏观上可分为社会考试和教育考试两大类。教育考试又可分为校内考试和校外考试两类。按考试分数的解释与使用,可分为常模参照性考试和标准参照性考试。按考试对象分,有学业的成就考试、学术能力倾向测验(其目的在于测量考生学习的潜在能力、发展倾向,如音乐能力倾向测量)、人格测验(如测量态度、兴趣、情绪、性格等).按测验人数分,有个别测验、团体测量.接测验方式分,有纸笔测验(用笔时试卷作答)和非纸笔测验(如口试、实验操作、表演等)。其它可分为难度测验、速度测验、总结性测验、诊断性测验以及大规模测验(其成绩的使用有权威性,要求严格,标准化程度高)、教师自编测验(即教师自编用于课堂教学的测验)等.[1]

教育统计(学):运用数理统计学的原理和方法研究教育现象中的数量关系的一门应用学科。它通过数据的分析和处理,准确地掌握教育

情况,为制定教育方针、政策提供科学依据,为开展教育科学研究,探索教育规律,制定教育方案,检查教育效率提供科学方法,也为教育管理和教育评价提供有效的工具.它分为两大类:一是描述统计学,研究简缩数据和描述这些数据,二是推断统计学,用数据进行统计检验,统计分析和非参数统计法作出决策。前者只是分析某一样本的特点,而后者则是通过抽取母体的一个样本,并以此样本为根据来分析母体的特点.它是在教育问题的研究中,描述样本,分析样本,分析样本与总体的关系,从而进行教育科学推论的一种原理和方法.其研究方法一般有:大量观察法、统计分组法、综合指标计算法、统计资料检验法、统计资料图示等。[2]

教育测量(学):研究如何测量学生的学业成绩、学习能力、兴趣爱好、思想品德以及教育效益等问题的一门教育学科。它运用各种测量

手段和数理统计方法等数学工具,根据教育目标或教学计划的要求,研究如何测量和评价教育效果,如何编制测量计划,各种类型试题的优缺点,衡量一个学业成绩测验好坏的数量指标,如何进行测验结果的统计分析,测验分数的解释和评价等.其主要内容包括:测量原理、项目分析、效度、信度、标准化测验、测验的设计和编制、测验的常模、测验的实施和评分、测验结果的解释等。[3]

教育评估:是一种有系统地去寻找并搜集资料,对评估对象作预测性、估计性的评判,以便协助教育决策者从若干种可行的策略中择一而

行的过程.在我国教育评估与教育评价不作严格区别,在实践中具体运用时,不同的范围和场合有不同的习惯用法.如高等教育中多用评估,在督导部门也称督导评估,而在普通教育领域多用教育评价不过两个概念是有一定区别的.评估有估价的含义,较为模糊粗略,而评价相对而言是较为精确的价值判断,评估多用于群体或单位的状态及效果的估价,而评价则既有对群体和单位的价值判断,也有对个人的判断.教育评估的一个重要目的就是为教育决策提供重要依据,国家教育管理部门要根据教育评估的结果,及时调整教育的决策。教育评估的结果对国家、对学校都是一份咨询材料,而不是行动纲领.[4]

教育评价(学):以教育为对象,研究各类教育目标与相应的教育现象之间的关系,并给予一定的价值判断的学科.它的研究范围可划分

为:宏观教育评价(研究教育思想评价和教育制度评价)和微观教育评价(研究学校教育系统内部各类教育思想和教育活动的评价,如学校办学思想、学校领导管理质量、教师教育和教学质量、学生德智体全面发展质量的评价等)。它的基本范畴是:教育评价的对象,教育评价的范围,教育评价的模式,教育质的规定性评价,教育量的规定性的评价,教育质和量变化的度的评价,教育评价的指标体系,教育评价的类型.其研究的基本原则有:客观性原则、理论联系实际原则、发展性原则和联系性原则.其种类包括目标评价、过程评价、条件评价、贡献评价等.[5]

教育评价(学):教育评论学是研究教育评论现象和教育评论活动规律的科学.或者说它是研究教育评论的历史、现状,教育评论现象的

本质联系,教育评论工作的性质、任务和作用,以及教育评论工作的原则、方法的科学.教育评论学是与教育理论、教育史并列的一门教育学科.要建立教育评论学的学科体系,必须解决两大难题,即建立教育评论学的范畴体系和概念体系,并给予科学的揭示和阐述,使这些概念和范畴形成一个有机整体.同时,还要运用这些概念、范畴及其所固有的内在联系,采取科学的方法论证教育评论活动中最普通、最一般的科学原理;从而揭示出整个教育评论活动及其形成和发展的基本规律。教育评论学的研究对象和任务,从根本上规定了教育评论学的学科性质和范畴.首先,教育评论活动是一种教育科研活动,它的直接结果是鉴别、评判教育文化的优劣,进而对教育界产生社会舆论导向作用;而教育文化本身及其所产生的依附于受教育者身心的精神产品,都属于意识形态范畴,可见教育评论家属于研究意识形态和揭示教育评论活动的本质规律,建立完整的教育评论学学科体系。所以,教育评论学也属于基础理论学科。再次,教育评论学的研究对象决定了教育评论学涉及整个教育领域,内涵十分丰富。也可从不同视角,针对不同范畴建立多部门、多层次的分支学科(如:教育理论评论学、教育史评论学、教育行政评论学、教育家评论学等),所以教育评论学又是一门综合性的学科[6]

二、关于教育评价相关概念与教育评价的关系

教育评价与教育测验的关系:教育测验是对人的知识、技能和能力以及其他某些心理特征的检测,是教育评价的一种手段,确切地说它是

教育评价获得评价信息的工具之一.教育评价获取信息的测验法就是来自于教育测验.

教育评价与教育统计的关系:教育统计是运用数理统计的原理和方法研究教育现象中的数量关系,通过数据的分析和处理确切地掌握教育

情况,也是教育评价的一种手段和工具。教育评价中获取信息的统计法就来自于教育统计。

教育评价与教育测量的关系:教育测量通过对学生知识的掌握、智能的发展、思想品德的变化、体质的状况以及教育活动的各个方面的测

定,为教育评价提供依据,是教育评价信息的主要来源.如果没有教育测量提供的资料,教育评价将成为无源之水,失去了作价值判断的依据,其科学性、准确性便无从谈起。另外,教育测量的结果只有通过教育评价才能获得实际意义,成为改进教育工作有参考价值的信息.[7]

教育评价与教育评估的关系:教育评价与教育评估是非常相近的两个概念,在许多场合是通用的。评价是精确的价值判断;而评估是估计

的、预测性的价值判断。在我国从政府的文件到学者的文章论著,以及教育实践都把评估与评价混用。我个人倾向于把教育评估的对象限定在以宏观、中观的复杂教育系统的战略性、预测性估价方面,对于微观的较简单的教育系统的过去和现存实态则作为教育评价的对象。

教育评价与教育评论的关系:教育评论是对教育文化的反思和展望,它的对象是以教育文化中的精神文化和制度文化为主的,以真善美作

为评论标准的观念活动。严格讲它与教育评价虽只一字之差,但它与教育评价分属于教育科学的不同领域,有着重大区别。比如,教育评价是一种管理活动,而教育评论则为观念活动;教育评价由评价机构按严密的程序实施,而教育评论则由教育评论家个人采用灵活多样的方式方法评述;教育评价有明确的指标体系并要求量化,而教育评论无需指标体系更不用量化,教育评价的对象是具体的可控的,而教育评论的对象是抽象的,不可控的;教育评价的结果多用于改进工作,而教育评论的结果则多用于改变观念;等等。这不是说教育评价与教育评论一点关系都没有,它们的关系表现在教育评价的结果可以成为教育评论的论据影响教育评论,而教育评论的结果可以作为教育思想观念影响教育评价所依据的教育价值观。

三、从价值论角度看与教育评价相关概念的区别

唯物主义的价值论认为,价值判断和事实判断是人们把握客观世界和两种不同方式。两者反映的对象、意义和参加的心理成份都有着质的

区别。事实判断是以客体的本质和规律为对象的,它探讨客体“是怎样的“、”是什么“,探讨事物的现象、本质和规律等实体属性,即以理性认识这种抽象思维形式反映客体的本质及其规律。而价值判断是以客体与主体需要的关系为对象,它探讨客体的价值属性,即客体的社会意义------对社会需要意味着什么,它以多种意识形式-----认识(价值与事实判断)、情感(对价值的态度体验)、意志(对价值的自觉保证)等诸种形式的综合来反映客体与主体需要的关系。

从前面的分析可以看出,教育评价对评价的对象不仅要借助教育测验、教育统计、教育测量进行量的测定和分析,而且要进行质的分析,

把所有考查绩效的材料和分析综合起来,在多大程度上达到了预期的目的作出价值判断。从这里可以看出,教青评价行为是建立在事实判断基础上的价值判断.教育评价中的事实判断在于诊断与鉴别教育的性状,价值判断则是对诊断鉴别而得的结果或结论,按其价值取向进行合乎目的的推断和判断;事实判断是价值判断的基础,价值判断是事实判断的目的性追求。而教育评论是依据一定的教育价值观和教育价值取向,对教育的一种价值判断。从教育测验到教育评论是一个由事实判断向价值判断的变化过程,我们不能说教育测验丝毫没有价值判断,如在测验什么不测验什么的问题上是有价值判断的;同样,我们也不能说教育评论就无点滴的事实判断,教育评论需要通过事实判断的真凭实据作论据。

四、对教育评价学及其学科群研究的建议

教育评价学经过几十年的发展已初步形成了学科体系,尽管概念、体系有待完善,但已为下一步的研究打下了坚实的基础。与此相应的考

试学(研究教育测验的学科)、教育统计学、教育测量学、教育评估学、教育评论学都已有相应的发展,形成了一个共生的教育评价学科群。21世纪,要使这个学科群得到良好的发展,我认为首先对各个学科的研究范围有个明确的划分,尤其是对教育评价学要有合理的定位,不要再把考试学、教育统计学、教育测量学的内容纳入自己的努力范围,要让它们以独立的学科更好地为教育评价学服务。另外,教育评价学还要把属于教育精神文化、制度文化类的抽象的,教育评价无力评价的范围还给教育评论学,让教育评论学更快地发展.同时,要把教育评估与教育评价的关系处理好,可将两者合二为一,形成统一的学科.其次,各学科要明确自己的研究对象,形成概念体系和学科体系,把一些已成熟的概念和理论约定俗成稳定下来,逐步形成相对稳定的学科知识和概念体系。第三,要处理好理论与实践的关系,加强理论研究,使其适应实践的要求,要积极总结实践经验并升华为新的理论,丰富和发展教育评价学学科体系.第四,要处理好引进与消化吸收的关系问题。无论是从国外引进的教育评价学理论,还是从教育科学界以外引人教育的评价理论都要结合我国的教育理论和教育实践,进行修正使其“本土化”和“教育化”。

综上所述,搞清教育评价相关概念的关系,对理清教育评价学科群内各学科的关系,促进该学科群的发展,为丰富和发展教育科学,加快

教育测量与评价论文例2

一.关于教育评价相关概念简述

教育测验:即为考试,它是对人的知识、技能和能力以及某些心理特征的测量。考试是教育评价的一种手段。考试是个系统,它由主考、

被考(考生)、试卷(试题的集合及其评分标准)、考分四要素组成。考试的过程就是主考组织编制试题,通过试题作用于被考,将正确答案、评分标准与被考的反应(答案)相比较,然后给出考分的过程。考试从宏观上可分为社会考试和教育考试两大类。教育考试又可分为校内考试和校外考试两类。按考试分数的解释与使用,可分为常模参照性考试和标准参照性考试。按考试对象分,有学业的成就考试、学术能力倾向测验(其目的在于测量考生学习的潜在能力、发展倾向,如音乐能力倾向测量)、人格测验(如测量态度、兴趣、情绪、性格等).按测验人数分,有个别测验、团体测量.接测验方式分,有纸笔测验(用笔时试卷作答)和非纸笔测验(如口试、实验操作、表演等)。其它可分为难度测验、速度测验、总结性测验、诊断性测验以及大规模测验(其成绩的使用有权威性,要求严格,标准化程度高)、教师自编测验(即教师自编用于课堂教学的测验)等.[1]

教育统计(学):运用数理统计学的原理和方法研究教育现象中的数量关系的一门应用学科。它通过数据的分析和处理,准确地掌握教育

情况,为制定教育方针、政策提供科学依据,为开展教育科学研究,探索教育规律,制定教育方案,检查教育效率提供科学方法,也为教育管理和教育评价提供有效的工具.它分为两大类:一是描述统计学,研究简缩数据和描述这些数据,二是推断统计学,用数据进行统计检验,统计分析和非参数统计法作出决策。前者只是分析某一样本的特点,而后者则是通过抽取母体的一个样本,并以此样本为根据来分析母体的特点.它是在教育问题的研究中,描述样本,分析样本,分析样本与总体的关系,从而进行教育科学推论的一种原理和方法.其研究方法一般有:大量观察法、统计分组法、综合指标计算法、统计资料检验法、统计资料图示等。[2]

教育测量(学):研究如何测量学生的学业成绩、学习能力、兴趣爱好、思想品德以及教育效益等问题的一门教育学科。它运用各种测量

手段和数理统计方法等数学工具,根据教育目标或教学计划的要求,研究如何测量和评价教育效果,如何编制测量计划,各种类型试题的优缺点,衡量一个学业成绩测验好坏的数量指标,如何进行测验结果的统计分析,测验分数的解释和评价等.其主要内容包括:测量原理、项目分析、效度、信度、标准化测验、测验的设计和编制、测验的常模、测验的实施和评分、测验结果的解释等。[3]

教育评估:是一种有系统地去寻找并搜集资料,对评估对象作预测性、估计性的评判,以便协助教育决策者从若干种可行的策略中择一而

行的过程.在我国教育评估与教育评价不作严格区别,在实践中具体运用时,不同的范围和场合有不同的习惯用法.如高等教育中多用评估,在督导部门也称督导评估,而在普通教育领域多用教育评价不过两个概念是有一定区别的.评估有估价的含义,较为模糊粗略,而评价相对而言是较为精确的价值判断,评估多用于群体或单位的状态及效果的估价,而评价则既有对群体和单位的价值判断,也有对个人的判断.教育评估的一个重要目的就是为教育决策提供重要依据,国家教育管理部门要根据教育评估的结果,及时调整教育的决策。教育评估的结果对国家、对学校都是一份咨询材料,而不是行动纲领.[4]

教育评价(学):以教育为对象,研究各类教育目标与相应的教育现象之间的关系,并给予一定的价值判断的学科.它的研究范围可划分

为:宏观教育评价(研究教育思想评价和教育制度评价)和微观教育评价(研究学校教育系统内部各类教育思想和教育活动的评价,如学校办学思想、学校领导管理质量、教师教育和教学质量、学生德智体全面发展质量的评价等)。它的基本范畴是:教育评价的对象,教育评价的范围,教育评价的模式,教育质的规定性评价,教育量的规定性的评价,教育质和量变化的度的评价,教育评价的指标体系,教育评价的类型.其研究的基本原则有:客观性原则、理论联系实际原则、发展性原则和联系性原则.其种类包括目标评价、过程评价、条件评价、贡献评价等.[5]

教育评价(学):教育评论学是研究教育评论现象和教育评论活动规律的科学.或者说它是研究教育评论的历史、现状,教育评论现象的

本质联系,教育评论工作的性质、任务和作用,以及教育评论工作的原则、方法的科学.教育评论学是与教育理论、教育史并列的一门教育学科.要建立教育评论学的学科体系,必须解决两大难题,即建立教育评论学的范畴体系和概念体系,并给予科学的揭示和阐述,使这些概念和范畴形成一个有机整体.同时,还要运用这些概念、范畴及其所固有的内在联系,采取科学的方法论证教育评论活动中最普通、最一般的科学原理;从而揭示出整个教育评论活动及其形成和发展的基本规律。教育评论学的研究对象和任务,从根本上规定了教育评论学的学科性质和范畴.首先,教育评论活动是一种教育科研活动,它的直接结果是鉴别、评判教育文化的优劣,进而对教育界产生社会舆论导向作用;而教育文化本身及其所产生的依附于受教育者身心的精神产品,都属于馐缎翁冻耄杉逃缆奂沂粲谘芯恳馐缎翁徒沂窘逃缆刍疃谋局使媛桑⑼暾慕逃缆垩аЭ铺逑怠K裕逃缆垩б彩粲诨±砺垩Э啤T俅危逃缆垩У难芯慷韵缶龆私逃缆垩婕罢鼋逃煊颍诤址岣弧R部纱硬煌咏牵攵圆煌冻虢⒍嗖棵拧⒍嗖愦蔚姆种аЭ疲ㄈ纾航逃砺燮缆垩А⒔逃菲缆垩А⒔逃姓缆垩А⒔逃移缆垩У龋越逃缆垩в质且幻抛酆闲缘难Э芠6]

二、关于教育评价相关概念与教育评价的关系

教育评价与教育测验的关系:教育测验是对人的知识、技能和能力以及其他某些心理特征的检测,是教育评价的一种手段,确切地说它是

教育评价获得评价信息的工具之一.教育评价获取信息的测验法就是来自于教育测验.

教育评价与教育统计的关系:教育统计是运用数理统计的原理和方法研究教育现象中的数量关系,通过数据的分析和处理确切地掌握教育

情况,也是教育评价的一种手段和工具。教育评价中获取信息的统计法就来自于教育统计。

教育评价与教育测量的关系:教育测量通过对学生知识的掌握、智能的发展、思想品德的变化、体质的状况以及教育活动的各个方面的测

定,为教育评价提供依据,是教育评价信息的主要来源.如果没有教育测量提供的资料,教育评价将成为无源之水,失去了作价值判断的依据,其科学性、准确性便无从谈起。另外,教育测量的结果只有通过教育评价才能获得实际意义,成为改进教育工作有参考价值的信息.[7]

教育评价与教育评估的关系:教育评价与教育评估是非常相近的两个概念,在许多场合是通用的。评价是精确的价值判断;而评估是估计

的、预测性的价值判断。在我国从政府的文件到学者的文章论著,以及教育实践都把评估与评价混用。我个人倾向于把教育评估的对象限定在以宏观、中观的复杂教育系统的战略性、预测性估价方面,对于微观的较简单的教育系统的过去和现存实态则作为教育评价的对象。

教育评价与教育评论的关系:教育评论是对教育文化的反思和展望,它的对象是以教育文化中的精神文化和制度文化为主的,以真善美作

为评论标准的观念活动。严格讲它与教育评价虽只一字之差,但它与教育评价分属于教育科学的不同领域,有着重大区别。比如,教育评价是一种管理活动,而教育评论则为观念活动;教育评价由评价机构按严密的程序实施,而教育评论则由教育评论家个人采用灵活多样的方式方法评述;教育评价有明确的指标体系并要求量化,而教育评论无需指标体系更不用量化,教育评价的对象是具体的可控的,而教育评论的对象是抽象的,不可控的;教育评价的结果多用于改进工作,而教育评论的结果则多用于改变观念;等等。这不是说教育评价与教育评论一点关系都没有,它们的关系表现在教育评价的结果可以成为教育评论的论据影响教育评论,而教育评论的结果可以作为教育思想观念影响教育评价所依据的教育价值观。

三、从价值论角度看与教育评价相关概念的区别

唯物主义的价值论认为,价值判断和事实判断是人们把握客观世界和两种不同方式。两者反映的对象、意义和参加的心理成份都有着质的

教育测量与评价论文例3

【关键词】 教育评价;共同的心理建构;教育哲学;反证法

教育评价的本质归根结底是一种价值判断,是根据一定的标准,在系统而科学地收集和运用信息的基础上,对教育活动发展变化的过程和结果进行价值判断的过程,从而达到价值增值的目的。[1]对于教育评价观的说法,各方众说纷纭,其中笔者比较认可格朗兰德的教育评价观:教育评价=事实判断(测量+非测量)+价值判断,同时对此也有更新的想法,故在原有公式的基础上提出新式教育评价观:教育评价=事实判断(测量+非测量)+共同的心理建构。笔者提出的新式评价观有待于考证,在此运用数学反证法的判断方法来证明新式评价观的成立,其中命题支撑理论基于教育哲学的观点,从而达到自圆其说的目的。

反证法证明:教育评价=事实判断(测量+非测量)+共同的心理建构

一、反设命题:教育评价≠事实判断(测量+非测量)+共同的心理建构

反证法就是从否定命题的结论入手,并把对命题结论的否定作为推理的已知条件,进行正确的逻辑推理,使之得到与已知条件、已知公理、定理、法则或者已经证明为正确的命题等相矛盾,矛盾的原因是假设不成立,所以肯定了命题的结论,从而使命题获得了证明。因此,本文的假设命题是:教育评价≠事实判断(测量+非测量)+共同的心理建构。

二、相关理论推理归谬,导出矛盾

1、教育评价的基本内容

教育评价不仅要对教育活动当前的或已经达到的结果作出价值判断,还要对它的发展变化及评价对象潜在的价值作出判断,并注重评价过程的动态性、发展性和协商性。现代教育评价观是以教育哲学为基础,是强调以人为本、建构“共识”、动态协商的真实性的评价,是根据一定的标准,在系统、全面、科学地收集、整理、处理和分析、运用教育信息的基础上,对教育活动的过程和结果进行动态的共同的心理建构的过程,目的在于促进教育改革,提高教育质量。

现代教育评价的理念突出强调以人为本,注重发展,重视过程。教育评价中,以人为本的评价理念主要体现在强调对人的尊重、解放和发展,突出人在普及活动中的主体地位和作用,强调评价人的态度、情感等。其中,其哲学基础主要体现在:它是一种价值取向,强调尊重人、解放人、塑造人和依靠人;它是一种对人在社会发展中的主体作用与地位的肯定;更是一种思维方式,要关注人的普遍性、共性、人的个性与共同人性,要对人的生存和发展的命运确立其终极关怀,要关注人的生活世界……

现代教育评价还应遵循教育性、真实性、动态性、协商性、多元性和伦理性原则。其中笔者需要强调,真实性原则突出“准确”,指教育评价在占有客观性事实资料的基础上,对整个教育活动做出准确的价值判断;动态性原则突出“发展”,指教育评价应该成为一个活动的、持续的过程,以达到改进工作、提高学习水平的目的;协商性原则突出“共识”,指评价双方就评价主题协商、达成共识,形成一种平等交流的信任关系;多元化是指教育评价的内容、主体、方式方法及标准应该是多样性的。

2、“共同的心理建构”论证

教育评价的历史发展共经历了考评、测量、描述、判断和建构五大阶段,其中建构阶段的建构性评价是针对以前评价的不足提出来的,与以前的评价明显不同,它是一个社会政治过程,而非科学技术过程,其结果是有关评价对象及其意义的一个或多个理论框架,而且是利益相关者通过协商达成的,其中“共同心理建构”则是此评价阶段中的精髓“产品”,更体现哲学的人性中“以人为本”的思想。因此,建构阶段比以前的评价都更符合实际,更适应时代的发展。

首先,建构性评价中描述的“共同心理建构”。评价描述的不是客观事物、本真的状态,而是参与评价的所有人或团体关于评价对象的一种主观性认识。评价的结果强调参与评价有关的人的共同的看法,不单是评价者对评价对象的主观认识,所以评价活动发现的不是事实和评价者的价值判断,而是参与评价的所有人的共同的心理建构。其次,评价中存在着多元的价值判断。人们对某事物的评判往往是以自己的价值观念为基础的。实际上,由于参与评价的价值标准是不一样的,所以对同一教育现象就会有不同的价值判断,这就需要一股绳子聚集各方的力量即多元的价值判断。教育评价不是在多元的价值判断中选取某种代表性的或权威性的判断,而是在不同的价值体系之间进行协调,以缩小各方的价值分歧,进行“共同心理建构”。最后,评价中要关注以人为本。从教育哲学的“以人为本”出发,并将此作为一项工作原则,贯穿于评价过程的始终。前阶段的评价中也有“以人为本”的要求,如尊重评价对象尊严、隐私等,但在此的假设是,评价对象处于弱势地位,主要是出于对评价对象的保护。建构性评价提出将“以人为本”作为一项工作原则,主要是基于“全面参与”的意识提出的,所有的人都出于政治上的平等地位,所有参与评价的人都是作为平等的合作伙伴出现的。

在分析这种建构性评价的过程中,可引入“诠释辩证的循环圈”(hermeneutic dialectic cercle)这一理论。在这个循环圈中,第一,要尽可能的吸收各方见解;第二,要努力使资料收集工作具有相互影响性;第三,要在各有关方面充分阐述、解释的基础上,透过协商和分析,逐渐形成共识,即“共同心理建构”;第四,探究者和评价者必须注意的是,“诠释辩证的过程”是为了在不同的建构间建立起联系,是为了形成“共识”。[2]建构阶段教育评价是一种民主协商、主体参与的过程,而非评价者对评价对象的控制过程,并受多元主义价值观的支配,它把评价视为评价者和与评价有关的各方通过“协商”进行的共同的心理建构过程。此外,该评价具有较强的哲学理论基础,大量运用了当代教育哲学中的最新理念,如诠释学的“辩证循环”、人种学的“质性”方法、人类学以及后现代主义的“对话”等。建构性评价充分反映了当前社会生活中的民主气息和人文关怀,体现“以人为本”。

作为建构性评价的精髓――“共同心理建构”,可取代教育评价所谓的“价值判断”这一本质,因为共同的心理建构本身已包含价值判断,更加强调的是多元化的“以人为本”、“协商”及“共识”的价值判断,同时也强调教育评价的基本内容,如以人为本、注重发展过程的教育理念,以及真实性、动态性、协商性、多元性的评价原则,这不仅符合哲学的价值取向,丰富了原有评价观(如格朗兰德的评价公式),带来一种耳目一新的感觉,更顺应时代的发展要求。

因此,假设命题:“教育评价≠事实判断(测量+非测量)+共同的心理建构”与教育评价的基本内容和建构阶段中的评价理论是相互矛盾的。

三、反正法结论

通过反证法证明得出:假设命题“教育评价≠事实判断(测量+非测量)+共同的心理建构”不成立,即所求证命题“教育评价=事实判断(测量+非测量)+共同的心理建构”是成立的。

【注 释】

教育测量与评价论文例4

20世纪的学者围绕着“如何合理地衡量‘预期目标’和‘实际结果’的存在的差异”的问题展开研究, 30年代来自泰勒“目标达成评价”奠定了美国教育评价的基础。随着联邦政府对教育的投入,教育评价取得了繁荣和昌盛,对“目标达成评价”的批评来自两个方面:一是针对教育目标本身的攻击。反对该次课程改革的人们开始质疑课程改革本身是否能满足社会需要,也就是质疑教育目标自身的合理性问题,这就使得原本“中立”的目标评价对自身的价值产生了反思。二是针对教育目标实施过程的关注。这时人们关注的并不仅仅是目标的达成,而是在过程之中所具有的繁复情境,关注在各种情境下的参与者特有的价值立场。教育研究者对教育改革实施过程的关注使得参与者的价值立场凸现出来。这些批评带来了教育评价革命性的发展。与此同时,评价研究配合联邦政府的教育渗透政策,展开新的评价视阈的开拓。

一、屏蔽价值:目标达成的“科学”评价

20世纪30年代,美国俄亥俄州立大学教授泰勒 (Ralph W.Tyler)站在课程研制的管理者立场,将评价拓展到教育方案质量的评价。不过,这种拓展受到当时科学管理思想的影响,所谓的方案质量的评价指:将课程视为目标的存在。泰勒宣称评价是“测定教育目标在课程与教学的方案中究竟被实现多少的历程”,而评价的核心就是长存于历史当中的“学习经验(learning experience)的发展”。为此,课程评价的重点工作就是确立客观可信的标准和测量的工具,而工具应该能够囊括“教育目标所期望的行为的任何有效证据”,如纸笔测验(paper-and-pencil tests)、观察(observation)、交谈(interview)、问卷(question-naires)、收集实际作品(actual products)等。30年代早期,泰勒的评价方法在俄亥俄州得以实践。

经济大萧条时期(The Great Depression),学校和其他公众组织遭受资源短缺的困扰。此时,罗斯福总统(Roosevelt)开始进行政治上的新改革(New Deal Program)。在这个背景下,进步主义运动沸沸扬扬,泰勒参与了进步主义的运动,1932年开始领导著名的“八年研究”,并在卡内基机构(Carnegie Corporation)资助下,尝试比较不同学校教育的有效性。泰勒的教育评价(education evaluation)开始将评价拓展到教育方案质量的评价,“八年研究向全美的教育学者们介绍了更加广泛的教育评价,而不只是局限在学生的有效性和测验的范围”。而且,评价确定了预定的目标规范,关注预期目标的实现。泰勒以其研究的结果告诉我们,在预期目标和实际结果之间存在着巨大差异。早期的评价倾向于关注结果的测量,而把作为课程实施的重要环节——课堂和学校屏蔽起来,这种过程“黑箱”很快就引起了学者的反思。20世纪40年代以后,泰勒也对自己的工作进行了反思,其论著在以后的25年中产生了持续的影响。

20世纪40年代到50年代中期,美国城乡里弥漫着贫穷和失望,充满种族偏见和隔离,是一个资源浪费而人们熟视无睹的时代,是工业发展而危害环境的时代。但在经济的带动下,新的学校形式出现,学区的教育形成各种服务系统。社会和教育对教育的需求无限膨胀,但是人们很少关注教育的效率和有效性。不过,评价技术却得到了很大的发展,1947年成立的教育测验服务机构(Educational testing service)。20世纪50年代,联邦资金鼓励并支持专业研究活动,标准化测验已经得到广泛传播,专业组织建立了一系列规范测验指标。1954年,美国心理学家协会(American psychological association)提供《心理测量和诊断技术的具体建议》(Technical Recommendations for psychological tests and diagnostic techniques,简称APA)的报告。1955年,美国教育研究协会 (American education research association,简称AERA)和国家教育测量委员会(National council on measurement used in education,简称NCME)了《成就测验的技术建议》(Technical Recommendations for Achievement Tests)。1966年,前面三个机构联合了“教育和心理测量的标准手册”(Standards for Education and Psychological Tests and Manuals)并于 1974年进行了修订。

此时,标准化测量风靡一时,专家根据可接受的目标或目的建构测验,预先设定不同年龄或年级的常模或标准,用以管理、评级和解释分数的意义。包括性向测验(Aptitude tests)、成就测验(Aptitude tests)以及兴趣、个性和态度测验(Interest,Personality and attitude inventories)。这些标准测验方法看起来满足了科学化的要求,但在实际上却与泰勒规则相矛盾,因为泰勒认可并鼓励目标的差异性。不过,这些技术性的发展为未来评价的拓展奠定了技术的基础。

二、价值渗透:关注过程的“方案”评价

进入20世纪50年代,评估已经拓展到学生学习、课程设计的有效性之外,进入到教育系统、国家发展计划甚至是政策系统。评价者并没有遵照课程评价领域的前辈们的已有研究范围,而是将自己的研究领域拓展到公众领域的政策问题范围。50年代后期,教育领域资源的重组,随之产生了各类课程发展与教育的问题,评价的价值及其伦理问题已经成为评价领域的重要问题。

1957年苏联卫星发射成功的事件之后,联邦政府制定了《国防教育法》(National Defense Education Act,1958)。整个时期,联邦政府开始关注到教育的质量问题,开始资助大规模的评价计划,评价开始从“作为行业(industry)的评价到依靠税收的职业(profession)”。学科专家组织了科学和数学的课程发展计划(curriculum development project),不过很快人们就发现这些课程没有发挥其真正的力量,而且评价者的论著既无助于课程研制,也不对有效性的检测负责。1963年,心理测量专家克龙巴赫(Lee J.Cronbach)针对人们的抱怨,批评评价缺乏相关性和应用性,主张《通过评价提升课程》(Course improvement through evaluation),认为测验项目的分析和汇报有利于教师的教学,并建议课程评价必须聚焦于课程研制过程中课程专家的决策。但是,这并未引起美国教育评价领域学者的关注。

几年之后,情况变得不同了。1965年,肯尼迪总统智囊团的主席休伯特·汉弗莱议员(Senator Hubert Humphrey)和约翰逊总统(President Lyndon Johnson)对贫穷问题展开争论,人们开始将目光转移到社会福利的改革。20世纪早期积累的财富促使联邦政府开始资助这些福利计划。《初等和中等教育法案》(1964)(The Elementary and secondary education Act of 1964,简称ESEA)首次拨出特定联邦资金用于地区教育系统,教育被视为州的责任。随着联邦资金对地区教育的投入,国家开始干涉资金的运用效果。很多资金投入并未如地方宣称的那么理想,因此这些都要求教育者将教育评价转移到实践等支持性研究,学校开始接受ESEA的定期检测。由于评价可以终止或辅助课程项目,因此课程评价研究变得如此重要。费黛奥塔·卡朋(Phi Delta Kappa)联合会建立了“国家评价研究委员会”(National Study Committee on Evaluation),针对评价存在的问题进行调查。1960年后期,大部分美国教育学者都在着手于教育评价的研究,各类人员从不同的领域开始进入到教育评价领域,重新审视教育评价的本质概念。教育评价研究开始进入概念化(conceptualization)过程,这意味着对评价目标、评价对象、实施建议、服务过程,以及测量预定和非预定的结果等问题展开讨论。

1967年,美国教育研究协会(American Education Research Association,简称AERA)的罗伯特·斯蒂克(Robert Stake)对课程评价的研究引发了公众的关注。此时,评价者大多为心理测验学和实验设计人员,因此被人批评为缺乏教育问题的鉴赏力。其实,在1962年AERA会议之后,随着AERA的专论的出版,评价是教育测验的假设已经逐渐被摧毁。争论由此扩大化,就连泰勒(Ralph Tyler)、斯克里文 (Michael Scriven)和斯蒂克(Robert Stake)也开始批评心理测验手段是否可以用于满足评价的目的。1967年,斯克里文区分了形成性评价和终结性评价,“形成性评价”不仅仅是作为一种评价形式而被提出,它开启对过程与未来目标的重视。评价不再是单纯的心理测量技术,它需要容纳伦理的、政治的各种价值。到了20世纪70年代,就连专门从事测量的学者伯汉姆(Popham)也在提醒学生要关注伦理维度的新问题。接着,课程实施的过程开始容纳进入课程评价的眼帘。斯克里文的《应答性评价》(Responsive Evaluation,1974)、麦克唐纳(McDonald)的《民主的教育》(Democratic Education,1974)、里庇(Rippey)的《交互式评价》(Transactional education,1973)论著发表,这些论著鼓励参与者通过各种表达形式参与到课程改革中来,将课程改革拓展到更广泛的参与层面。

三、重构价值:关注评定的“综合”时代

1973年,评价领域开始成为一个专业研究和测验的领域。教育评价者的计划在20世纪70年代开始凸显,例如专业杂志《教育评价和政策分析》(Educational Evaluation and Policy Analysis)、《评价研究》 (Studies in Evaluation)、《评价和方案计划》(Evaluation and Program Planning)、《评价新闻》(Evaluation News)等陆续产生。专业机构如“五月十二日”(The May 12th Group)、H区域(Division H of AERA)、评价网络(the Evaluation Network)以及评价研究社会(The Evaluation Research Society)专攻评价研究。许多大学也开始设计评价方法的课程(不同于研究方法),例如伊利诺斯州立大学(University of Illinois)、斯坦福大学(Stanford University)、波士顿学院(Boston College)、加利福尼亚大学洛杉矶分校(UCLA)、明尼苏达州立大学(the University of Minnesota)、西密歇根大学(Western Michigan University)。各种形式的专业研究机构开始组建,如UCLA的评价研究中心(Center for the study of evaluation at UCLA)、西北地区教育实验室(Northwest Regional Educational Laboratory)、斯坦福评价联盟(the Stanford Evaluation Consortium)、伊利诺斯州教学研究和课程评价中心(the Center for Instructional Research and Curriculum Evaluation at The University of Illinois)、西密西根大学的评价中心(the Evaluation Center at Western Michigan University)、测验研究中心(the Center for the Study of Testing)、波士顿大学评价和教育政策机构(Evaluation and Educational Policy at Boston College)等。交流会导致各种嘈杂的声音,专业机构之间的合作虽然增多,新的专业组织加强了交流,并降低了评价领域的碎片化。这些机构对评价进行研究,甚至出现了对评价质量进行研究的元研究(meta-evaluation)。学者们在不断寻求适当的方法,增加交流和理解,评价的技术得到发展。

在这个时代,评价者意识到评价技术必满足各种各样的需求,委托人的需求、中心的价值、真实的情况、探究的需要、精确的要求,评价的方法得到了发展,例如,目标游离评价(goal-free evaluation, Scriven,1974,Evers,1980)、支持一对手小组(Adver-sary-advocate teams,Stake & Gjerde,1974)、支持小组(Advocate teams,Reinhard,1972)、元分析(Meta analysis,Glass,1976;Krol,1978)、应答性评价(responsive evaluation,Stake,1975)、自然主义评价(naturalistic evaluation,Guba & Lincoln,1981)等等。此时,更受人青睐的是案例研究(case study),案例分析可以避免破坏其他参与者对潜在事件的透视,它不仅仅作为汇报的方式,更是提供了丰富信息。1980年,12个关心教育评价问题的组织构成了联合委员会,共同了文件《教育方案、计划和资料的评价标准》(The standards for evaluation of educational programs,projects and materials),1981由麦格罗·希尔(McGraw-Hill)出版公司出版。

随着联邦政府对教育领域的渗透,评价开始作为政治的行动,评价者以智囊团的方式存在,努力地为相关的政治社区提供信息。克龙巴赫也将评价纳入了政策的领域,认为评价主要是提供信息、思考和决策的材料。20世纪的最后十年,教育评价已经成为一个成熟的专业领域。不过,专业机构之间的合作虽能很好地用于提升行为和提高评价的质量,实际的评价却很少发生变化;而且,人们需要教导评价者如何获得、尝试、反馈和发展新的评价技术。

四、研究发展的两条路径:反思范式的递进

教育投资体系的变革对评价研究的发展提供了物质基础,评价研究问题领域的成熟带来了评价理论的演进。第一,评价对象不断得到拓展,从单纯学生成就评定到教学过程的评定,以课程领域为例,从课程目标的评价到整个课程改革方案(如CIPP模式,即context,input,process,product)的评价。第二,评价目标从单一到多样,从衡量预期目标的达成,到关注实施过程中的即时目标达成。第三,评价标准多元化,随着对实施过程的重视,实践过程的各种参与者的立场开始被评价者关注,这种参与者的价值渗入影响了评价研究的发展。第四,评价方法的宽容,随着评价对象的拓展、评价目标的多样、评价标准的多元,评价方法也发生了相应的转换,从单一的测量方法,到关注实践历程的人类学方法。

对教育目标的攻击、对教育方案实施过程的反思促动了教育评价的发展路向:首先,针对教育目标本身的攻击去除了所谓的客观价值的假象,教育评价的作用从“证明(prove)”走向了“改进(ireprove)”。如1972年,斯克里文提出的目的游离评价(goal-free evaluation,简称GFE)模式,将评价的重点从“课程计划预期的结果”转向“课程计划实际的结果”。他认为一般评价是为了检测“是否能够达成预先存在的目标”,从而忽略了那些积极的非预期的结果。在他看来,评价的原则应该是“有效的结果”而非“目标”,为此评价者必须意识到所有的结果,还要创建一个被评价对象的档案袋。“空白课程”的提出者艾斯特在《教育的想象》一书中提出要以“表现性目标(the expressive objectives)”为标准,进行“启示性评价(illuminative evaluation)”。

其次,为了促进方案的改进,教育评价的对象发生了变化:以课程领域为例,必须针对课程研制的全面过程采取考察。就将课程实施的背景(context)、过程(process)、成果(product)全部纳入评价的范畴,如20世纪60年代的CIPP方案评价模式、60年代后期应用广泛的评价学习中心(Center for the Study of Evaluation,简称CSE)评价模式等。当我们发现课程评价已经转向“教程的决策”、“关于个体的决策”和“行政的调控”的时候,就不得不意识到课程本身所具有的计划性、目的性与组织性。因此,人类学的方法开始作为评价方法的基础,如“应答式评价(responsive)”、“启示性评价(illuminative)”或“案例研究”等。

再次,由于容纳了相当多的评价对象,也就是说将各种时空的人的价值都纳入其中,为此课程的评价标准也发生了变化,从“有效”的功利价值到包含了“生命”原则的伦理价值。故此,人们开始关注课程评价的价值主体、价值主体的需求问题。既然如此,在评价的过程中就需要关注到评价者、被评价者各自的价值立场,注意到评价标准和评价对象之间的匹配,关注到评价手段与评价对象的匹配。现代课程评价研究力图在制定评价标准、收集评价资料、采取评价方法上能够兼顾到更多价值取向。

藉着对评价历史的回顾,我们可以看到直到今天为止,这些变革造就了三个具有差异的评价范式(见图1),每个范式都具有自己的目的、偏好的技术、关注的焦点等等。由此,我们便获得了对研究发展的一种沉思:现代化促使我国的教育研究面临着巨大的危机,我们的学者不得不一边追赶,一边进行着反思,步伐在国际化与本土化之间交替,踉踉跄跄地前进。研究主题的变化代表了一种景况的转变,以及对研究者自身角色和地位的反思。

图1

课程评价范式图解

参考文献:

[1][美]泰勒。课程与教学的基本原理[M].中国台北:桂冠图书有限公司,1981.119.

[2][美]泰勒。怎样评价学习经验的效用[A].施良方译。瞿葆奎。教育评价[C].北京:人民教育出版社,1989.265.

[3]施良方。课程理论——课程的基础、理论与问题[M].北京:教育科学出版社,2000.156.

教育测量与评价论文例5

1.PISA简介

PISA(学生能力国际评价)是经济合作与发展组织(OECD)于1997年发起的为OECD成员国协作监控教育成效的评价项目。PISA应用现代教育测量理论测试发达国家和地区义务教育结束阶段15岁学生在阅读、数学、科学领域的发展水平,配套调查问卷,进而评价各参与国家和地区的教育成效,进行国际比较,是世界上颇具影响的国际教育评价项目之一。

2.测试项目

PISA在2000年首次开始评价,其后每三年进行一次,根据评价年命名,每次测试的重点不同,评价的主要领域包括阅读、数学和科学素养,2012年又增加财经素养的测试。PISA2000的评价重点是阅读素养,PISA2003的评价重点是数学素养,PISA2006的评价重点是科学素养,随后依次轮回,PISA2015评价的重点又回到科学素养。

PISA是建立在终身学习的动态模型基础上的测试,分别从个体学习者、教学、学校及教育体制四个层面进行分析。同时从社会、文化、经济以及教育因素等方面考查学生和学校的特征。

PISA评价是前瞻性的,测量的是15岁青少年对于迎接现今高科技和知识社会的挑战的准备情况。PISA关注年轻人运用知识技能处理现实生活的挑战能力,而不仅是考查他们对学校特定课程的掌握程度。其测量的目标是发展常规的、可靠的及与政策相关的学生成就指标,从而达到提升国家教育体制的质量、公正性和效率的评价目标。PISA评价关注四个子目标的实现:学习成果的质量、学习成果的等价性和学习机会的均等性、教育过程的有效性和效率,以及教育对社会经济的影响。对政策制定者而言,能够通过对比自己国家和其他国家教育系统的成就表现,总结已有政策的经验,改善教育体制,并基于PISA提供的指标更好地评价和监控教育体制的效力与发展。

3.测试形式

2015年以前,PISA测试主要是纸笔测验,每个学生需要用两个小时的时间来完成测验,测验题目既包括多项选择题,又包括大量的开放性题目。测验题目通过单元的形式编排为题组,每个单元创设了一个真实的生活情景。

PISA除测验之外,还包括了学生问卷和学校问卷,目的是收集有关社会、文化、经济和教育因素的指标,这些指标与学生的成就相联系。

2015年,按照国际实施规范,PISA测试改为学生在计算机上完成。

二、对房山区参加PISA中国独立研究的思考

1.区域的社会经济背景

房山区位于北京西南,历史悠久,人文璀璨,是首都传统的农业和资源大区。目前有近百万人口,全日制在校生近10万人。

近些年,随着“一区一城”的建设,城市化改造在加快,教育发展也在提速。但教育发展能否适应城市化建设的需要?怎样评价基础教育改革方向?一直是我们在研究并努力回答的难题。

2.如何评价教育综合质量

近年来,房山区教育系统全体同志破解了教育体制、机制、资金以及政策等发展难题,推进了波浪壮阔的教育改革,使教育综合实力有了大幅度提高。目前以中考和高考为代表的教育质量只是结果性评价,而且评价内容和形式相对单一,表现在当下的教育质量与孩子们未来成长需要的能力是否一致?现在培养的学生能否引领未来区域的社会经济发展?这一直是世界性的难题。但我们按照教育规律思考,学校发育、学生发展、教育管理都应该是可以被测量、可以被评价的。问题的关键是要找到一个既能描述孩子们的能力和思维发展水平,又能够真实比对不同区域直接的差距的客观的“标尺”;并能够借此改进教师的专业发展、课程的设置,指导教育综合改革的方向。为此,我们进行了大量的教育评价研究,并引入了PISA测试。

3.理解PISA并达成共识

2008年,初次接触PISA,有的人不以为然,有的人甚至反对,毕竟参与PISA测试的一部分15岁的学生,还在参加初三最紧张的备考,学校领导顾虑是否会影响学校的正常教学秩序,家长、学生和教师都担心PISA是否会影响学生的中考成绩,升学的高利害关系确实是一个绕不开的话题。考虑到由OECD举办的PISA,拥有世界顶级的教育、测量和评价专家,几十个国家和地区参加,科学性毋庸置疑,测试方向代表了考试改革的发展方向,能从国际视角评价房山教育发展现状,站在未来发展的人才需要,指导我们深化课程改革和教学管理,完善考试评价研究,拉动区域教育质量的提升。所以,将对学生的影响和学校的教学影响降低到最小,我们做了大量的工作,说服了学校、教师和家长。事实证明,参与2009和2012年的PISA中国独立研究,不仅没有影响学生的中考质量,很多学生还对这种测试形式和内容表达了浓厚的兴趣。测试质量分析报告在房山区教育发展策略制定与执行中得到了充分重视,并在教科研部门实施了多项研究。

三、跟进PISA采取的系列举措和收获

1.成立考试评价研究办公室,推进PISA研究

为了组织参与PISA测试及其后期结论研究和成果转化推广,房山区教委在考试中心成立了考试评价研究办公室,任命了专项负责同志,并引进研究人员,在教委领导下专门从事考试评价日常工作。这一个创新的机构对教育评价研究的推进起到了关键性作用。现阶段很多全区教育工作依赖该中心具体推进,诸如组织参与PISA2015测试及结果研究和成果转化;参与区级大型考试的组考、阅卷、数据分析;开展考试评价技术的培训,促进考试评价与教学的融合,充分利用考试分析数据,提高课堂教学实效;探索按照增值评价理念进行考试结果与背景分析相结合的评价方法等。

2.及时普及PISA结论,改进管理

拿到2009年的测试分析报告,区教委请了PISA评价专家给区教委的行政领导和评价研究项目组同志做了解读和应用指导,并通过他们,在全区教师中培训预热,普及评价理念,应用测试结论,改进课堂教学,完善课程设置,改进了教育管理和评价办法。参与2012测试后,测试分析报告被纳入全区教育系统党政正职的培训,启动了科学素养提升研究。广泛的培训使教育工作者认识到,以PISA评价理论为引领的考试评价研究,确实能影响教学管理,深化课程改革,而干部、教师的接受,使区级很多教学改革项目得以顺利推进。

3.充分研究PISA结论,改进教育教学

基于PISA测试的理念和房山区测试结论,自2010年起,针对全体学生的“阅读能力培养”“数学思维训练”“科学素养提升”三大教学实验项目陆续启动,已经形成了固定的研究团队,制订了研究方案,都有了阶段性收获。

三个项目的开发和实践研究,基本上是跨地域、跨学校、跨学段、跨学科的实施,研究结论到学校落地方式,更是“摸石头过河”。三个项目最长的已经四年多,项目组负责人带着大家进行了艰苦的探索,很多领域是自发开展,主动找办法、想思路,乐在其中,收获颇丰。

4.坚持参与PISA,推进考试评价研究

第一,制定大型考试管理流程。学习PISA流程管理,制定“区级大型考试管理流程”,涉及命题、制卷、组考、阅卷、分析(命题质量、教学管理改进)等环节。特别是研究命题蓝图、编制双向细目表、规范数据分析报告表述结构等,提升了命题的规范。第二,研发了区级考试质量分析平台。提升了命题能力之后,依据教研人员分析试卷所需要的数据支撑和学校改进教学管理所需要的数据报告,对原有的考试数据统计系统进行了升级,与“工大智源”公司合作,按照实际需要开发了“考试质量分析平台”。第三,尝试开展增值评价研究。借鉴PISA测试手段―能力测试与问卷调查相结合,对学生进行诊断。2011年9月开始,对初一新生尝试进行增值评价研究。一是开展了数学、英语的学科测试,采用了无纸化网络阅卷,方便精细分析,确保了测试结果的信度。二是开展了调查问卷,聘请教育评价专家设计涉及“学习环境、兴趣爱好、意志品质、认知能力”等方面问题。项目组完成的初一学生整体的多维度分析报告,反映了房山不同区域小学毕业学生的教育差距,房山与同步测试区域的学生对比,在学科知识和能力的均衡程度等领域,都掌握了第一手的研究数据。结合调查问卷,研究学生学业成就与非智力因素的影响关系,从而为更加全面地制定区域针对性教学规划提供参考,为改进家庭教育提供数据支持。第四,修订中小学阶段质量标准。反思PISA整个测评过程,体会和学习其先进的测评理念和测评技术,认真研究测试分析报告的框架和导向,从更宽的视野告诉学校本学段学生综合发展指标要素和阶段标准,淡化结果的功利性,充分发挥教育过程的对照和矫正,聚焦学生发展,实现正确导向,更有利于学校形成正确的教育质量观。学校的教育何其复杂,培训学校理解测评理念和测评技术,基于参照维度和标准,学校会选择适合自己学生成长的教育方式和过程。所以我们下大力气修订原来的“中小学生阶段性质量标准”,目前已经下发,并向全区中小学做了使用推广。第五,师生在参与PISA中的教学相长是最大的收获。回顾参与PISA测试的收获,总体来说,参与其中的学生成长和教师进步应该是该项目的最大收获。首先,从学生层面看,从总体水平分析,PISA2012测试报告显示,房山区数学、阅读、科学素养的学生平均成绩较PISA2009均有所提高,且增幅较大,说明学生的可持续发展潜力有了提升。通过问卷反映的学生负担过重问题,引起了更多人的关注,在学校层面推进的减负增效工作进展顺利。现在,学生们有了更多的机会走出课堂,参加到课后素质提升工程中,学校组织的课外综合实践活动也越来越得到家长的认可和学生的喜欢。其次,考试评价项目的实施,唤醒了一批教师的专业成长。因为考试评价的复杂性和PISA测试的综合性,为推进这些工作,直接成立的项目就有十多个,参加研究的部门从行政到教研、科研,从考试评价项目组到基层骨干,从区域整体到实验学校,陆续参与的核心组成员过百,聘请的专家有几十人。更主要的是部分同志参与了PISA测试组织、试卷评阅、试题分析和测试结果应用的分析研究。这些同志迅速成长为我区教育评价的核心骨干,并将学到的评价理念和技术应用于我区教育评价研究。这种上下联动、理论与学校一线教学的反复实践,积累了大量资源,催生了更多的研究课题,吸引了大批的学科骨干、教科研人员的极大兴趣,激活了很多教师的研究热情。行政和学校管理人员的参与,同样影响着教育教学管理制度的制定和教与学模式的

改进。

教育测量与评价论文例6

汉语作为第二语言教学既指的是在中国进行的对外国人的汉语教学,也指的是世界各地的汉语教学,还指对中国国内少数民族的汉语教学,我们把这种教学简单的称为“汉语教学”。[1]汉语教学评价虽然是一门年轻的学科,但是已经成为评估和检测对汉语教学目标、教学过程、教学效果、教学大纲制定、教材选择等的有效手段。作为教育评价的一个分支,教育评价既要遵循教育评价的一般规律,也有自身的学科特点。分析国外教育评价的不同发展阶段的特点,对于丰富和深化我国汉语教学评价理论有重要的理论价值,对于提高汉语教学质量有重要的实践意义。

一.国外教育评价的发展阶段

国外教育评价划分为四个理论阶段:第一阶段是“测量时期”,十九世纪末至二十世纪三十年代。英国的高尔顿通过对个体差异的长期研究,于1869年发表了《遗传的天才》一书,揭开了教育测量的序幕。1879年,德国的冯特在莱比锡逐步摸索出了一套实验心理学测量方法;1889年厄恩编制的测验,将能力分为知觉、记忆、联想和运动机能等四种;1892年波尔顿试行记数测验,测量儿童记忆力;1896年艾宾浩斯首先用填充法测量学生智力;1897年,美国的莱斯发表了他对20个学校的1600名学生所作的拼字测验的结果,引起了人们对测验方法的普遍关注;“1904年,美国的桑代克发表了《心理与社会测量导论》一书,提出了“凡存在的东西都有数量,凡有数量的东西都可以测量”的基本观点,为教育测量奠定了理论基础,对教育测量学的建设与发展做出了巨大贡献。”[2]这一时期,以测量作为标志,追求的是教育客观化渗透了教学工作的各个方面。

第二阶段是“描述时期”,二十世纪三十年代至五十年代。“1929年资本主义世界经济危机的爆发导致美国经济的大衰退,也引起人们重新评价中学的课程设置、教学大纲以及中学与大学之间的关系,从而对教育也提出了新的需求。社会各界纷纷要求改革现有的教育制度,以便适应社会发展和满足学生需求。于是,在“进步教育协会”的指导下开始了这项为期8年的实验研究。”[3]“八年研究”结束时,以泰勒(Ralph W Tyler)为首的学院追踪研究组,对“八年研究”的结果进行了评价。1949年,泰勒正式出版了被奉为课程论圣经的《课程与教学的基本原理》一书,总结了他在“八年研究”中的成果,正式提出教育评价的概念,使人们在思想上和行动上接受了采用教育评价方法来描述教育效果这一观点,其特征是对测验结果进行“描述”,并力求教育标准化。

第三阶段是“判断时期”,大约出现于一九五零年至一九七零年。1963年,克龙巴赫在其题为《通过评价改进课程》的论文中,把教育评价的内涵阐述为:“为作出关于教育方案的决策,收集和使用信息。”1967年斯克里芬发表了《评价方法论》提出了一个完整的、包含描述与判断两个方面的评价模式。他们认为评价的依据不是方案制定者的预定目标,而是参与活动者的实际成效。评价者的思考应该从教育方案想干什么变成教育方案实际干了些什么。评价者不仅要运用测量手段去收集各种信息,还要根据一定的价值取向评判教育,追求教育多元化。这样,判断就成了第三代教育评价的标志。

第四阶段是“同构时期”,出现在上世纪七十年代后期至今。第四代评价理论的创立者美国印第安纳大学教育学院枯巴(Egong Guba)教授和维德比尔大学高等教育学院副教授林肯(Yvonna Session Lincoln)依据建构主义方法论,1989年他们出版了名为《第四代教育评价》的专著,针对前三代评价中存在的“浓厚的管理主义倾向”、“忽视价值多元性”和“过分强调科学实证主义的方法”等缺点和不足,对评价的本质进行了有益的探讨,主要包括:心理构建论。教育评价从本质上说是一种心理构建,评价所表述的是评价者对评价对象的一种认识。评价结果也是其双方交互作用的“产物”。

价值协调论。教育评价是协调价值观的过程,在评价过程中,评价者与评价对象之间,在教育价值观上存在着差异,这种“差异”观点将纠正传统评价理论价值是一致的、单一的观点,表现为价值系统的多元化。

评价结果认同论。评价结果不依赖于评价对象的状况与客观现实符合的程度,而是参与评价活动的人关于评价对象状况的不同意见交换、认同的结果。

二.国外教育评价的流派

(一)行为目标模式。19世纪下半叶和20世纪最初三十年,课程和测验都是以教科书为中心加以编制,测验内容只是要求学生记诵教材的知识内容,不能反映出学生的实际需要。在这种情况下,美国俄亥俄州立大学教育科学研究所教授泰勒(Tayler, R.W)主持了课程与评价的研究,正式提出了教育评价的概念。泰勒把评价理解为“评价过程在本质上,乃是一种测量课程和教学方案在多大程度上达到了教育目标的过程。”行为目标模式是一个封闭的系统,包括:确定目标、选择经验、组织经验、评价结果。即以目标为中心,通过具体的行为变化来判断教育目标实现的程度是泰勒教育评价的主旨。

(二)CIPP模式。它是由背景(Context)评价、输入(Input)评价、过程(Process)评价和成果(Procluct)评价这四种评价组成的一种综合评价模式。它由美国的塔弗尔比姆(Stufflebeam)1966年提出的,它以决策为中心,为决策的不同方面提供信息。背景评价形成计划决策,输入评价为组织决策服务,过程评价指导实施决策,成果评价为再循环评价效力。CIPP模式将目标纳入了评价体系中,使得这种评价更完整更科学。它同时重视形成性评价,时刻考虑为决策者提供信息,使得评价活动更具备实用性和方向性。

(三)目标游离模式。1967年美国的斯克里芬(M.Scriven)提出他认为,实际进行的教育活动除了收到预期效应外,还会产生各种“非预期效应”,或者叫“副效应”或“第二效应”。布卢姆也说过:“人们无法预料教学所产生的成果的全部范围。没有预料不到的成果,教学也就不成为一种艺术了。”[4]斯克里芬认为泰勒将评价限于衡量达到教育目标的程度是不全面的,因为很容易让人忽视非预期的效果。这种非预期效应的影响有时是重要的,而在目标评价中却得不到反映。他不提倡让把评价的目标告诉被评价者,使得评价者搜集有关方案的全部成果信息。

(三)应答模式。这一模式由斯塔克(Stake.R.E)提出。他认为,要使评价结果能真正产生效用,评价人必须和这一活动所有参与者的不断对话,通过正式访谈、描述分析等自然主义方法获得信息反馈,使活动结果能满足各种人的需要,他认为解决问题只能依靠那些接触问题的人,这样的调查毫无疑问可信度比较高。斯塔克还强调“多元现实性”,反映了参评人员一定的需要,具备一定的民主性。

(四)反对者模式。反对者模式(adversary model)是由美国学者欧文斯(Owens,T.)等人在上世纪70年代中叶提出的。该模式为了揭示方案正、反两方面长短得失,采取准法律过程评委会审议形式的评价模式。它主张让持不同意见的评价者一起参与教育活动和教育方案的谈判。这一评价的基本特点是充分反映了各类人员“多元的”价值认识,依靠人们直觉与经验进行评价。

反对者模式的另一种形式是由美国学者沃尔夫于1973年提出的司法模式。沃尔夫的司法模式由下述四个阶段组成:争论的提出、争论的选择、辩论的准备、听证。反对者模式有助于决策者全面的获得信息,有助于事先使得各种潜在的冲突意见达到一致。

以上并没有把所有的教育评价流派列举出来,每一种流派都有其优势和劣势。关于教育评价流派的发展历史来看,我们可以看出一下趋势:1、评价过程,由封闭转为开放。泰勒模式以目标为出发点和最终归宿,组合成一个封闭的系统。重过程轻结果。CIPP模式及应答模式将评价看做本身的一部分,呈开放式的网络。2、评价内容,由单一转为全面。早先的教育评价只评价学生的学力,最后发展到教学准备、信息输入、教学过程、教学结果、评价参与人员等各个方面。3、价值观念,由客体转为主体。泰勒模式中,目标成为统一的评价尺度,一直到目标游离模式和应答模式中把人的需求也纳入到评价模式中来,逐渐强调人在评价中的作用。4、评价手段,由测试到多样化。从最早推崇各种客观的、标准化的测量,发展到提倡观察、交谈等自然主义方法,为评价提供了可靠地依据。

三.汉语教学和国外教育评价理论

汉语教学评价是汉语教学的一个重要组成部分,它的评价目标与教学目标是一致的,评价方法的使用要受到教学用途和教学阶段的制约,同时教学评价又总是要关注教学的改善,所以汉语教学与教学评价之间的非常紧密的相互依存的联系。[5]简单分析如下:

1、通过教学评价流派的演变,我们可以看到教学评价流派理论为汉语教学评价提供了评价的规则和途径,决定了评价的评价范围和权重比例。对教育评价流派的研究可以为我们提供理解汉语教学教和学的内涵和外延,同时,教育评价流派不仅研究了教学目标,还对评价的背景、信息输入、评价的结果、参与评价者本身、评价目标和实际目标的差距、评价的方法等进行了深入研究,这些理论对诊断汉语教学评价的重难点提供了一定的解释成因的理论依据。

众所周知,汉语教学特别是在汉语作为第二语言教学中,不同的国家由于学生及语言环境等原因的不同,怎样制定一个比较全面能够在一个国家普遍运用的评价规则,就需要从教育评价流派中寻找到理论依据。

2、设置任何一种的汉语教学评价方式都或多或少会受到教育评价流派的影响。为了检验某种教学法的效果和学生学习的效果,新的语言测试评价法都会在新的教育评价流派的影响下出现。教育评价流派无论对汉语教学评价体系的总体设计、评价方案的制定、评价工具的编制、评价活动的展开都有宏观和微观的直接指导的意义。

在汉语教学的综合课中,我们可以充分运用泰勒模式,对学生进行生词学习的检测。课文教学就需要结合学生实际,紧扣汉语作为第二语言教学的特点,把教学目标也纳入评价体系,考虑该目标是否符合本国的学生要求,同时在教学目标和实际目标的对比中,要注重实际目标,培养学生的华语交际能力。

3、教育评价流派理论对学习客体、学习目标、学习内容、信息反馈、限制和避免参与评价者的主观评价等进行了深入研究,对我们研究教材编写、课程设计、课堂教学等这些第二语言教学中极其重要的环节提供了一定的可行性操作方案。

在国内汉语作为第二语言教学理论研究正在如火如荼的进行,和国内火热场面形成强烈对比的是,由于国外的语言环境和教师素质不同,一些国家还在一些基本理论上争论不休,比如普通话和闽南话之争、繁体字和简体字之争、不同课型怎么来上等。教育评价流派为我们怎么去评价这些国家的汉语教学提供了具体可行的方案。比如作文教学目标的制定、听力课的信息反馈、评价学生的实际学习水平等。

如上所述,汉语教学评价是一门综合叉性学科,它的课程特点决定了教育评价流派是它的理论基础之一,深入具体的探讨教育评价流派会使汉语教学评价更加具有科学性和实用性,从而提高汉语教学质量。

参考书目:

[1][5]杨翼:《汉语教学评价》,北京语言文化大学出版社2008年第一版

[2]胡玲翠许有《浅析国外教育评价发展的主要阶段及特点》,《校外教育·理论》2007年第6期

教育测量与评价论文例7

新的历史时期使高校爱国主义教育面临新的挑战,出现新的问题,这就对新时期高校的爱国主义教育提出了新的更高要求,赋予其新的内容与时代特征。为了适应这种新挑战,解决出现的新问题,爱国主义教育者必须首先解放自己的思想、实事求是,变革已经不能很好地适应当今时代特征和实践要求的传统爱国主义思想观念,结合“90后”大学生爱国主义教育面临的新问题和传统教育的经验,树立爱国主义教育的新理念,明确爱国主义教育的原则,既要积极有效地探索加强“90后”大学生爱国主义教育的方法和途径,又迫切需要建立科学、全面、公正的爱国主义教育监测与评价模式进行保驾护航。

一、建立监测与评价模式的意义

(一)建立监测与评价模式是高校加强和改进“90后”大学生爱国主义教育的需要。爱国主义教育是一项具有战略意义的基础性工程。它是基础,是面向全社会、全民族、全国人民的教育,是提高民族素质和加强社会主义物质文明和精神文明建设的基础性工程。爱国主义能极大地调动全民族的力量,增强民族凝聚力,形成全民族的最大合力,推动社会主义现代化建设;爱国主义能够激发每一个人的爱国热情,唤起人们和祖国同呼吸共命运的爱国情怀,使人们为祖国取得的每一个重要成就感到欢欣鼓舞,为国家碰到的灾难和人民受到的损害而伤心忧虑。我国党和政府长期以来都十分关注大学生爱国主义教育工作,推出了一系列举措,各高校也相应地采取了一定措施,对爱国主义教育进行监测的过程,实质上是推动高校提高爱国主义教育质量和效率的过程。

(二)建立监测与评价模式是弥补爱国主义教育不足的需要。我国高校长期以来在爱国主义教育方面偏重于在课堂上对学生的正面灌输教育和日常生活中的严格管理,只关注教师在教学方面的质量如何和学生考试的成绩高低。单纯的衡量标准虽然对教学质量起到了促进作用,但是对于爱国主义教育的真实效果如何却没有一个完善的监测与评价标准。因此建立爱国主义教育的监测与评价模式是促进爱国主义教育全面发展的必然。

(三)建立监测与评价模式是“90后”大学生特点的必然要求。从当前的情况来看,一是“90后”大学生对待爱国主义教育存在模糊性,对待爱国主义教育在态度上存在偏差;二是“90后”大学生的多元性特征导致其爱国主义价值取向削弱,良好的成长经历导致其爱国主义意识淡薄;三是大学爱国主义教育存在着内容缺乏时代性,理论缺乏创新,教育对象缺乏连续性、长期性和针对性,教育方法直接且过于单调等问题。“90后”大学生本身处在一个思想不断发展成熟的时期,承受巨大的学业、心理和就业压力,极易受到外来思想的侵蚀,这就更加迫切需要加强以爱国主义为核心的民族精神和以改革创新为核心的时代精神教育。也迫切需要建立爱国主义教育的监测与评价模式推动高校改革原有的爱国主义教育体系,使之更好地适应“90后”大学生的需要。

二、构建监测与评价模式的原则

(一)坚持社会主义原则。思想政治教育工作需完全服从于政党和阶级的需要,体现了政党和阶级利益。因此在对爱国主义教育进行的监测和评价的过程中要按照无产阶级的立场、观点、方法和党的社会主义初级阶段基本路线对照爱国主义教育工作,坚持用科学的、发展的眼光制定相应的监测和评价模式,同时应结合90后大学生中存在的错误思潮进行批判,帮助学生树立正确的爱国主义思想。

(二)坚持实事求是的原则。新时期的大学生对于新思想、新事物的接受能力非常快,爱国主义教育工作也不能脱离实际情况,要做到理论联系实际。同样作为爱国主义教育重要一环的监测与评价工作也要坚持实事求是的原则,掌握实际情况,了解实际效果,作出实事求是的判断和分析。其根本是为了实实在在地推进爱国主义教育工作,使其能取得显著的效果。

(三)坚持针对性的原则。高校爱国主义教育的监测和评价必须针对爱国主义教育的目标和要求,无论对爱国主义教育的内容、方法还是实现途径,以及实际效果都要契合爱国主义教育的根本目的。此外,由于“90后”大学生的不同特点,要充分考虑到他们不同的成长环境、不同的思想状况和不同的文化背景,同时他们的接受能力和思考能力也已大大超过前人。因此,要始终坚持以学生为本,在进行监测与评价的时候要根据不同层次的学生制定不同的标准,不能以偏概全、以点概面。

(四)坚持系统性原则。高校爱国主义教育的过程是一个规范的系统性过程,这就决定了高校爱国主义教育的监测与评价具有突出的系统性特征。它要求高校爱国主义教育的监测与评价工作立足于全面把握,从整体上真实反映学校爱国主义教育的基本情况与成效。同时要求学校内部各行政机构、教学、教辅部门及各基层院系都明确责任,层次分明,管理有序,各部门做到分工明确,协同合作,做到各个环节紧密相连,环环紧扣,形成爱国主义教育的合力,充分发挥教育、管理这两大要素在爱国主义教育这一系统工作中的巨大作用。

(五)坚持动态性的原则。建立爱国主义的监测与评价模式一方面要充分继承和发扬我国监测公正、评价客观的优良传统,同时充分汲取国外在此领域内的先进经验和优秀的成果,把它们和我国高校爱国主义教育的实际相结合。另一方面时代的发展及互联网的普及应用使爱国主义教育处于不断发展和完善的过程,其教育效果也是一个逐步显现和不断强化的过程,这就决定了爱国主义教育的监测与评价的内容、方式方法要经常性地根据客观条件和具体情况的变化而变化。只有坚持这种动态的变化才能准确及时地反映出高校爱国主义教育的变化和发展。

三、监测与评价模式的运行

(一)明确组织领导机构。设立校级领导机构,建议各高校党委成立由校领导为主要负责人,教务处、学生工作部等部门负责同志,以及各二级学院分管学生工作的党委(总支)书记共同参与的一个直属于高校党委领导的爱国主义教育监测与评价领导小组,负责全校的爱国主义教育监测与评估工作。具体由教务处主导教学监测系统和教学评估系统,校学生工作部主导管理监测系统和管理评估系统,相关职能部门和各二级学院一起协助做好管理监测和评估系统。此外还应建立健全机构的相关管理制度和绩效考核标准。

(二)进行逐阶分级式的监测与评价。“90后”大学生的爱国主义教育是一个具有高度整体性和系统性的工作,它需要学校党委、行政把它作为一个全局性的问题进行考虑和布局,它不是某一个部门或者某一位老师能够组织和实施的。高校应结合“90后”大学生的特点,构建具有现代爱国主义教育特色的监测与评价体系。该体系分为两个主系统,分别是教育系统和管理系统。

1.教育系统。由学校教务处主导,相关的职能部门例如教学设备处、现代教育中心、评估中心等教辅部门协助管理,下设教育监测系统和教学评价系统。其监测与评估的内容主要包括两方面:一是施教者的主体状况,包括他们的政治素质、人格素质和理论修养;二是受教者个人的思想品德情况及受教群体的思想品德的状况。目前各高校的教育评价系统已经相对比较完善,国家也专门进行本科教学水平合格(审核)评估促进高校不断改进教学,完善教学评估。对于教学监测系统,主要包括教学前的准备监测、教学过程监测和教学效果监测与信息反馈三部分职能,由于目前高校职能部门人手有限,往往对于教学监测都是通过教案检查、督导组听课、学生评教等方式进行。

2.管理系统。由校学生工作部主导,相关职能部门例如团委、招生就业处等部门协助管理,下设管理监测系统和管理评价系统。管理监测系统主要通过二级学院进行,以各学院的学生科、团总支为基础,通过辅导员和学生组织对党团组织活动开展情况,学生会和学生社团开展活动情况,校园文化建设情况,以及社会实践活动开展情况进行监测。管理评价系统则通过学生对辅导员和班主任的测评、对学生活动的参与程度、对学生干部的拥护程度等方面进行评价。

3.两个主系统的地位与关系。在系统论的构建原理下,教育系统和管理系统都处于同等重要的地位。学生爱国主义教育监测与评价领导小组可以通过构建这两个系统对学生的理论、实践及评价进行有机整合,两个主系统下的子系统一旦出现问题就可以及时得到协调和解决。

四、监测与评价的结果反馈

对爱国主义教育工作进行监测和评价的最终落脚点是增强爱国主义教育的效果。因此将监测和评价的最终结果对监测和评价的主体和客体进行反馈,促进他们不断进步显得尤为重要。监测和评价必须有结果,不能有头无尾,只有过程,没有结论。如果只有监测和评价的过程而没有结果的反馈,那么整个监测与评价体系的构建也就失去了意义。

对于监测与评价的结果,应当采用恰当的方式表现出来。可以采用评语、等级、数量或者综合以上的表现方式。但是无论采用哪种方式都必须把结果反馈给被评价单位和被评价者。反馈的过程中应当注意方式和方法,可以采用集体讲评、个别谈话的方式,一方面保护了被评价者的隐私,另一方面实现了反馈过程中的思想沟通。在整个反馈中应以表扬为主,批评为辅,重要的不是将被评价人一棒子打死,而是让他通过评价反馈找出不足,寻求解决之道。最终把爱国主义教育的工作提高到新的水平。

爱国主义教育的监测与评价是一个系统的工程,可以对爱国主义教育的效果作出更加真实可信的结论,对于帮助和改善高校“90后”大学生爱国主义教育工作具有非常重要的理论意义和现实意义,值得更多的思想政治教育者关注和研究。

参考文献:

[1]梁建桃.高校大学生健康教育实施监测与评价的研究[J].武汉体育学院学报,2007(9).

教育测量与评价论文例8

高中语文人教版“表达与交流”模块对高中写作教学无疑具有指挥棒的作用。由五本课本中“表达与交流”内容编排的分析,我们可以看出教材注重什么淡化什么。具体为必修一:心音共鸣――写触动心灵的人和事,亲近自然――写景要抓住特征,人性光辉――写人要凸显个性,黄河九曲――写事要有点波澜。必修二:直面挫折学习描写,美的发现学习抒情,想象世界学习虚构。必修三:多思善想――学习选取理论的角度,学会宽容――学习选择和使用论据,善待生命――学习论证,爱的奉献――学习议论中的记叙。必修四:解读时间――学习横向展开议论,发现幸福――学习纵向展开议论,确立自信――学习反驳,善于思辨――学习辩证分析。必修五:缘事析理,学习写得深刻;讴歌亲情,学习写得充实;锤炼思想,学习写得有文采;注重创新,学习写得新颖。

不管从标题上,还是从篇目内容及课后练习上,认真分析比较,我们都可以归纳出“表达与交流”的三大内容:一谈如何写好记叙,描写,抒情,议论,二谈“虚构”与真实,侧重虚构,三谈好文章的四项指标――深刻、充实、文采、新颖。没有涉及它们与文体的相关,更没有涉及文体的理论知识与实际操作指导。必修教材的“表达与交流”忠实地执行了我国《语文课程标准》的要求。我国《语文课程标准》并不特别强调文体,小学以叙述文为主;初中有明确的文体要求:“写记叙文,做到内容具体;写简单的说明文,做到明白清楚;写简单的议论文,努力做到有理有据;根据生活需要,写日常应用文。”普通高中只要求综合运用记叙、说明、描写、议论和抒情等表达方式,并没有明确的文体规定。这反映出《语文课程标准》淡化文体意识的价值取向。

美国高中作文教学却与我们不同,文体教学在美国高中作文教学中有着重要地位,在作文教学的几大模块中占有相当大的比重。

如在作文教学纲要和指导观念里,实用文体的写作训练和写作基本能力训练与表达方式的训练共同组成美国的写作教学的三大内容。这三大训练有多种训练体系,有单向的也有综合的。“文体”意识和实际指导在这些体系中随处可见,如“思维―表达训练体系”主要进行思维和文体写作的训练,其他还有一般文体写作训练体系、实用文体写作训练体系。如美国加利福尼亚州的《公立学校英语课程标准》明确要求学生写叙述文、文学评论、研究报告、劝说文、技术性文章及常用应用文,对每一文体都有明确规定。

在实际教学操作中,文体教学得到了同样的重视。

如三册《美国语文》(2004年同心出版社出版的《美国语文―――美国著名中学课文精选》,以下简称《美国语文》)是中国大陆第一套系统引进的西方著名中学语文教材。文体类型(除编译时由于篇幅关系删去的戏剧、诗歌外)统计如下:

文体类型具体类型举例:

(1)小说:短篇小说、科幻小说、长篇小说;

(2)散文:分析散文、讽刺散文、说明散文、思考性散文;

(3)其他类:日志、神话、传说、故事、叙述文、布道、自传、劝说文、演讲、格言、书信、通告、游记、回忆录等。

课后写作练习文体训练类型举例:

(1)想象、娱乐、感受类:神话、短篇小说、科幻小说、电影情景、人物传记、日记、续写、改写、广告、网页制作、格言等;

(2)通告、阐释、描述类:通信、通告、新闻报道、报告、描述性信件、摘要、讣告、课程描述、竞赛公告等;

(3)劝说、建议、说明类:说服性的短文、给校长的建议、建议专栏、收藏者指南、提议、有说服力的信条等;

(4)分析、评论类:文学分析、社论、批判性回应、说服力评价、比较研究等。

与淡化文体教学对应的是中国作文评价标准是面向文学性、诗意和哲理性很强的记叙文、议论文、说明文的通用标准;与注重文体训练对应的是美国评价标准鲜明地体现为分文体定标准。这种分文体制订评价标准的做法是较为严谨的。它能充分反映评价学生驾驭不同文体的能力,较之抽象地评价内容充实否、结构完整否、符合要求的“通用”标准否,更能起到实际的评分指导与规范作用。

我认为美国作文教学对文体教学的重视,是美国作文教学卓有成效的原因之一。在美国教学中最令全球教育界惊奇的事就是美国人普遍具有良好的写作能力,只要受过普通教育的美国人,都能把自己要说的话写在纸上且表达清楚,同时尽可能遣词造句,使意义更准确。而这种情况,反映的正是美国高中作文评价有相当高的效度。

美国作文教学之所以卓有成效,注重文体教学和注重效标效度的分文体制订评价标准的作文评价功不可没。这样的结论不是主观臆测,而是通过客观分析得出的。了解美国文体教学与分文体制订评价标准的作文评价,并对评价效度进行分析,我国作文评价的效度问题亟待解决。

怎么改进甚至改革高中作文教学呢?作文成绩与写作能力是否成正比呢?

举个比较绝对的例子,假如高中作文教学只有新诗教学,作文练习与测评题只有新诗形式的测评题,有这么一个可能结果,老师抱怨作文难教,学生抱怨作文难学难写、没东西可写、太多束缚不自由……还有一个可能结果是,作文测评成绩不错的高中毕业生在社会上不会写读书笔记,不会写文学评论,不会写报告,不会写社论,不会写计划书,不会写基本的商业策划,不会写比赛公告……作文测评成绩不好的高中毕业生在社会上却成了新兴作家或者公司的文案高手……于是作文教学改革呼声四起,兴起了半命题写诗、话题写诗、材料写诗、漫画写诗、不定题材写诗、生活化写诗、心灵化写诗、学生诗作互评、多就少改诗、总评诗、面评诗、每日一诗……

当然,上述是一个较为绝对的例子,可事实是,这个绝对例子与当下高中作文教学内容的关系只不过是五十步与百步的差别。高中作文教学中并未有更多样的文体介绍和指导,在大部分学生的脑海中,他们知道的文体就只有文学性质的记叙文、散文、论点论据论证式议论文、诗歌和戏剧,就在这有限的三四个文体中选择,较之于事实上丰富多样的文体而言,“文体不限”能算是真正意义上的文体不限么?脑海中根本就没有多少文体概念知识,何谈文体不限的选择呢?在记叙文、散文、论点论据论证式议论文、诗歌和戏剧范围内分文体定标准的作文评价是否是真正意义上的分文体定标准作文评价呢?如前文所示美国中学文体训练类型涵盖了工作岗位上大部分的文体写作,培养了美国人而不是美国学生普遍良好的写作能力,而大部分接受过高中作文教学的中国高中毕业生,在进行工作岗位上基本的文案写作时一般都是初次接触,能力匮乏。这不仅是高中语文作文教学中文体教学缺失造成的后果,还反映了对应于淡化文体教学的淡化文体评价的作文评价的低效度。

任何测评都涉及效度。效度是指所测量到的结果反映所想要考察内容的程度,测量结果与要考察的内容越吻合,则效度越高;反之,则效度越低。在作文教学中或者在升学考试中指作文测评的分数反映学生作文真实能力的程度。在判断作文测评是否有效性时,在考虑到测评的内容效度的同时还必须考虑到效标效度。

内容效度最容易理解,它关心的是测量的内容。比如某一个学段进行诗歌写作教学,内容效度就会考察诗歌写作测题是不是与这个学段教授的诗歌写作知识、方法和技能有正相关。

效标效度稍微复杂些,是指当前一项测验结果与作为效标的资料或数量之间的相关程度。效度的高与低,需要有一定的参照点加以考查,尤其是能力的测试。实际上能力都是无法测量的,因此我们只能确定一个或几个能反映能力的标准,然后做间接的比较。这种人为确定的效度标准简称“效标”。效标效度关心的是测量结果和另外一个效标(criterion)的符合程度。比如,据说微软公司招人的时候会考一些类似脑筋急转弯的问题,像“纽约有多少个水井盖”之类。考察者并不真的关心答题者是不是真的知道纽约有多少个水井盖,他关心的是答题者以后的工作业绩(相当于效标)。那么考题到底能在多大程度上预测工作业绩呢,或者说这些考题和工作业绩的相关程度到底如何呢,这就是效标效度。比如,在美国高中作文教学进行的同时,进行多种文体的训练与测评,这个测评,除了关心测评题与教学内容的相关程度外,更关心学生实际生活和工作中的写作能力及发展。测题到底能在多大程度上预测写作能力呢?或者说这些测题与日后的写作能力的相关程度到底如何呢?这就是效标效度。

内容效度和效标效度的区别首先是调查者(investigator)的观察的取向(orientation)不同。使用内容效度的调查者,关心的是测量的得分。比如教师对学生进行写作测验,那么学生在这张试卷上的得分正是教师所关心的。使用效标效度的调查者,他关心的是效标的得分。比如上面举的招聘的例子,公司并不真正在乎你在招聘试题上的得分,他在乎的是你以后的工作业绩(相当于效标),上面举的作文测评的例子,教师还关心学生在以后的生活和工作中的写作能力(相当于效标)。

这是两种效度在观察重心上的区别,另一个明显的区别就是推论(inference)的程度的不同。对使用内容效度的测量者来说,基本上不存在推论。还以作文测题为例,作文成绩高分就说明这学生作文能力好,教师不需要进行推论,作文成绩得分直接说明问题(如果要引申到学生的学习态度就是在进行推论了)。在效标效度的例子里,推论是很明显的。招聘试题上的得分真的能预测将来的工作业绩吗,诗歌写作成绩好真的能预测将来生活和工作中的写作能力吗?局限于记叙文、散文、小说、论点论据论证式议论文和诗歌的写作成绩好,真的能预测将来的写作能力吗?这时候推论的意味已经很强烈了,实际上效标效度就是用来衡量这种推论的可靠性的。

测量者关心的是测量得分时,用内容效度;测量者关心的是效标得分时,用效标效度,也许还需要解释一下,这两种效度并非只能用于不同的作文测题,而是取决于测量者如何使用作文测题。比如,同样是一套或一系列作文测题,两种效度都可以用来考核它,这取决于施测者如何使用这套或者一系列作文测题。如果施测者只想从中知道学生对相关的写作知识和能力的掌握情况,那么他应该关心这套或这个系列作文测题的内容效度如何;如果施测者想以此推断学生将来工作生活中的写作能力,那么他应该关心这套或者这个系列的写作测题的效标效度如何。

在关注效标效度时,不能忽略了同时效度和预测效度。它们是在时间上对效标效度进行的分类。它们的区别是时间上不同,同时效度的效标和原测量工具是同时施测的,而预测效度的效标是在原测量工具之后施测的。比如学习期间正式进行的作文写作测验的同时效度的效标是与这些测验并行的学生写作练习成绩和老师观察评价等,而预测效度的效标则可以是期末考作文成绩,高考作文成绩和生活工作中的写作能力。

前文已经说道,效标效度的使用者真正关心的是效标上的结果,因而待检验的测量工具其实是作为效标的替代物出现的。为什么要使用替代物呢?其理由在预测效度这里很明显,效标是作用于将来的,我现在要知道结果就必须使用替代物。比如要知道学生在将来正式高考时的可能成绩,那么我们需要使用有较高的预测效度的模拟试卷。又或者要知道学生将来写研究报告的能力,那么教学时应该使用有较高的预测性的作文测题;这两个例子里的模拟试卷和写作测题都是为了实现预测的目的而必须使用的替代性的测量工具。

结合以上关于内容效度和效标效度的分析,我国作文教学和作文评价的现状如下:高中作文教学模块“表达与交流”有三大内容:一谈如何写好记叙,描写,抒情,议论,二谈“虚构”与真实,侧重虚构,三谈好文章的四项指标――深刻,充实,文采,新颖。作文评价对应于这三大内容的评价标准。那么从理论上说作文评价已有了较高的内容效度。可是内容效度高并不代表作文评价的效度高,并不能真实反映作文教学的成效如何,是否科学合理。在作文教学中,文体教学的严重缺失,文体意识严重匮乏导致学生日后生活中自由写作思维极为狭隘,没有可供自由选择的文体写作,驾驭文体能力相当乏弱导致学生日后无法快速应对丰富多样的文体写作,这反映了我国高中作文教学评价相当低的效标效度。

事实上,高中毕业后大部分人都有这样的经验,开始社会生活、走上工作岗位后,没有多少人会继续进行我国高中作文类型的写作,例如写文学性、诗意、哲理性很强的记叙文、散文、议论文,反而是当下高中作文教学所淡化的形式规范性很严格而且思维能力要求各具特色的其他文体写作特别是实用文体写作成了很多人的日常写作,可是在作文评价过程中,忽视对效标效度的分析,并没有把驾驭这些文体的写作能力当做预测效标来分析和重视。缺少这种效标效度分析的作文评价就无法发现当下作文教学成效低微,学生应对生活与工作的实际写作能力低弱的真正原因。

参考文献:

[1]黄全愈.高考招生制度改革的追问[J].全球教育展望,2005(5).

[2]陈文中.外国大学入学作文考试的启示[J].中学语文教学,2004(4).

[3]周鸾飞.近五年我国高中教学作文评价的研究[J].湖南师范大学硕士学位论文,2009.5.

[4]贺义廉.高考备考作文训练的现状与误区[J].当代教育论坛,2008第5期.

[5]王选遨.构建符合课程标准要求的写作教学新思路[J].语文教学通讯高中版,2005(3)

[6]朱晓斌.西方写作教学研究的新进展[J].心理科学,2001,VOL24(4).

[7]张娟.我国高考作文命题及评价回归生活的诉求[J].教育测量与评价,2008.9.

[8]黄全愈.“高考”在美国[M].广西师范大学出版社.

[9]瞿宝奎.教育学文集・教育评价[M].人民教育出版社,1989.

教育测量与评价论文例9

在当今成建制的国民教育体系中,没有质量的教育是对社会公共资源的极大浪费,同时也是对子孙后代的贻误,这是世界各国教育改革发展已达成的共识。因此,《国家中长期教育改革和发展规划纲要(2010-2020年)》明确指出,要以提高质量为核心,把提高质量作为教育改革发展的核心任务;树立科学的质量观,把促进人的全面发展、适应社会需要作为衡量教育质量的根本标准。[1]

那么,怎样才能高质量、高水平、高效益地完成这一任务,实现党中央、国务院提出的宏伟目标,加快我国从教育大国向教育强国、从人力资源大国向人力资源强国迈进的步伐,为实现中华民族的伟大复兴以及人类文明的共同进步做出更大的贡献呢?就一个区域特别是省级行政区域而言,推进教育质量的提高是一个系统工程,其动力系统由多个要素组成。从大的视野来看,提高区域教育质量,最为重要的是要解决好两个问题:一个是教育决策问题,另一个是教育建设问题。而这两个问题都与教育科研尤其是教育科研质量息息相关。首先,教育的科学决策,包括区域内重大教育政策措施的酝酿和出台、学校重大改革和发展方案的制订与实施,以及针对区域和学校的制度变革等,都是以教育科研为基础的。其次,教育建设,也即教育改革和发展中的一切具体的行动和作为,都是在教育工作者自身素质具体实践的基础上形成的,而教育工作者的素质又与教育科研紧密联系在一起。教育科研对人的素质的影响,一是人的观念和思维方式受到教育科研成果的影响,这些成果包括教育思想、教育理念、教育视野等,其中,受系统化教育理论的影响最甚;二是人的科学素养受到教育科研实践的影响,这种素养是在具体的教育科研实践中形成,在特定的情景中提升,并完成质的飞跃的。比如,一线教师的专业发展就是在完整的岗位教研实践中完成的。离开了教育科研,教育质量就没有深度和高度“,提高教育质量”就会变得苍白无力。当然,教育决策与教育建设问题是直接支配教育质量的两个层面或相互依存的两个活动领域的问题。教育决策影响教育宏观质量,教育建设影响教育微观质量,且二者相互作用、相互影响。可以说,树立以提高质量为核心的教育发展观,注重教育内涵发展,鼓励学校办出特色、办出水平,出名师,育英才,不仅需要教育科研的全程参与,而且需要高质量教育科研的强力支持。基于这一认识,湖南省教育科学研究院参与制订、经湖南省政府常务会议审定通过、即将颁布实施的《湖南省中长期教育改革与发展规划纲要(2010-2020)》,把加强教育科学研究作为教育改革和发展“强化保障措施”的一个独立条款,并明确提出,要把教育科学研究摆在更加重要的位置,加大对教育科研工作政策和经费支持的力度,加强对教育科研机构的领导和管理,不断提高教育科研的质量和水平。[2]这一条款的提出势必会为湖南省未来全面提升教育质量奠定坚实的基础。

需要指出的是,之所以强调优质教育科研,是因为教育科研质量在提高区域教育质量中具有特别重要的地位。从历史发展上来看,我国严格意义上的教育科研,也即大致按照自然科学研究标准而定的教育科研,是继16世纪以来的两次“西学东渐”和“洋务运动”之后,以“五四爱国运动”为契机,于20世纪20年代正式发轫的。1917年,北京大学建立了教育实验研究所,1919年我国开始引用教育统计和教育测量,[3]此后,许多研究者在全国各地建立了教育实验区,在大量科学研究的基础上形成了各自的教育思想和教育理论,对我国现代教育的形成和发展产生了重大影响。改革开放以来,国内教育研究方法在大量引进与融会贯通中得到了快速发展,定量研究、实验研究、准实验研究、调查研究、比较研究、定性研究、实地研究、文献研究、人种学研究、田野研究、行动研究,等等,各种研究方法不断翻新,不断精当,[4]极大地提升了教师的专业水平,有力地保障了教育质量的不断提高。然而,并非所有的教育科研都会对区域提高教育质量产生推进作用。比如,几十年来,我国大量教育实验之所以收效不大、影响甚微,理论贫乏有其不可推卸的责任。理论缺乏深度、缺乏创新,严重降低了我国教育实验的价值与意义。[5]

这里所讲的“理论贫乏、理论缺乏深度和创新”,一方面是教育实验研究本身的问题;另一方面也是更为重要的一个方面,是基于教育实验研究的系统化结论、观点、思想的有效建构问题,即理论的建构问题,二者实质上都是教育科研质量问题。显然,教育科研质量是教育科研的生命线,优质的教育科研是促进区域教育质量提高、实现国家教育发展宏伟目标的强大动力,而低质量的教育科研只能是一种资源浪费,甚至是败坏学风、滋长学术腐败的一个源头。

当前,随着教育研究中的教学研究,特别是教师职业岗位教研的科学研究成分的不断提高,教育科研已日渐成为整个教育研究的代称,教育科研质量也将受到更加广泛的关注。因此,对教育科研质量的监测评价,也就成了我国教育主管部门、教育科研管理部门和教育科研机构,抑或教育科研人员自我的一个十分重要而紧迫的任务。

二、教育科研质量监测评价的成就与问题

教育科研质量监测评价是对教育科研水平高低、成效优劣、价值大小的评价与判断,主要是指教育科研选题的研究价值,研究手段、研究方法和研究投入的协调程度,研究结论或科研成果的科学性与进步意义,或者是某项教育科研显性价值与隐性价值的净增量。这种价值往往表现为社会价值和科学价值,其主要形态大致分为精神的和物质的两种。

#p#分页标题#e# 物质形态的教育科研价值,通常是指学术专著、科研论文、研究报告、教材教辅等;精神形态的教育科研价值,则是指蕴藏于教育科研过程的理论、经验、观念,以及教育科研过程对研究者自身精神的锤炼与品质的提升。需要注意的是,原创性是科学研究推崇的首要指标,教育科研也不例外。然而,教育科研质量的评定不仅仅取决于其原创性的高低,还取决于它能否促进教育工作者科学素养的积淀与提升。

甚至可以说,衡量教育科研质量的根本标准,应该是“适应教育需要,促进教师的专业发展”。只有真正解决了教育理论与实践中已然存在的问题、提出了新的发展思路、提升了教育工作者的素质,教育科研质量才能体现出来。

我国当前的教育科研质量监测与评价,是伴随着国家教育科研制度的恢复,特别是教育科学规划的制度化而逐步完善的。1979年,教育部和中国社会科学院联合召开了第一次全国教育科学规划会议,这成为我国教育科研走向规范化的标志性事件。

1983年,经全国第二次教育科学规划会议协商,我国正式成立了全国教育科学规划领导小组及其办公室。同一时期,一些省市也相继成立了相应机构。教育科研和教育科学规划制度化的一个重要目标,就是对教育科研质量进行监测和评价。在这个方面,我们已经取得了令人瞩目的成就。以湖南省为例,这些成就主要体现在以下三个方面。

一是初步建立健全了教育科研质量监测评价的机构系统,明确了教育科研质量监测评价在教育科研体系中的地位,进一步拓展并完善了教育科研质量的监测、评价、管理等职能。具体说来,地方教育科研质量的监测由省、市两级教育科学规划办和课题主持单位共同进行,评价由规划办组织专家完成。

比如“,十五”以来,湖南省成立了省教育科学规划办,各市州成立了教育科学规划领导小组和办公室,或教育科学规划课题管理的相应机构,有效解决了教育科研课题研究的组织与资助体系建设问题。同时,湖南省教育科学规划办还依托高校,自主开发和建设了湖南教育科学规划网,开辟了“国家课题信息”、“课题研究动态”、“课题研究指导”、“课题文献检索”“、课题成果公报”、“课题成果推广”等栏目,建立了网上申报、评审课题、管理项目和成果推广等一体化的系统。

二是正在逐步完善教育科研质量监测评价的规范系统,强化了广大教师和专职研究人员的教育科研质量意识,改善了教育科研监测评价的方式方法,在较大程度上保证了教育科研质量监测评价工作的规范化、科学化。这里所说的教育科研质量监测评价的规范系统,内含了教育科研质量监测评价的指标体系及对评价主体资格等的规定。近十年来,湖南省借鉴现代企业全面质量管理的理念和方法,率先在省级教育科学规划课题中积极推行全面质量管理,研制了省级教育科学规划课题全面质量管理标准,形成了符合教育科研规律、体现教育科研特点、切合教育科研实际的“三级双层一持续”的教育科研质量监测评价模式,并在本省的教育科学规划课题监测、评价、管理的实践中应用并进行检验。同时,湖南省教育科学规划办还先后制订了一系列规章制度,比如《湖南省教育科学规划课题管理暂行办法》、《湖南省教育科学规划课题分级管理实施办法》、《湖南省教育科学规划课题成果鉴定、结题实施细则》、《湖南省教育科学规划课题成果鉴定评估标准》、《湖南省教育科学规划课题项目管理先进单位评比考核标准细则》、《湖南省教育科学规划课题实施中期检查制度的意见》等,体现了行政管理与学术管理相结合的主要精神,有力地促进了教育科研质量监测、评价、管理的制度化。

三是审批立项了一批优秀课题,产出了一批高水平的成果。按照“五年一规划,两年一评审”的要求“,十一五”时期湖南省共立项省级教育科学规划课题1354项,其中,基础教育研究方面的课题291项,占规划课题总数的21.6%;高等教育研究方面的课题324项,占规划课题总数的24.1%;职成教育研究方面的课题267项,占规划课题总数的19.9%;德育研究方面的课题112项,占规划课题总数的8.3%;教育基本理论、教育史与比较教育研究方面的课题26项,占规划课题总数的1.9%;教育发展战略(含民族教育)研究方面的课题55项,占规划课题总数的4.1%;教育经济与管理研究方面的课题60项,占规划课题总数的4.5%;教育心理研究方面的课题56项,占规划课题总数的4.2%;教育信息技术研究方面的课题69项,占规划课题总数的5.1%;体育卫生美术研究方面的课题84项,占规划课题总数的6.2%。这一时期,湖南省共获得全国教育科学规划课题233项,其中,教育部重点课题和国家重点课题、一般课题141项,占全国课题立项总数的8%,居全国各省市排名的前四位。借助于这些课题,我们产出了一批高水平、有影响的教育科研成果,先后有多项获得国家教学成果奖、湖南省教学成果奖,有效地促进了教育教学质量的提高,也在较大程度上保证了教育科研质量的提升。比如,湖南省教育科学研究院副院长黄宜锋研究员主持的全国教育科学“十五”规划教育部课题“教育科学规划课题全面质量管理研究”,构建了省级教育科学规划课题全面质量管理的理论框架,形成了良好的管理模式,制订了有效的评价标准体系,研制了操作性强的执行工具,[6]在教育科研质量管理实践中取得了良好的效果。

当然,我们也清醒地看到,目前的教育科研质量监测评价还存在一定的困难和问题,不仅制约了教育科研的发展,而且在一定程度上还影响了区域教育质量的整体提高。一是指导思想还不能适应教育改革与发展的需要。教育科研质量监测与评价的基本目的,不外乎三个方面:为教育质量提高而评价,为专职研究者和广大教师的发展而评价,为立项课以优质教育科研助推区域教育质量整体提升题实施的真实性与有效性而监测评价。但是,目前的情况通常是重“甄别评优”,轻“实际运用”。二是监控的刚柔性还不是很适度,教育科研质量监控还难以尊重主持人及核心研究组成员的意志,对成果的要求有时过于僵化。其实,有些研究,特别是教育科研中的基础研究以及教师职业岗位的教学研究,其质量监控机制是有待深入研究与实证分析的。三是监测评价部分指标的设计还缺乏科学依据,其结构的合理性和内容的精确性、可测度不强,且其体系过于庞杂。四是不少从事质量监测评价的人员未经过专业训练,其素质还有待提高。[7]五是很多教育科研成果,对教育改革和发展的推动作用还处于“中介”状态,要形成直接的教育生产力,还需要对已有的理论成果进行二次开发,将其转化为可操作的方案以及“应用技术”。只有这样,教育科研才能达到影响和为教育决策与实践参谋的目的。#p#分页标题#e#

三、教育科研质量监测评价体系建构的基本思路

教育科研质量监测评价体系包括监测与评价两个部分,二者相互关联且有一定的独立性。新中国成立以来,我们逐步建立起以政府主导、规范化发展为主线,以独立于学校之外且以学校为支撑的政府教研机构为主干的四级教育科研网络系统和相应的规范体系,形成了行政主导、重视应用性研究和实践研究的风格,以及行政监测、专家评价和自我评价相结合的基本格局。当前,建构中国特色的教育科研质量监测评价体系同样也是一个系统工程,需要根据我国国情特别是我国特色教育科研制度的演进有序推进,重点是转变观念、创新机制、改进技术。

1.转变观念

转变观念是建构中国特色教育科研质量监测评价体系的先导。当今的教育科研管理,重点是监测研究过程的真实性和有效性,即监测的信度与效度。这里的关键是效度的考评问题。什么样的教育科研才是有质量、有效的?什么样的研究选题才是应获得支持的?教育科研课题立项以外的教育研究如何得到有效支持?教育科研质量的监测与评价是应该合一还是分离?这些都是观念上的问题。教育科研具有科技属性和教育属性,在充满各种变数的科技时代里,因为现代科技的主体建构性和技术活动的价值承载及其复杂性,[8]教育科研从本质上来讲也是一种伴随着风险的具有不确定性的活动。特别是在攻克一些未知领域或尚未取得重大进展的领域时,效度的监测评价是极其重要的,同时也是非常困难的,比如,学校思想道德教育的路径与机制,学校思想道德教育对人的品质影响在人的一生中所占份额的多少,“因材施教”的条件、目标定位与具体实施,等等。正是因为这个原因,人们对长期以来的教育评价实践提出了批评,认为现代教育评价存在实践中的工具主义价值取向、实证化的评价方法论、统一的评价准则与标准,以及为评价而评价[9]等问题。因此,对于教育科研质量的监测评价而言,观念更新与价值体系的建立健全尤为重要。具体言之,以下五个方面是特别值得重视的。

一是转变甄别评优(即重成果评价、轻过程监测)的监测评价观念,树立信度、效度有机统一,全面质量监测评价的理念;二是转变有失偏颇、片面的“小教育科研质量监测评价观”,即片面注重对某一教育科研类型实施的过程或产出进行监测评价的观念,树立“大教育科研质量监测评价”理念,即将基础理论研究监测评价、应用研究监测评价和开发研究监测评价三者有机结合的监测评价理念;三是转变“见物不见人”的监测评价观念,树立以人为本、体现研究者和评价者主体性、强调评价主体多元化、以优质的教育科研促进教育教学质量提高的价值理念;四是转变就事论事(如,就成果评价成果、就项目评价项目等)的静态监测评价观念,树立与时俱进、着眼未来、促进可持续发展的动态的监测评价理念;五是转变重监测评价、轻信息反馈的监测评价观念,树立多元互动、以评促改、以评促建、评建结合、提升品质内涵的监测评价理念。

2.创新机制

建立并不断创新以提高质量为导向的教育科研管理制度和工作机制,是建构中国特色教育科研质量监测评价体系的核心。总体思路是,建立健全分级管理体系和网络式交互联络体系,分门别类设置质量监测评价系统,完善行政管理与学术管理并重的教育科研质量监测评价制度以及多因素协同共享的运行机制。首先,建立健全教育科研质量的分级管理体系和网络式交互联络体系。这是在评价主体多元化基础上对教育科研质量监测评价的权威性、研究者的主体性,以及人本理念的强调。从教育评价主体来看,主要有个体评价和社会评价。其中,个体评价又可分为个体的自我评价和个体对他人它事的评价;社会评价主要包括从国家需要、地区需要出发对教育进行评价,以当前需要和长远需要为划分标准,可分为社会现时评价与社会历史评价。[10]教育科研质量的分级管理体系主要是针对社会评价而设置的;网络式交互联络体系则是依据个体评价而设立的。

从目前的情况来看,教育科研质量的评价主体,还可以具体地划分为组织机构评价(包括政府、社会中介机构)、社会群体评价、学术团体评价、研究者自我评价等。这些主体对质量监测评价的具体实施需要有一个框架和纽带,这就是分级管理体系和网络式交互联络体系存在的意义。

其次,分门别类地设置质量监测评价系统。考察我国特色教研制度的框架结构和运行状况,以学校为支撑并独立于学校之外的四级教育科研机构,即国家、省、市、县级教育科研院所,是教育科研的管理机构、研究机构、决策咨询机构和指导机构,也是教育科研质量评价的权威机构。学校教研组织或教研团队,是教育科研的主力军,其研究的领域在一般情况下依托于研究者的工作性质和学科背景。因而,目前的重点是根据教育类别、层次和不同群体的具体情况,设立监测制度和评价标准,以促进教师的专业发展,充分发挥教育研究人员,特别是广大教师的积极性与创造性。这在竞争型教研制度框架下尤为重要。

教育测量与评价论文例10

【作者简介】吴琼(1970.04-),女,汉族,黑龙江哈尔滨人,沈阳师范大学外国语学院教授,硕士学位,研究方向:应用语言学、英语教学;刘昭含(1994.08-),女,满族,辽宁朝阳人,沈阳师范大学外国语言学及应用语言学在读研究生。

一、引言

为了进一步推进新时代教育信息化发展,2018年4月,教育部颁布了《教育信息化2.0行动计划》(以下简称《行动计划》)。《行动计划》将教育信息化作为教育变革的内生变量,支撑和引领教育现代化的发展,推动教育理念的更新和模式变革。在高校英语专业人才培养中,教育信息化已经成为衡量教育教学质量的重要标准之一。因此,树立信息技术与教育教学深度融合的理念,是新的历史时期提高英语专业教育教学质量的需要,也是培养新时代英语专业人才的需要。

测评是教育教学的重要环节,在人才培养过程中起着重要作用。测评对学生学习具有导向作用,学生怎么学,在很大程度上取决于考试怎么考。离开了测试和评价,教学质量便失去了可检测的依据,学习的效果也无从验证。此外,有效的测评会对教师的“教”与学生的“学”产生积极的反拨作用,能够促进教师与学生及时发现教与学过程中的问题,持续改进教学和学习。然而,长期以来,英语专业教育教学改革忽视测评改革的重要性,更多关注的是教学内容、教学方法和教学方式的改革。在高等教育信息化背景下,如何将教育信息技术与英语专业测试改革深度融合,是当今教育教学改革的重要议题之一。

二、英语专业传统测试模式的主要问题

受传统考试观念的影响,高校英语专业测评仍存在以下主要问题:

1.测评形式相对单一,缺乏多样性。目前,高校英语专业测评主要采用期末终结性评价与形成性评价相结合的方式,终结性评价多以闭卷笔试为主,占总评成绩的70%左右,形成性评价主要是针对平时表现的评价,占总评成绩30%左右,由出勤、课堂表现、作业、平时测验等构成。闭卷考试多设置标准答案,教师根据标准答案对学生的答题进行评判。该种形式的测试在一定程度上能够体现考试的公平性,但某种程度上限制了学生的开放性和创造性思维。

2.测评注重语言知识和技能,缺乏创新性。英语专业各门课程测试在很大程度上停留在检测学生的英语语言知识和技能或陈述性知识层面,没有将对语言、内容和思维的考查有机地结合起来。测试往往脱离生活实际,不能有效检测学生应用所学知识解决现实问题的能力。听力、阅读等课程测试多以选择、判断、填空、简述题为主;口语、写作等课程测试多以根据话题进行口头或书面语表达为主;专业知识类课程大多停留在对所学语言学、文学、文化知识进行判断,选择,简答,分析等。长期以来,英语专业学生一直被批评缺乏高阶思维能力,测评内容单一,忽视对思维能力进行考查,是造成英语专业学生思辨能力缺失的原因之一。

3.测评注重结果,缺乏对学生学习的指导性。英语专业测评体系中,终结性评价多占据主导地位,缺乏对学习过程的检测和有效反馈。终结性评价虽然对一个阶段的学习效果具有诊断作用,但因为学生随即进入下一阶段的学习,教师往往忽视对考试结果的深入分析,学生更多关注的是阶段性学习后的测评结果。重结果的测评方式不能很好地起到以考促学的作用,缺乏对学生学习过程的有效指导,这种模式下的测评与教学和学习脱离,三者没有形成有机的整体。

三、教育信息化背景下英语专业考试模式改革探索

基于上述背景及传统测试模式存在的弊端,在当前高等教育信息化背景下,英语专业需要思考如何依托信息技术,对考试模式进行改革。

1.更新测评理念,提高教师的测评素养。教师测评素养在教育教学及测评改革中起到关键作用。教师在教学中需要科学设计测评内容,运用科学有效的测评方法和工具,对学生的学习效果进行评价。但是许多研究发现,英语专业教师的语言测评素养总体上落后于课堂教学等方面的发展,亟需加强评价知识及评价操作能力(潘鸣威,2020)。

教育部提出的一流课程建设为语言教师测评理念和测评素养提出了明确要求。按照教育部《关于一流本科课程建设的实施意见》(以下简称《实施意见》)要求,教师要进行“科学评价,让学生忙起来”,要完善以学生为中心的过程评价制度,加强对学生课堂内外、线上线下学习的评价,要通过科学的测评,提升学生学习的深度和广度,要加强非标准化、综合性等评价,提升学习的挑战性。为了做到科学、有效评价,英语专业教师要掌握必要的语言测评知识(如英语学习、英语语言测试等知识)、测评技能(如何命制及编写试题、如何进行试卷的统计分析等)及测评原理(如何有效使用测试等)。按照《实施意见》的要求,语言教师应改变传统的测试理念,重新思考测评的作用和功能。我国学者罗冠中(2015)将assessment划分为三个方面的意义,分别为assessmentoflearning(对学习结果的测评),assessmentaslearning(对学习过程的测评)和assessmentforlearning(促进学习的测评)。英语专业教师应充分认识到,测评不仅仅是对学习结果的检测,更要关注学生的学习过程,最终促进学生的学习。

在网络和大数据时代,学生的学习环境和学习方式发生了根本性变化,学习观念也发生了颠覆性改变,这些变化意味着测评也不能局限于傳统课堂,靠一张纸和一支笔来完成。线上线下、课堂内外对学习过程的测评和促进学习的测评要随时随地发生,以便对学生的学习进行实时监控、及时发现问题,及时解决问题。

2.依托信息技术,丰富测评形式。随着教育信息技术的广泛应用,线上线下相结合的多样化形成性评价在促进学生学习方面发挥越来越重要的作用。以新冠肺炎疫情期间笔者所讲授的《欧洲历史与文明》课程为例,根据课程目标的要求,课程加大了形成性评价的比例,形成性评价占总体测评的60%,主要对学生课前探究学习(20%)、课上及课下专题讨论(20%)及主题论文(20%)的参与和表现进行评价。在课前探究部分,学生观看课程视频后需要完成课程平台的知识点自我检测,或者按照教师的要求绘制知识点地图,或录制微视频对本章节知识点进行梳理汇报;专题讨论主要检测学生参与讨论的积极性及观点的深度,由教师给出话题,或采用小组负责制,在老师的指导下,每一章节由一个小组发起讨论。该部分测评的目的是帮助学生内化知识点,同时引导学生对所学内容进行深度思考和探究,训练学生的高阶思维能力;完成每一章学习后,学生撰写小论文,要求学生在消化理解本章学习内容的基础上,批判性地评价这一历史时期或某一历史事件,考查学生分析、评价和迁移能力,引导学生要树立以古为鉴、文明互鉴的意识。

依托信息技术,课程所实施的多种形式的形成性评价对学生的学习过程实现了动态监控,将检测与学习探究融为一体,强调了学生在学习过程中的主体地位,改变了以往学生在考试前突击复习的现象。动态的形成性评价引导学生按照学习的规律进行学习,有效帮助学生习得知识,通过研讨、专题论文、汇报等形式将知识转化为能力,最终促成教学目标的达成。同时,课程的形成性评价为教师及时提供诊断,有针对性地为学生布置个性化任务,帮助学生解决学习过程中的问题。

3.合理利用信息技术,改革测评内容。传统的语言测试题型比较单一,多采用选择题、判断题、匹配题、简答题、论述题、段落翻译题、口笔头作文题等题型,考查的内容往往脱离生活实际,且往往根据标准答案进行评判。语言测试研究专家Bachman和Palmer于1996年提出了测试有用理论,用来评价试题任务是否具有高质量的标准。按照测试有用理论,测试内容的真实性和互动性是评价测试是否有效的两个重要指标。真实性指语言测试中的试题任务越接近目标语使用的真实情境,测试越有效。互动性指受试者与测试任务之间的互动,互动性高的测试任务能够激发起受试者的相关知识、策略及情感图式等帮助受试者完成测试任务(刘亭亭,2019)。

在“互联网+”时代,网络信息平台为教师设计具有真实性、互动性、非标准化的测评提供了情境和平台。如应用文写作课上,教师可以结合网上某一国际化企业的招聘启事,让学生写一封应聘信及个人简历;针对高级写作课程考查,教师可以选择2-3个新闻媒体对同一事件的不同报道,让学生进行综述,比较不同观点,并批判性地发表个人观点;高年级听说课上,教师可以指定学生观看英美国家对某一事件的报道,然后学生录制个人对该报道的口头驳斥。借助网络信息技术,测评任务变得贴近实际,帮助学生意识到学习的目的是要解决实际问题,绝非应试。因此,依托信息技术而实现的多维度、非标准化测评能够帮助学生树立正确的测试观,调动学生参与测评任务的积极性。

教育测量与评价论文例11

中图分类号:G641 文献标志码:A 文章编号:1002-2589(2012)33-0289-02

思想政治教育的检测评估,是根据教育目的的要求,运用一定的评估指标和评估方法,检查和评定教育效果的教育环节。思想政治教育作为一种实践活动,它要服从和服务于党的中心工作,满足社会主义的经济、政治、文化建设发展的需要,为培养有理想、有道德、有知识、有纪律的一代新人作贡献,这就是思想政治教育的社会价值。因此,构建科学、完整的思想政治教育的检查评估体系,已成为新时期思想政治教育不容忽视的重要任务。

一、思想政治教育检测评估体系的意义

思想政治教育的价值,是通过思想政治教育的实际效果体现出来的。而实际效果的好坏和大小,反映了教育价值的取向和程度。思想政治教育的检测评估从教育的实际效果入手进行,它的意义主要有以下几方面。

1.检测评估不仅对教育效果进行正确合理判断,而且对教育效果产生积极作用

教育有什么样的效果,有多大的效果,有什么成绩和经验,有什么失误和教训,有关这些利弊得失的问题,只能通过检测评估才能加以判定。教育的成绩与失误分不清,经验与教训辨不明,就无法认定教育的效果和价值。同时检测评估对教育效果的判断,还有评价的作用。对教育的成绩,经验的肯定性评价,能够有效巩固、拓展、深化教育成果,激励受评对象参加教育活动的积极性和创造性,促进受教育者提高思想道德素质的主动性和自觉性。而对教育的失误,教训的否定性评价,也能够有效制止、克服教育的不良后果,激发受评对象吸取教训,避免重犯错误,争取成功。

2.检测评估是客观评估教育者工作成果,且不断提高其教育质量的重要途径

长久以来,很多人认为思想政治教育是虚的、空的,政治教育与业务工作存在“两张皮”现象屡见不鲜,究其原因,就是对思想政治教育缺乏行之有效的监测评估。一般来说,教育的效果反映了教育者的教育水平和教育态度。对教育过程和教育效果的检测评估,有助于思想政治教育者进行自我检查,对自己有一个客观的自我认识、评价和对自己所从事的工作有一个正确的态度,能够对自己进一步端正教育态度,改进教育内容和方法,增强其对思想政治教育的事业心和责任感,并使之转化为工作的积极性和主动性,从而不断提高教育质量。

3.检测评估是领导者加强和改进教育工作的重要措施

对于思想政治教育过程,我们认为是思想政治教育信息传输、加工、处理和反馈的过程,其中反馈这个环节起着重要的作用。而思想政治教育评估作为思想政治教育系统反馈的一种重要形式,能够对思想政治教育的效果进行衡量和判断。通过思想政治教育检测评估,思想政治教育的领导部门能够了解自己输出的信息作用于下属部门后产生的结果,从而对思想政治教育信息的再输出进行调整。可见,检测评估是领导者认识教育的有利条件,即发现薄弱环节,掌握教育工作新情况和新问题,并为新的教育决策提供实际材料,为进一步加强和改进教育工作创造条件。

二、思想政治教育检测评估体系的基本原则

1.方向性原则

方向性原则是决定并保证思想政治教育检测评估活动的性质的准则,它要求我们坚持正确的指导思想,明确检测目的,指导和制约检测评估活动的方向。它要求思想政治教育检测评估必须以以教育目标为根据,确保思想政治教育检测评估的正确导向。要正确处理好方向目标与达度目标的关系。方向目标是达度目标的基础,达度目标是方向目标的具体化。两者是本源关系,不能颠倒。具体体现在学生思想政治教育目标中,党的教育方针是方向目标,具体操作指标是达度目标。若本末倒置,无视教育方针贯彻与否,只就操行而论操行,则势必会在培养什么人的问题上出现错误导向。

2.客观性原则

客观性原则是依据马克思主义实事求是的思想路线规范其检测评估活动的基本准则。它要求在进行思想政治教育检测评估时,应坚持实事求是的态度,排斥主观臆想,真实全面地反映出思想政治教育的效果。由于思想政治教育量化有一定难度,在进行评估的时候难免会有主观印象的成分存在。所以为了评估的公平、公正性,评估者应该一切从实际出发,做到实事求是地反映情况。

3.全面性原则

全面性原则是依据辩证唯物主义的基本原理规范其评估活动的基本准则。它要求在进行思想政治教育检测评估时,对思想政治教育的所有方面都进行评估,避免以偏概全。在其检测评估活动的具体实践中,既要坚持检测评估标准的全面性,又要检测评估因素的全面性。贯彻全面性检测评估原则要把握思想政治教育效果的整体性和关联性。不但从物质和精神两个方面的结合中来评估教育效果。而且在思想政治教育的检测评估中,全面考察评估对象原本的思想与表现。既要看现实的效果,又要注重潜在的发展。

4.实效性原则

对思想政治教育的检测评估,最重要的是看它的实际效果。而教育的实际效果,要通过多方面的因素综合表现出来。按照这些因素,可以确立两个必须遵循的原则,即知行统一原则和德才兼备原则。

三、思想政治教育检测评估的困境

我们知道,思想政治教育检查评估体系的建立和实施作为思想政治教育的重要环节,一直被高校重视。随着思想政治教育评估的实践发展,虽然思想政治教育评估理论得到了充分的发展,但由于思想政治教育本身的特点,思想政治教育评估仍面临众多的困境。这是急需解决的问题。

1.评估范围的不确定性

在高校中,教育者思想政治教育工作的主要目标就是对受教育者进行思想政治品德培育,而看这项工作是否有效的标准就是看受教育者的品德培育状况。但是对于评估的范围,评估者可能存在许多不同的意见,例如对教育部门的评估我们既可以理解为对操作部门的评估,但从评估的目的上来看,更要注意对教育主管部门的评估,因为主管部门才是最终的决策者。另一方面,思想政治教育工作者由于受到主客观条件的限制,很难通过了解受教育者的言行来深入分析其真实的思想状况。思想政治品德通常是在一定环境与氛围下才能表现出来,若是没有这样的条件,品德很难转化为实际行动力。评估往往具有随意性,在开展和实施评估检查工作时,大部分都是人为地确定评估的时间和活动内容。评估的随意性往往并不完全符合高校思想政治教育活动的内在规律,因此给思想政治教育检查评估体系的建立和实施带来了难以确定的影响和困难。

2.思想政治教育背景环境的复杂性

思想政治教育是具体的实践活动,这一活动无论是从宏观方面还是微观方面说,它开展的前提、基础与条件具体到每一受教育者都有很大的差异,造成差异的原因又各有不同。所以在执行起来难度较大。因此我们还是要具体问题具体分析,检查评估体系的对象内容应该是多方面的结合,可能是静止的文字,或者是受教育者的实际行动,而结合的难点在于度的把握。

3.评估的技术或方法问题

思想政治教育评估中以什么作为衡量保准,这是目前评估理论的难点。在方法论上,有人提出,可以参考企业的无形资产进行评估的方法来评估思想政治教育的效果?这是一个可以引起讨论的话题,两者都具有“无形”的特征,既然前者可以进行评估,那么后者也应可以评估。现在的问题是:企业的无形资产评估,其最终的显示指标金额数,对思想政治教育评估,是否也应归于钱的评价上,这是非常可疑的。尽管金钱作为衡量价值,具有广泛的普遍性,但有许多活动领域的社会评估不会作为最终衡量标准,有很多东西不能直接用金钱来衡量。因此,有关评估的技术或方法之间的问题,应该仔细研究。

四、思想政治教育检测评估发展的探索

鉴于思想政治教育评估目前的发展状况,思想政治教育问题亟待解决。应该根据思想政治教育评估的原则,针对检测评估的困境,做好以下工作。

1.确立思想政治教育检测评估的新目标

思想政治教育是作为一项斗争的工具而被正式确立的。然而,随着经济全球化与信息全球化的到来,它应保持相对独立的意识形态。当前社会倡导建立了以重大权益为核心的价值评价体系,这一切都和思想政治教育的价值追求相背离。思想政治教育任务发生了变化,在今天关键是要促进和谐社会的形成。在这种情况下,必须确立思想政治教育检测评估的新目标。关注思想政治教育中的人文精神,做到以人为本。

2.把握好构建思想政治教育检测评估体系的背景和依据

思想政治教育评价体系必须建立在一定的政治背景之下,必须有它科学的理论和政策的基础,既要符合新时代的要求和形势发展的需要,又要符合大学的办学方向,同时符合党和国家的政策和有关文件精神,符合社会主义事业的建设者和接班人的价值要求。因此,思想政治教育检查评价体系的建立不能脱离社会主义发展的时代背景,不能脱离党的基本路线、方针和政策。

3.评估方法实行定量分析与定性分析相结合

一般来说,由于定量分析方法的运用过程与结果都是可以检验的,具有可操作性,其结果相对可靠,因此把这种分析方法运用于思想政治教育检查评估工作中,可以减少结果的随意性。相对于定性分析的主观性其优势较大。但是由于定量分析无法对思想政治教育评估工作进行整合,所以我们应将两者结合起来进行研究,将其融合在一起。

参考文献:

[1]李生峰.构建高校思想政治教育评估督导机制的意义[J].高教论坛,2010,(9).