欢迎来到速发表网,咨询电话:400-838-9661

关于我们 登录/注册 购物车(0)

期刊 科普 SCI期刊 投稿技巧 学术 出书

首页 > 优秀范文 > 数据挖掘课程

数据挖掘课程样例十一篇

时间:2022-02-03 15:39:41

数据挖掘课程

数据挖掘课程例1

近年来,在社会发展和科学进步的过程中,以信息技术为中心的各领域产生了丰富的数据,引起了社会各界人员的高度关注。体量大、速度快、模态多和价值密度低是大数据具有的特点,其能够促进科学和社会经济的进一步发展,对国家安全也具有重要的影响。然而从大量数据中挖掘出有价值的信息和知识是需要专业的数据挖掘人才来实现的,因此,在高校数据挖掘课程教学过程中,教师要创新教学方法,运用科学的教学理论培养学生对数据的意识,从而促进教学质量的提高和大量数据人才的培养。

一、科学引导,培养数据意识

在我国的各大高校中,数据挖掘课程是理科和工科都开设的一门课程,其专业性质较强,最初开设这门课程的主要目的是在于让学生了解数据的相关概念和挖掘数据的相关技术手段,并能够在以后的社会实践中应用到数据挖掘技术。但社会经济的发展和科学技术的进步,给数据挖掘课程带来了较大的挑战,仅仅是了解数据的相关知识和掌握浅层次的数据挖掘技术是不能适应时展需求的。因此,需要开设数据挖掘课程的高校教师在教学过程中对学生要进行科学的引导,注重培养学生的数据意识,提高学生对数据挖掘课程的积极性。

数据驱动的理论分析和应用是数据挖掘课程的重点,具体性和抽象性是其具有的两个特点。数据挖掘课程的主要研究对象是具体的数据,并从数据中挖掘出有价值的信息和知识,能够对数据进行解释和理解,这主要体现出数据挖掘课程的具体性特点;而在进行数据挖掘过程中使用的理论、方法和技术等概念,体现的是数据挖掘课程的抽象性,其在课堂学习过程中的消化和理解的难度是较大的,因为时间较短。由于种种因素对数据挖掘课程造成影响,因此在设计数据挖掘课程的教学之前,首先要做的就是让学生对数据挖掘课程感兴趣,并在发展过程中使学生的数据意识得以培养和提高。

在设计数据挖掘课程的教学过程中,可以增加讲解什么是数据、数据有什么作用、所具有的重要性等的学时,加强学生对数据的认识和重视。处在大数据的时代环境下,要让学生了解什么是“大数据”,而生活中的哪些方面存在大数据、大数据是以何种增长方式在哪些领域进行发展的大数据能够发挥作用等。教师在教学过程中可以使用多媒体教学的方法,通过实例和声像的展示,让学生了解生活中存在的数量,并清楚的掌握数据挖掘的技术方法,并从大量的数据中挖掘出有价值的信息和知识,为社会发展和企业进步提供服务,让学生了解在企业的发展过程中,数据挖掘的重要性。为了增加学生对数据挖掘课程的兴趣和重视程度,在教学过程中,教师还可以将数据分析和数据挖掘的相关招聘案例融入到教学过程中,从数据挖掘课程以往的就业率、职位性质、工资待遇及未来的职业发展前景等方面来增加学生对数据挖掘课程的兴趣,有利于在以后的学习生活中更好地掌握数据挖掘技术和应用数据知识。

二、深化基础,加强理论体系

现有的数据中心技术因大数据的特征而很难满足数据分析的需求,去噪降维技术、数据储存、数据整合、数据特征表示、数据通信传输和处理,以及非结构化和半结构化处理等方面是其主要表现。基于此,数据挖掘技术面临的局势较为严峻,并且数据挖掘课程是一门综合性较强的学科,涉及的内容较为广泛、复杂,主要包括数据库技术、统计学知识、机器设备知识、信息检索技术和智能计算等学科内容。然而现阶段的高校在教学设计过程中难以在有限的时间里将这些学科全部开设,即使是将这些学科全部开设了,每个学科的课时就会较少,不利于各学科的深入学习,从而对数据挖掘技术的掌握造成不同程度的阻碍。为了解决这个问题,在高校进行教学设计的过程中,可以把大三或大四的学生作为数据挖掘课程的主要教学对象,因为这部分学生对自己的职业生涯有清晰的认识,并且在大一、大二的学习过程中有一定的知识基础。在大一学年和大二学年开设高等数学、统计学、算法分析、智能计算、数据库原理和计算机系统原理等学科,为数据挖掘课程的学习做好基础性的工作。在教学过程中,教师也可以向学生推荐数据挖掘课程相关的数据,最好的专业领域较为著名的案例,有利于鼓励学生学习数据挖掘课程的自信心。外语水平也是数据挖掘课程对学生的一个要求,因为只有掌握了高水平的外语,才能够了解国外的数据挖掘技术的发展水平,全面的掌握国内外的数据挖掘发展情况。所以在设计高校数据挖掘课程的教学过程中,要推进基础知识的深化以及理论体系的完善,为日后的数据挖掘课程的学习奠定知识基础。

三、联系实际,创新教学方法

实践是理论来源的基础,对于理论的检验,实践是最有效的途径。由于数据挖掘技术具有强烈的抽象性,以至于学生对大数据的认识较为模糊,让学生了解数据挖掘课程的内容和在实际生活中的应用所采取的方式就是教师的教学方法。案列教学法是教学过程中最好的教学方法,有利于学生对数据挖掘知识的了解和掌握,还有利于学生掌握良好的数据挖掘技术方法。通过案例教学法,让学生了解数据挖掘在生活中的重要作用,在处理大数据时具有很大的作用。

教师在积极转变教学内容和教学方法的同时,学生也应该积极探索提高学习质量的方法,在课堂教学过程中,虽然教师起主导作用,但是课堂的主体仍然是学生。对于教学内容,学生应该主动接受,与被动接受相比,会获得较好的学习效果,因此要让学生欣然地接受教师教学过程中的新内容和新方法。此外,在上机实验课程的教学过程中,对于案例中的具体案例需要学生亲自来演算,而教师在这个过程中主要是引导和指导,启发学生对深层次内容的创新思考。还可以在每次采集和试验案例之后,要求学生提交相应的分析研究报告,这样一来,学生对于大数据挖掘课程的接受程度能够被教师很好地掌握,从而完善教师的教学方法,提高教学质量。

四、增强兴趣,深入科学研究

数据挖掘在大数据下面临着巨大的挑战,数据挖掘学科是一门综合性的学科,其中涉及的其他学科较多,所以学习难度和教学难度较大。因此在教学过程中要充分发挥教师的主导作用,引导学生对数据挖掘课程的深入学习。例如,让学生间隔性地去了解大数据环境下数据挖掘技术解决了什么问题,甚至让他们调查如今各大型招聘网中有关大数据分析和数据挖掘等职位的情况,进而增强学生对数据挖掘的兴趣。此外,对于年级较高的学生来说,深造是其主要选择的方式,也可以通过出国或是考研等渠道进行知识资源的深入学习,从而掌握更多的知识,提升自身的综合素养。对于这样的学生,教师应该通过鼓励的方式使其选择研究数据挖掘方向的科学,为了充分有效地提高这部分学生的研究水平,教师可以给学生布置一些具体的课题任务,课题任务的研究内容一定要保证精细程度,甚至可以精细到数据挖掘过程中使用的一个方法的研究,这有利于学生深刻认识课题任务重要性的培养,同时还有利于学生较为准确地把握问题研究的方法和内容。提高学生对新型研究技术和研究方法的掌握,可以增加学生的经典文献的阅读量,在这个过程中,学生的创新性思维得到了有效培养,教师还要采取有效的措施引导学生进行学术性的创作研究。在实际的教学过程中,将科学研究引入到其中,有利于促进学生对新知识的理解和吸收,还能够使学生解决问题的能力得到有效提升,为学生研究大数据的挖掘提供有利保证,并且打下一个坚实的基础。

五、结语

在大数据环境下,数据挖掘课程是各大高校急需开设的一门课程,教师在教学过程中,要使用创新的教学方法,让学生真正地了解到数据挖掘技术对社会进步和企业发展的重大作用。教师还要结合教学经验,重点从培养学生的数据意识、加强理论体系、创新教学方法和深入科学研究等方面进行数据挖掘课程教学设计,为提高大数据环境下挖掘课程的教学质量提供参考依据。

参考文献:

[1]刘建伟.数据挖掘课程设计的教学探索[J].科技信息,2013,(23).

[2]黄美丽.“数据仓库与数据挖掘”研讨型教学实践探析[J].计算机时代,2012,(12).

数据挖掘课程例2

大数据时代的到来,给人们的生产和生活带来极大的变革,由此也引起了社会各界的广泛关注。目前,大数据已经与我们的日常生活息息相关,对各行业的发展也产生了至关重要的作用。数据挖掘技术是信息化的产物,也是现代企业生产和发展过程中需要用到的重要技术之一,因此对数据挖掘技术人才的需求越来越多,《数据挖掘》学科由此得到了快速的发展。本文将对《数据挖掘》课程的教学展开论述,希望能引起同行的共鸣。

1 大数据介绍

1.1 大数据含义 大数据是网络技术发展到一定阶段出现的新兴名词,是指数量巨大、结构复杂、类型众多的数据构成的集合,大数据是以云计算的共享平台为基础,通过数据的交叉复用,形成新的智力资源和知识服务能力。大数据处理需要分布式计算机构架才能完成,仅依靠单台的计算机无法实现大数据处理,因此大数据处理就是借助云计算的分布式处理、分布式数据库、虚拟存储技术对大量数据进行整合处理的过程。

1.2 大数据特征 大数据具有数量大(Volume)、类型多(Variety)、价值高(Value)和速度快(Velocity)的特点,简称为“4V”。大数据处理的数据规模不断扩大,已经由GB、TB级扩展到EB或ZB级,这是普通计算机硬盘容量所无法达到的;大数据对象包括结构化数据、半结构化数据以及非结构化数据,存储对象由传统的文本内容扩展到了音频数据、视频数据、搜索引擎中关键词等,其数据的类型繁多复杂;数据之间的关联性不断加强,已经对社会经济、系统、信息学、网络学以及心理学等多个领域产生了深远影响;大数据的产生形式以数据流为主,能瞬时产生,具有很强的动态性和时效性。

2 《数据挖掘》课程教学探讨

2.1 教学内容 《数据挖掘》是一门综合性的学科,学科内涉及的主要内容有数据库技术、统计学、信息检索、计算机技术以及可视化技术等,需要不同的学科交叉学习,因此,该课程具有很高的理论性和实践性。在教学过程中,不仅要注重基础理论知识的培养,还要加强对学生创新能力以及问题解决能力的培养。课程的知识结构可按照表1所示组建。

数据挖掘前需要进行预处理,然后才能存入数据仓库,再利用相关的挖掘工具和算法,按照挖掘流程进行数据挖掘,最后将挖掘结果以可视化的形式展示出来。在整个教学过程中,教学重点是挖掘工具和挖掘算法,其中挖掘工具主要有通用挖掘工具和专用挖掘工具两类,而挖掘算法则包括分类法、关联分析法、聚类法等10种方法。学生不仅要了解各类算法的相关概念,还要能利用算法对实例进行分析。

2.2 《数据挖掘》课程教学探索

2.2.1 培养数据意识 《数据挖掘》是以数据为驱动的理论分析和应用课程,具有抽象性和具体性,抽象性是指数据挖掘过程中的理论、技术和方法具有很强的抽象性,学生在有限的时间内无法理解和消化;具体性是指研究内容比较客观,具有一定的解释性和理解性。针对以上特点,教师在组织教学时,应先培养学生的学习兴趣,使学生产生一定的数据意识。具体安排时,可先安排2-4个学时讲解数据及其主要应用,让学生对大数据的产生、影响和应用等内容做初步了解,使学生对该课程的学习目的和实际意义产生客观认识。

2.2.2 深化基础,加强理论体系 大数据特征对数据分析技术提出了更高的要求,现有的数据分析技术难以满足实际需求,这就说明了数据挖掘技术的应用和发展将面临更严峻的考验。数据挖掘技术涉及的知识内容较多,在大学课程体系中难以全部开设,给学生的学习带来很大阻碍。为解决以上问题,开封大学采取措施:将《数据挖掘》课程授课对象设定为高年级学生,经过两年或三年基础课程的学习,学生已经具备了一定的理论基础,在学习《数据挖掘》课程中,就可节约大量时间学习课程的核心内容。

2.2.3 教学方式多样化 理论来源于实践,也可以指导实践;实践是检验理论的唯一途径。《数据挖掘》具有很强的抽象性,学生无法在有限的学习时间内对众多概念产生足够清晰的认识,只能借助实践教学使学生明白课程内容的原理及其实用价值。在讲解基本概念、原理或者算法时,可采取案例教学法、任务驱动教学法、项目教学法等,将理论与实践相结合,提高学生的学习兴趣和操作能力。因此教师应在教学过程中注意教学方法的选择和使用,充分体现出学生的主体地位和教师的主导作用,通过一系列理实一体化教学方式,提高教学效果。

2.3 改革教学考核方式 《数据挖掘》是一门融合多种学科的实践课程,因此,课程的评价方式也应做出一定的改进。在考核时,应包括理论基础和实践部分考核,除考查学生对基本概念、挖掘流程等内容的掌握情况外,还应对学生的实践操作技能进行考核,采用多种方式对学生的学习进行评价,提高考核的有效性和公平性。

3 结语

随着信息化技术的不断发展,现代企业生产运行对信息化管理系统的依赖性越来越高,现代社会已经进入了大数据时代,在这种时代背景下,数据挖掘技术得到了社会各界的广泛重视,企业对该专业的人才需求也越来越多,这就为《数据挖掘》课程的发展提供了有利条件。高校及任课教师应认清形势,积极调整教学理念,通过优化课程内容,改进教学方式和考核方式,提高课程的教学效果,以培养高专业素养和高操作技能的复合型人才。

参考文献:

数据挖掘课程例3

二、根据信息管理专业本科生培养要求确定课程目标

数据挖掘课程是一门综合性很强的前沿学科,对计算机软硬件、数据库、人工智能技术、统计学算法、优化算法等基础知识都有较高的要求。因此该门课程开设在学生大三下学期,既有相关知识的基础,又为大四做毕业设计提供了一种思路。信息管理专业是计算机与管理相结合的专业,旨在培养具备信息系统开发能力与信息资源分析与处理能力的综合应用型人才。对信息管理专业的学生而言,本课程主要的目标是数据挖掘算法原理理解、数据挖掘算法在商务管理问题中的应用以及常用数据仓库与数据挖掘软件的熟练应用和二次开发。

三、基于模块化方法的课程内容分析

模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。学生可以根据个人兴趣和职业取向在不同模块之间进行选择和搭配,从而实现不同的教学目标和人才培养要求。模块化教学本质上是以知识点与实践的细化为出发点研究的。商务智能方法本身非常丰富,实践应用也是课程的主要特点之一,因此十分适合使用模块化的知识分解方式。本课程的知识点模块管理分为两个层次,一是从宏观角度设计课程的基础内容模块和高级主题模块;二是从微观角度针对较为复杂的教学内容进行的知识点划分。

1.课程主要内容模块化分析。目前该课程包括十章理论内容,分别为数据仓库与数据挖掘的基本知识、数据仓库的OLAP技术、数据预处理、数据挖掘系统的结构、概念描述:特征化与比较、挖掘大型数据库中的关联规则、分类与预测、聚类分析、复杂类型数据挖掘和序列模式挖掘。根据模块化管理的宏观角度分类,课程内容的第一至五章属于基础理论部分和简单数据挖掘技术的介绍,可以作为基础内容模块;第六至八章为数据挖掘的核心算法,其中既有基础理论与技术方法,又可深入到较难的方法和复杂的应用,因此介于基础内容与高级主题之间;第九、十章可以算做课程的高级主题模块;另外,课程的实践模块既包含数据仓库的建设又包含数据挖掘算法的应用,难度也介于基础内容与高级主题之间。

2.复杂知识点的模块化管理。从微观角度对知识点进行设计主要针对的是上述的高级主题、以及难度介于基础内容与高级主题之间的章节,由于这些章节知识点在难度上有一定层次,讲授内容弹性比较大,因此需要在课程设计中明确一定课时量所要达到的难度。以商务智能技术中的分类算法为例:首先一般的入门课程都会介绍分类算法的概念和基本原理;接着开始介绍分类算法的基础算法———决策树,而决策树算法中又包含ID3等多种算法,并且除了决策树外,还有其他更高级的分类算法;在真正使用分类法进行预测时,还要分析预测准确度;最终要将所学知识加以应用。这样就形成了一个结构清晰、难度循序渐进的知识点模块的层次关系。在宏观角度、微观角度对教学内容进行分类的前提下进行相应的授课方法与考查方法的研究,才能真正有助于学生的学习。

四、授课与考核方法设计

对不同层次学生要求不同,这种不同既体现在知识点的要求上,又直接体现在任务的难易性程度上,这都需要教师在课程设计时充分考虑不同要求情况下的不同的授课方式,并使学生清楚自己需要掌握的程度。对于高级算法和实现部分,通常可以选择一到两章内容采用专题探讨式的教学方法。这种方法是指在教师启发和引导下,以学生为主体,选择某个基本教学单元为专题,学生自主研究作为知识传递的基本形式,将多种灵活的教学方式综合运用到教学环节的教学方法。根据信管专业培养方案的培养目标、以及对学生调研的情况,实践环节比较适合选择成熟的商务智能工具进行数据的整合和多维数据建模,也就是直接使用现成的;或者使用数据挖掘软件进行数据建模,完善数据挖掘算法。可以针对学生管理基础课与IT基础课知识的掌握情况,选择合适的工具为学生设计综合性实验。实验中给出部分操作步骤,并在实验后期仅给出数据与工具,让学生自己设计数据仓库、进行数据挖掘、并对挖掘结果进行多种形式的展示。

数据挖掘课程例4

【关键词】 网络课程;数据挖掘;挖掘模式

【中图分类号】 G40-034 【文献标识码】 A 【文章编号】 1009―458x(2014)09―0068―04

一、引言

随着互联网以及移动设备的迅速普及,人们使用网络的时长在不断增加,通过网络进行学习的需求及能力也在迅速提高。据美国Ambient Insight研究报告指出,2009年美国中学以后的教育机构中,有44%的学生通过网络进行课程学习,预计到2018年,美国通过网络学习的学生人数将超过面授学生的总人数。在韩国,78%的高校都提供网络教学(Allen et al. 2008)。在中国,教育部于2011年10月启动了国家开放课程建设工作,教育部《教育信息化十年发展规划》(2011-2020年)中也明确提出了“推动信息技术与高等教育融合,创新人才培养模式”的要求,融合的关键就是要选择有效的网络教学模式,因此,对网络教学的质量和有效性研究正被人们所关注。

本文以Moodle网络课程平台为基础,分析并提出有针对性的数据挖掘方法构架,以达到对课程建设情况和学生学习应用情况的跟踪分析,为教师改进教学策略、提高网络课程教学质量提供有力支持。

二、选择Moodle网络课程平台的理由

之所以选择Moodle课程管理系统建设网络课程平台,是由于Moodle课程管理系统是一个开源免费软件,更主要的是其模块化的设计非常易于课程的创建,能使课程教师摆脱课程网站建设的技术屏障,还可以使教师从课程内容的设计者转变为教学资源与活动的组织者。[1]

在国外Moodle系统的应用得到了迅速推广。有数据显示,使用Moodle的国家和地区有200多个,注册使用机构有67,000多所,注册用户数量达5,800万,运行课程有600多万门。注册用户最多的前五位国家分别是美国、西班牙、巴西、英国和德国。[2]

三、教师所关注问题调查

根据教育部颁布的《CELTS-31教育资源建设技术规范》,将教育资源建设分为素材、课程、评价和资源管理系统开发四个层次。其中素材与课程是网络教育资源建设的基础,评价和资源管理系统则分别是确保质量与实现资源建设的工具与手段。[3]对于建设网络课程的教师需要了解它的使用情况,从而分析课程结构是否合理,调整课程内容的分布情况,优化网络课程的设计,提高教学效果。

为了解教师使用网络课程的期待值和目的性,我们采取目的抽样和随机抽样相结合的方式,样本来自笔者所在的三个教师专用QQ群人员。调查问卷设计从了解教师对网络课程的需求、认识、应用三个主要层面展开,具体的问卷内容为四个部份:了解参与问卷教师的基本情况;了解教师对网络技术应用的需求情况;了解教师对网络课程的认识及使用困难所在;了解教师希望网络课程能帮助解决教学中的哪些问题。问卷在公共专业问卷调查网站(问卷星)上,一周后回收有效问卷159份。数据分析基本报告可见链接:http:///report/3234099.aspx。

笔者所在院校为云南普通高校,与问卷的地图分布情况相吻合,应该更能代表云南普通高校的普遍情况(见图1)。

图1 问卷来源地理分布比率图

问卷中有96.61%的教师认为应该在教学中整合网络技术,有38.98%的教师因为技术应用能力的不足,不够明确如何使用网络技术(见图2),这说明我们建设网络课程应该选择如同Moodle这样简单易用的课程管理系统。

对于建设网络课程,教师关注度较高的前4个方面是:学生学习过程参与的情况、网络资源的使用情况、学生在线学习时间以及学生参与讨论的频度情况(见图3)。

图2 教师对网络技术与教学融合的意见

图3 教师关注信息统计

四、网络课程数据挖掘模式构架

数据挖掘技术是获取相关信息的有效技术手段。对于教师所关心的几个方面内容,这里提供几种可借鉴的方法:

1. 学生学习过程分析

美国教育评价专家斯克里文(G F. Scriven)在1967年所著的《评价方法论》中,提出形成性评价是为正在进行的教育活动提供反馈信息,以提高正在进行的教育活动质量的评价,是一种对学习进程的动态评价。教师和学生可以依据获取的反馈信息了解学习状态,及时调整教学或学习。[4]

在Moodle平台中具备学生学习进展跟踪功能。

方法一:通过设置“课程进度跟踪”,了解学生各项学习活动的完成情况。

如图4所示,进入课程,在“课程管理”/“课程进度跟踪”进行跟踪条件设置,然后再选择“课程管理”/“报表”/“课程进度”,就会显示选修该门课程的所有学生的各项学习活动的完成情况。

图4 课程进度跟踪设置

方法二:分析学生各项学习活动的参与度。

通过选择“课程管理”/“报表”/“课程成员”,可以详细地显示各项课程活动学生的参与情况,以及参与的次数,更清楚地分析学生的学习努力程度。如图5所示,列出了数据库原理及应用这门课程的“第一部分测验”活动、每个学生参与的次数。

方法三:采用数据挖掘手段,了解学生的学习风格。

此方法要求具备一定的数据挖掘知识及应用能力。通过Mysql系统提取Moodle后台数据库(\server\mysql\data\mysql)进行关联规则分析。

关联规则数据挖掘,可以发现学生学习行为之间的关系,通过对学生的某两类网络学习行为之间取值关系进行分析就可以得出它们之间的关联性,进而预测学生将要进行的下一个行为,从而挖掘网络学生学习行为之间的关系,使得学生学习风格显性化。[5]

2. 课程资源利用情况分析

课程资源建设是影响网络教学应用质量的重要因素。甘振韬等通过SQL Server的Analysis Services 工具,对网络课程的资源配置情况,包括资源配置指数和访问量进行分析。[6]

Moodle平台能很直观地呈现课程各项资源的访问情况。

方法:选择“课程管理”/“报表”/“课程活动”,课程设计的各项活动被访问量被详细统计出,如图6所示,教师可以清楚了解课程资源的利用率情况,分析学生的学习喜好,适当调整各活动资源的配比。

图6 课程资源访问情况

3. 学生在线学习时间分析

对于某门课程,通过分析学生的日志,可以掌握学生的在线学习时间,以及学习时段的分布情况。

方法:点击“课程管理”/“报表”/“日志”,其中可以设定查看所有成员或是某一个成员、所有活动或是某一项活动,以及所有日期或是某一天,学生的在线学习情况。如图7所示。

图7 学生日志

4. 学生参与讨论的频度分析

学生参与课程讨论的频度,可以反映学生的学习主动性,教师通过观察可以即时进行有针对性的教学干预。

方法:选择“课程管理”/“报表”/“课程成员”,如图8所示,学生参与“课程聊吧”活动的情况。

图8 学生参与讨论活动的频度

5. 学习成绩分析

学生的最终学习情况需要一个成绩评定,Moodle平台的设计理念中非常强调过程性评价,它能够记录学生学习过程中的各项活动成绩,包括师生、生生相互评价的成绩,汇总成学生的最终成绩。

方法一:查看教学活动的单项成绩情况。

直接使用Moodle平台所提供的课程管理功能,点击“课程管理”/“成绩”选项,打开成绩管理菜单,再选择“类别和项”下的“简略视图”(如图9),可以查看教学活动过程各项汇总成绩。并可以设置学习过程中各部分占总成绩的比率。

方法二:对测验试题结构分析。

在Moodle中若选择测验,则出现“测验管理”,再选择“测验管理”/“统计”,可以得到本次测验的统计分析报告。包括此测验的标准偏差、测验的分数分布偏度、分数的分布峰度等。还有此测验试题的结构分析结果,包括容易度指数、试题的标准偏差等(如图10),能让教师科学地调整测验的结构组成,试题的难易程度和分数的布局等。

图10 测验试题结构

方法三:在成绩管理菜单下选择“导出”为Excel、OpenDocument电子表格或其它文档,再进行统计分析。

6. 群组分析(分组)

学生分组开展学习,可以促进学生的集体意识及合作能力的培养,但如何分组?各分组成员真的能很好地协作吗?这需要教师特别注意,需要考虑如何分组才能更好地激发学生的学习积极性。

方法一:选择“课程管理”/“用户”/“小组”,可以自主创建小组,也可以用“自动创建小组”方式创建,如图11所示,就是以自动方式创建的小组,其中还可以指定小组数量或是每个小组成员数。这种方式设置的小组较为随机,如果希望分组能考虑成员的凝聚性可以选择方法二进行。

方法二:应用社会网络分析软件,如UCINET等,可以开展学习社群的关系距离及中心性分析,以及小团体分析等分析。通过收集学生在讨论区或是聊天室中的问答的关系情况获得分析数据。对于社会网络结构的特征分析可以辅助判断师生交互网络发展的成熟程度。

五、小结

本文基于Moodle网络课程管理系统,介绍了教师关心的几个方面的数据分析方法,为想要分析自己网络课程使用情况的教师提供方法借鉴,从而教师能够更好地调整网络课程的内容组成、结构布局,以及教学方法策略的调整。同时,本研究也适当突破Moodle网络课程平台,提供了在其它网络课程平台中进行数据挖掘分析的方法和思路。通过几个方面数据分析方法的整合,目的是提供一种进行网络课程数据挖掘模式架构的研究。今后,研究还应深入底层数据的分析,提供更具通用性的网络课程数据挖掘模式方法。

[参考文献]

[1] 黎加厚. 信息化课程设计――Moodle 信息化学习环境创设[M]. 上海:华东师范大学出版社,2007.

[2] 张伟远,段承贵. 网络教学平台发展的全球合作和共建共享[J]. 中国远程教育,2012,(10):32-36.

[3] 邓康桥. workflow技术在网络课程开发管理系统中的应用研究[J].中国远程教育,2013,(4):63-68.

[4] 刘纳. 基于数据挖掘技术的网络学习形成性评价研究[D]. 上海:华东师范大学,2012.

[5] 李素珍. 基于网络学习行为分析的网络学习风格与学习偏好挖掘模型研究[D]. 武汉:华中师范大学,2009.

数据挖掘课程例5

一、引言

成绩作为考试的结果,不仅是对学生学业和教师教学效果的检查和评定,进而激励学生学习及教师工作;更是一种信息,具有反馈于教学活动、服务于教学决策、为教育科研提供资料等作用。为充分发挥考试的效能,综合评价命题质量,及时反馈教学效果,沟通教学信息,教学部门对考试成绩进行统计分析和总结是非常必要的。

二、问题提出

我们以软件技术系软件开发专业为例进行分析。在众多专业课程中,很多科目之间是相互联系相互影响的,例如《Java初级程序设计》是《Java高级程序设计》的前置课程,《J2EE企业级应用开发》则是《Java高级程序设计》的后续课程,《网页制作―HTML、CSS》的学习效果将会影响《网页制作―JavaScript》,而这些课程之间又是相互渗透相互联系的。有时候有的教师在上一门课时会抱怨这个班的基础不好,后续课程很难上,那么究竟是什么哪些前置课程对后续课程造成了影响呢?这里我们以软件开发专业核心课程《J2EE企业级应用开发》为例,分析研究影响这门课成绩的前置课程对其的影响。

三、数据预处理

07级软件开发专业一共9个班,前4个学期一共开设23门课程,在教学管理的数据库中保存着大量属性繁多,定义复杂,冗余多,不完整的数据。我们首先要从大量的数据中筛选出适合分析的数据。

在课程的选择中,我们选取《计算机基础》、《计算机网络基础》、《计算机数学基础》、《Java程序设计基础》、《数据结构》、《数据库原理与SQL Server》、《Java高级程序设计》、《网页制作技术》以及《J2EE企业级应用开发》这几门有关联的课程进行分析。并且在分析之前把《计算机基础》、《计算机网络基础》、《计算机数学基础》这3门基础课取平均值合并成一个《计算机基础》。

这是在软件技术专业9个班400多人中随机抽样选取91个学生的记录作为样本集。

表1 采样成绩表

经统计,91个学生记录中,各门课程及格和不及格人数如表5.2所示。

表2 样本集中各门课及格不及格人数统计

四、建立模型

1. 决策树方法介绍

决策树是一个类似流程图的树型结构,其中树的每个内部结点代表对一个属性(取值)的测试,其分支就代表了测试的每个结果;而树的每个叶结点就代表一个类别,可以根据决策树的结构对数据集中的属性值进行测试,从决策树的根结点到叶结点的一条路径就形成了对相应对象的类别预测。

2. ID3算法的基本思想及原理

ID3算法是R.Quinlan于1986年提出的,其前身是CLS。CLS的工作过程为:首先找出最有判别力的因素,把数据分成多个子集,每个子集又选择最有判别力的因素进行划分,一直进行到所有子集仅包含同一类型的数据为止,最后得到一棵决策树,可以用它来对新的样例进行分类。

3. 构建决策树

成绩结果分为正例和反例两类:及格(P)和不及格(N)。

下面用ID3算法,建立决策树,对课程成绩分类。

具体计算过程如下:

首先计算J2EE课程所含有的信息量。J2EE及格人数P=81,不及格人数N=10,则可得到:

0.4493

然后计算当J2EE及格和不及格时,其他课程所包含的总信息量。经统计,其他6门课程和J2EE有如表3所示的统计数据:

计算机基础:

0.4421

从而得到计算机基础的信息增益度为:

Gain(计算机基础)=0.4493-0.4421=0.0072

同样的方式,得到其他课程的信息增益度,结果如表4所示:

表4 各门课程的信息增益度

可以看出所有课程当中JAVA高级程序设计是最能区别训练集中决定J2EE成绩与否的课程。根据各个课程的信息增益度,应该选择JAVA高级程序设计作为所建决策树的根结点。由于JAVA高级的属性值只有两个:1(及格)和0(不及格),所以在JAVA高级下可以建立两个分支。此时,将训练实例集分为二个子集,生成包含二个叶结点的决策树。如图1所示。

图1 根节点分类决策树

经统计,JAVA高级程序设计及格且J2EE也及格的人数为73,其准确率为73/79=92.4%。因此对JAVA高级程序设计及格这个分支(结点一)停止分割。经统计,JAVA高级程序设计不及格的12人中有5人J2EE及格,7人J2EE不及格,所以对高级程序设计不及格这个分支(结点二)进行再次分割。

对图1中的叶结点二进行分类。经过计算,此刻正例为4,反例为8,所以此时的熵值为:

0.9799

采用上面同样的方法计算各门课程的信息熵,得到

计算机基础:

0.9799

得到Gain(计算机基础)= 0.9799-0.9799=0.0000

同理,得到:

Gain(JAVA基础)= 0.9799-0.9371=0.0482

Gain(数据结构)= 0.9799-0.8669=0.1130

Gain(数据库)= 0.9799-0.9799=0.0000

Gain(网页设计)= 0.9799-0.9371=0.0482

选择数据结构为分裂点,将结点二分为两个子集。JAVA高级不及格且数据结构及格的人数为1人,该结点停止分割,JAVA高级不及格且数据结构不及格的11人中有4人J2EE及格,7人不及格,因此对该节点需要再次分割。

采用上述同样的方式划分,最后得到如图2所示的最终决策树。

图2最终决策树

五、结果分析

分析图2所示的决策树,我们可以得到:对于软件专业后期的核心课程《J2EE企业级应用开发》来说,《Java高级程序设计》的学习程度直接影响其学习效果,《数据结构》和《JAVA初级程序设计》也会对《J2EE企业级应用开发》的成绩带来影响,如果学生《JAVA高级程序设计》学习一般但是《数据结构》和《JAVA初级程序设计》基础较好的话,依然能够在学习《J2EE企业级应用开发》时取得好的成绩。这比较符合专业课程学习过程的实际情况。决策树得出的结果反映了实际情况,这也充分说明了数据挖掘是一个强有力的辅助决策工具。

六、结束语

回顾一下这个案例,验证数据挖掘技术解决这个问题的效果。在分析过程中,我们利用相关的数据,通过横向比较《计算机基础》、《Java程序设计基础》、《数据结构》、《数据库原理与SQL Server》、《Java高级程序设计》、《网页制作技术》以及《J2EE企业级应用开发》等课程成绩,经过数据收集、数据选择、数据清理、数据归纳、数据转换等过程,运用决策树中的ID3算法课程之间知识结构相互支撑的模型,发现专业核心课程之间的内在联系。辅助教学管理人员根据该模型对现有教学计划做出调整,对师资资源合理利用,将优质师资用在主干课程上。

参考文献:

1.李小映,数据挖掘在高职院校学校综合信息中的应用,计算技术与自动化,2006.12

2.陈松、卢继萍,教学管理系统中的数据挖掘技术的应用研究,中国教育技术装备,2007.12

数据挖掘课程例6

中图分类号:G642 文献标识码:A 文章编号:1009-3044(2016)22-0148-02

1 引言

数据挖掘总是让人觉得就是“高大上”、“深不可测”,而该领域当前主要是博士生、硕士生所研究的,另外,也只在一些研究生或重点大学的高年级的本科生中开设数据挖掘课程,在应用型本科院校中很少开设 [1]。

数据挖掘技术应用很广,应用较好的领域、行业有:金融保险业、电信、市场营销分析、医学、体育、生物信息学(Bioinformatics)等方面[2]。在商业领域中,主要应用如:客户细分、客户获得、公司风险管理、企业危机管理、欺诈行为检测和异常模式的发现等;在计算机领域中,主要应用如:信息安全(入侵检测,垃圾邮件的过滤)、互联网信息挖掘、自动问答系统、网络游戏(网络游戏外挂检测、免费用户到付费用户的转化)等[3]。这一技术的广泛应用,必然在相关的企业中迫切需求掌握这一技术的人才。所以,开设数据挖掘技术课程对于应用型本科来说是很有必要的。

但对于应用型本科来说,若是像重点本科院校或研究生课程那样,在教学中以研究型为主,会导致学生的培养要求与教学内容的深度和广度不适应,学生会感觉到学习得很吃力,而且他们今后工作中的需求与所学到的知识相差也较大。对于应用型本科的数据挖掘技术课程的内容的安排,不仅要反映出数据挖掘技术的特点及前沿,还应该结合学生的学习能力及兴趣,也还需要综合考虑本校该课程的学时分配、教学条件等,要具针对性,突出应用这一重点,目的是使学生能够“学以致用”。

本文从应用型本科的实际出发,讨论了数据挖掘课程的理论教学内容及方法、实验教学内容及方法,使学生能够掌握和应用所学的知识。

2 先导课程及课程的基本要求

先导课程有:程序设计语言、数据结构、数据库技术、Web技术、概率论等[4]。必须深入学习一门程序设计语言,从计算机发展和应用角度,推荐学习C/C++和Java;对于“数据结构”课程,掌握树的知识,数据挖掘中的很多算法都涉及树的应用;对于“数据库技术”课程,掌握数据库操作和应用,因为数据挖掘的主要对象是数据库中的数据;对于“Web技术”,因为Web已经存在于我们生活方方面面,对于Web挖掘相当重要,而且还具有巨大的应用价值;对于“概率统计”课程,要能够熟练掌握其中的思维方式、条件概率以及各种分布,在数据挖掘中的关联规则、分类预测等,都会涉及概率统计中的思维和方法。

课程的基本要求:①了解数据挖掘的重要性,了解国内外的发展的状况及未来发展的方向;②掌握数据挖掘中的一些基本概念、经典算法及相关技术;③对于实际应用问题,能熟练地运用数据挖掘技术及工具解决;④为以后进一步深造或进行高级应用开发打下基础。[5,6]

3 理论教学及方法

对于应用型本科生数据挖掘技术课程的教学,本人认为重要的是普及经典算法,若有多余时间,可以补充一些较难的算法。对于经典算法原理的讲解,采取的是一步步地对小数据集案例进行算法演练,以具体化比较抽象的算法,对于算法的优缺点,采取课堂讨论的方式,可以加深学生对算法的理解和吸收。本校的数据挖掘技术课程的理论教学是32个学时,课程的理论教学内容主要包括:

(1)绪论(4学时):①先举几个数据挖掘中有意思的例子。第一个:超市货架的组织―“啤酒与尿布”;第二个:基于拐点变化的股票趋势预测;第三个:网上购物―“定向营销”;第四个:农夫山泉用大数据卖矿泉水;第五个:阿迪达斯的“黄金罗盘”;第六个:网易的“花田”―定制爱情。通过例子让学生对数据挖掘有一个大致的认识,可以提起学生对学习本课程的兴趣,也让学生了解到目前的数据挖掘已经发展到何种程度。②讲解KDD与数据挖掘相关概念。③数据挖掘对象:关系数据库、数据仓库、事务数据库、空间数据库、时态和时间序列数据库、文本数据、万维网数据、流数据等等。④数据挖掘的方法与相关领域:分类预测型和描述型,通过例子简单介绍聚类、关联规则、分类算法的概念、应用领域等,使学生对要学习的算法有大致的认识。⑤数据挖掘软件与应用系统:介绍数据挖掘软件:IBM Intelligent Miner、SPSS Clementine、Microsoft SQL Server 2008 Data Mining、Weka;数据挖掘应用系统:介绍在商业领域和计算机领域的应用。

(2)数据预处理(2学时):先对数据进行概述,包括:数据集的三个特性:维度、稀疏性和分辨率,它们对数据挖掘技术具有重要影响;数据挖掘中一些很常见的数据集的类型:记录数据、基于图形的数据和有序的数据。然后分别详细介绍数据预处理的主要任务:①数据清理;②数据集成;③数据变换;④数据归约;⑤数据概念分层与离散化。每一项任务举例讲解。

(3)关联规则(6学时):主要介绍关联规则的相关概念、关联规则的经典算法Apriori及它的改进算法FP_Tree、规则的产生,简单介绍多级关联规则和多维关联规则、非二元属性的关联规则、关联规则的评估(提升度(lift) /兴趣因子的计算)等。

(4)聚类(6学时):主要介绍聚类的概念及距离的计算(欧氏距离、曼哈顿距离、明可夫斯基距离)、基于划分的聚类算法(基本K-means聚类算法及其拓展、PAM算法)、层次聚类算法(凝聚的层次聚类算法AGNES、分裂的层次聚类算法DIANA)、基于密度的聚类算法(DBSCAN);简单介绍层次聚类方法的改进―BIRCH算法、CURE算法以及聚类算法评价。

(5)分类和预测(10学时):①决策树(4学时):主要讲解决策树的概念、信息论、ID3算法和C4.5算法。②贝叶斯分类(2学时):主要讲解贝叶斯定理及朴素贝叶斯分类算法。③人工神经网络(4学时):主要介绍人工神经网络的概念及单感知器模型,简单介绍BP神经网络。

(6)数据挖掘模型的评估(2学时):简单介绍模型的过拟合、没有天生优越的分类器、模型选择和模型评估、评估分类器或预测器的准确率――简单划分和交叉验证、数据挖掘模型评估的错误观念。

对于9个需主要介绍的经典算法的讲解,如Apriori算法,先介绍算法的流程,然后通过超市购物篮的一个小数据集一步步地进行算法的演练,得出频繁项集,如下图所示:

又如决策树算法和朴素贝叶斯分类算法,通过如下所示的关于动物的数据集,一步步地进行相关算法的演练,通过建立决策树或计算概率问题,判断一个未知的动物X={1,0,0,1,?}是否会生蛋。

对于算法的优缺点,在讲解完算法的过程之后,采取课堂讨论的方式,与学生共同分析总结算法好在哪里,不足又在哪里,学生通过参与,可以加深对算法的理解与掌握。

4 实验教学及方法

对于应用型本科的学生来说,采用Weka进行算法编写是不切实际的,实验教学工具建议采用目前一些主流的数据挖掘软件,如 SPSS Clementine或 Microsoft SQL Server 2008 Data Mining等[7]。这些软件都具有必需的数据预处理工具及预设的挖掘算法,学生可以把注意力放在要挖掘的数据及要相关需求上,设定挖掘的主题,然后采用这些软件完成相关主题的数据挖掘过程,这样也可以积累一定的处理实际挖掘问题的实战经验,今后碰到项目时也可知道从何处下手。

本校的数据挖掘技术课程的实验教学是8个学时,共两次上机,采用Microsoft SQL Server 2008 Data Mining对Adventure Works DW 2008R2 示例数据库进行数据挖掘。课程的实验教学内容主要包括:

实验一:SQL Server 2008 数据多维分析环境的建立;

实验二:关联规则挖掘方法;

实验三:决策树挖掘方法;

实验四:聚类挖掘方法。

为了让学生更好地进行实践动手,在教学中分两步:第一步,具体的操作步骤的讲解,由老师进行;第二步,学生上机并详细的分析挖掘结果,要求学生熟悉使用Microsoft SQL Server 2008进行数据挖掘的步骤,以及几种常用的算法的挖掘过程:包括创建数据源、创建数据源视图、创建挖掘结构(主要参数的设置)、处理和浏览挖掘模型。如关联规则,要求学生分析挖掘的模型,找出有价值的规则出来。

5 结论

为迎接大数据时代带来的互联网经济机遇,很有必要同时也是时代迫使在应用型本科中开设数据挖掘课程。对这一类学校的教学也是一个挑战,需要老师们在教学过程中不断摸索和改进。在教学过程中,需要针对应用型本科生的学习能力、知识结构,设计好教学内容并采用适当的教学方法,从而使学生对学习的内容感兴趣,改进课堂教学效果,以提高学生实际动手能力,使学生对数据挖掘课程的整体结构、基本概念、经典算法有较深入理解和掌握,最终达到教学目的。

参考文献:

[1] 徐金宝.对应用型本科生开设数据挖掘课程的尝试[J].计算机教育,2007(14):27-29,57.

[2] 李姗姗,李忠. 就业需求驱动下的本科院校数据挖掘课程内容体系探讨[J].计算机时代,2015(1):60-61,64.

[3] 张艳.大数据背景下的数据挖掘课程教学新思考[J].计算机时代,2014(4):59-61.

[4] 李忠,李姗姗. 应用型本科院校IT专业数据挖掘课程建设[J].计算机时代,2014(11):65-69.

数据挖掘课程例7

摘 要:针对当前数据挖掘课程教学中工程应用与理论创新的脱节问题,分析数据挖掘课程本身的特点和当前教学现状,从提高本科生创新能力的人才培养模式角度出发,提出在教学内容的前沿性、教学方式的多元性及实验教学的多梯度性改革,达到因材施教、工程应用与理论创新的有机统一,有效提高学生的学习兴趣及学习效果。

关键词:数据挖掘;理论创新;多元教学;多梯度实验

0 引 言

在当前大数据时代背景下,如何从海量数据中挖掘并提炼出对人们真正有用的知识,是大数据研究的难点问题,同时也是目前数据挖掘面临的关键和核心问题[1]。数据挖掘作为当前计算机专业的一个前沿课程,是一个综合性的交叉课程,也是重要的学术研究方向,其内容涉及多方面基础理论学科和应用性强的技术领域,是提高计算机专业学生应用实践能力和理论创新能力的载体课程,在整个计算机专业的学习中具有极为重要的地位。

1 教学现状

数据挖掘作为一门同时具备应用性和学术性的课程,早期属于计算机专业研究生培养的专业课程,但随着数据挖掘在各个领域的广泛应用,现已成为计算机专业本科培养的专业选修课之一。目前,数据挖掘课程在教学内容、教学方法和实验教学模式上存在诸多不足之处。

(1)教W内容陈旧。目前的教学内容一般根据某本数据挖掘教科书进行讲解,由于数据挖掘技术的快速发展,一本教科书往往很难全面概括数据挖掘的内容、方法和技术。

(2)基础理论算法与实验教学脱节。当前的教学路线往往是使本科学生从了解和掌握数据挖掘的基本任务开始,然后讲授数据挖掘的各种基本算法,最后上机实验。这一教学方式侧重于以应用为主,主要目标在于培养计算机工程的应用人才。然而,由于基础理论算法与实验教学分开讲解,使得学生缺乏对使用数据挖掘解决实际问题的能力。

(3)理论创新意识的缺乏。在当前的本科教学中侧重工程实践能力的培养,忽略理论创新的培养。在数据挖掘课程中,理论创新是指学生对所学的数据挖掘算法有自己的见解,能有意识地思考目前数据挖掘面临的问题并提出新的数据挖掘算法。

(4)实验教学僵化。当前的实验教学往往是固定的几个算法验证性实验,对于不同学习能力的人而言,实验教学往往很难达到理想的效果。

目前,对日新月异的科技发展、以科技创新和技术升级为核心特征的激烈国际竞争,我国自主创新能力较为薄弱的问题已经越来越成为信息化发展的瓶颈[2],这也给数据挖掘教学带来巨大挑战,即教师如何在教学过程中提高学生的理论创新能力?

2 教学方法的改革

2.1 教学内容的前沿性与统一性

作为一门新兴的前沿课程,该门课程内容、方法和技术仍处于发展和探索阶段。通过固定的教材去系统地传授数据挖掘的内容显然是不太合理的。因此,与传统学科不同,数据挖掘教学内容需要进行更新,并根据学生的接受能力进行甄别筛选。同时,要求任课教师在不断发展的新技术与相对稳定的教材中寻找一条贯穿整个教学内容的主线,在讲课的过程中,结合数据挖掘研究进展,配合自己的研究成果,把最新的技术融入到课堂中。此外,由于数据挖掘是多学科的交叉课程,内容涉及统计学、算法、数据库、机器学习、模式识别、可视化等,而本科生的知识体系薄弱,在短时间难以透彻理解各部分内容。因此,教学过程中教师应合理设计教学大纲和方案,有机地学内容,让学生对数据挖掘有一个整体的了解。建立不同数据挖掘任务之间的相互关联,同时以项目讲解的方式将数据挖掘涉及的数据预处理、聚类分析、分类预测、噪声检测、关联规则挖掘等有机结合在一起。

2.2 理论创新的多元教学

针对现有本科生教学中理论创新意识的缺乏,尝试进行多元化教学模式,主要从以下4个方面展开。

(1)区分教学内容的难易度,将教学内容分为基础内容与进阶内容。在讲授中注重基础内容的原理性,并有意识地让学生接触一些前沿性的理论拓展知识。比如在讲解分类算法时,首先专注几个经典的分类算法,如K―最邻近、决策树、朴素贝叶斯和支持向量机等。同时,在此基础上,给学生讲述目前分类的一些前沿方法,如集成学习、深度学习和迁移学习等。

(2)以问题为驱动教学。在讲解聚类算法时,可以通过“物以类聚,人以群分”的思想展开,具体介绍K―MEANS和DBSCAN两个具有代表性的聚类算法,让学生思考数据挖掘不同算法提出的原因、基本思想和优劣性,初步引导学生的自我思考、自我学习的创新思维能力。同时,针对数据具有的高维性,让学生进一步思考“高维诅咒”问题及在此问题上展开的子空间聚类的研究。

(3)建立“教研统一”研究式教学方法,利用教师现有科研促进和服务于教学,探索形成“科研嵌入”理论教学内容。将教师在自己的研究与教学内容进行有机结合,丰富教学内容,拓宽学生视野,提高学生实践能力和创新能力,实现科研成果融入教学。这样既提高了学生学习知识的兴趣性,又培养了潜在的科学素养。此外,在整个教学环节中布置两个任务,一是让学生进行数据挖掘的文献调研(主要涉及数据挖掘的历史、现状、面临的挑战及当前的行业应用),二是在课程结束后进行主题研究报告,每个学生选择自己感兴趣的一个主题进行,研究报告的目的是让学生深入理解所学内容,为后续的科研工作打下基础。

(4)教学模式由传统“填鸭式”向“互动式”教学转变。通过研讨方式引导学生去思考,激发学生的求知欲,充分调动其学习的积极性和主观能动性。通过具体实例,让学生知道算法的应用场合,提高学习兴趣和效率。

2.3 多梯度实验教学

实验教学是使学生在实践环节将数据挖掘课程中学习的理论算法应用于实践,帮助学生理解和掌握知识,提高动手能力。传统的上机实验往往是侧重几个经典算法的实现,如KMEANS、KNN、ID3决策树和LOF算法等。然而,数据挖掘是一门工程应用性较强的学科,这种算法验证实验很难让学生体会到数据挖掘的实际应用,因此,从基础能力培养、工程应用及创新研究3个方面设计多梯度实验。

首先,按照由浅入深的原则设计2个经典算法实现,如KMEANS和 ID3决策树。这个实验为算法型实验,主要是帮助学生通过实验更好地了解所学算法,学生也可以自己选择聚类分析和分类预测的任意两个算法进行实现。

其次,设计一个简单综合型实验,比如垃圾邮件的分类系统,要求学生完成从数据收集、数据预处理到整个系统的实现。主要考查学生综合运用数据挖掘知识,解决实际问题的能力,注重工程能力的培养。

最后是创新算法的实验设计,比如子空间聚类算法的实现。这个实验注重部分学生创新能力的培养,尤其是致力于以后从事科学研究的学生。学生可以根据自己的爱好,选择算法型实验和综合型实验,也可以选择算法型实验和创新算法设计实验。多梯度实验的目的主要是希望针对不同学生的学习兴趣及将来的发展方向,给出合适的实验教学。实验的整体难度由易到难,层层深入,有利于学生实践能力和创新能力的培养。

3 结 语

当前,数据挖掘正处在快速发展的过程中,各个领域的大量应用使得对数据挖掘这门课程的工程应用能力要求越来越高,需要学生具有更好的创新能力,因此,数据挖掘课程的教学也同样需要调整教学内容和教学手段来紧跟其发展的步伐。基于此,我们提出在课程内容的前沿性、教学模式的多元性及实验教学的多梯度性上进行改革,从而达到在培养学生工程实践能力的同时,提高其创新思维能力。

基金项目:电子科技大学“互联网+”课程建设教改专项。

第一作者简介:邵俊明,男,教授,研究方向为数据挖掘、机器学习及在交叉学科的应用研究, 。

数据挖掘课程例8

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)23-5561-03

Research on Application of Data Mining Technology in Network Curriculum Teaching Platform

LIU Yan-qing

(Center of Computer Network, Ningxia University, Yinchuan 750021, China)

Abstract: Aiming at the deficiency of the traditional network management method, a new scheme of data mining based on the C4.5 algorithm of decision tree are proposed,Firstly, In this paper it introduced the Data Mining Technology,Secondly, it analyzed the Application of Data Mining Technology in Network curriculum teaching platform,In the end ,With the application of students’ scores as example, it analyzed the Application of Data Mining Technology in Network curriculum teaching platform.

Key words: data mining; network curriculum; decision tree; C4.5 algorithm; Related regulation; clustering analysis

由于Internet技术的快速发展,远程网络教育获得了飞速的发展,网络学习逐渐成为人们关注的热点, 网络课程作为网络教育的载体,是决定网络教育质量的一个关键要素,每学期随着班级、专业以及课程的不同,所有课程信息必须更新,管理系统形成的海量数据为课程管理决策应用的效率并不高,难以适应远程网络教育的发展需要,因此,为了实现科学、高效的课程管理,文中将数据挖掘技术应用到网络课程管理中,通过对日常教学管理中的数据进行分类挖掘,找出隐藏在数据后面的信息,这些信息可以帮助学校更好地对学生的培养管理,可以帮助教师更加有效地开展教学活动,进而进一步提高教学质量。

1 数据挖掘技术在网络课程管理中的应用

网络课程管理系统通常由以下几部分组成:信息录入(含课程信息、院系部信息、教师教辅人员信息、学生信息)、信息查询(含院系部信息、教师教辅人员信息、课程信息)、统计分析(含部门统计、课程统计、学生学习情况统计、成绩统计)、导出数据(课程信息导出、学生成绩导出)、资源下载、课程展示、课程检索、师生互动、学生评价和系统管理。

网络课程管理系统中存放着大量的数据,根据各种需要,可以对这些数据进行不同的组合分析,从这些数据中发现隐含的、有用的模式或关系用于指导教学与管理。在网络课程管理系统中,数据挖掘技术可以应用在以下几个方面:

1)关联分析:如学习资料之间的关联及课程之间的关联,将这些关联分析应用于课程设置中,可以帮助教学管理人员合理安排课程,还可以根据学生查阅资料的特点将经常一起查阅的资料归类在一起,从而节省学生在课程网站上查找资料的时间;

2)聚类分析:通过聚类分析,把学生分组组成协作学习小组, 找出他们具有共同特点,针对不同的聚类,教师可以采用不同的教学方法;

3)分类与预测:可以利用C4.5分类算法构造综合素质测评分类器,评价指标有学习成绩、思想品德、参加活动、学习实践情况等,得出学习成绩与教师职称、教师学历、学生生源地及学生性别之间的关系,以改进综合测评的方法,促进学生全面发展。

4)时序模式:通过对学生访问数据统计,利用WEB挖掘技术,使用数据挖掘的序列模式挖掘方法对文档进行分类,提高学生检索信息的速度,可依据学生访问的数据进行挖掘分析,对访问数据进行聚类分析,了解学生感兴趣的内容,访问站点之间的关联,分析学生访问习惯及兴趣点,并在有关联关系的页面之间设置超链接等来改善网站的结构。

2 学生成绩数据挖掘过程

学生成绩是评估教学质量的重要依据,是评价学生对所学知识掌握程度的重要标志,通过对现有学生成绩数据库中的成绩数据进行数据挖掘,根据决策树的结果来判断各门课程的成绩与外在因素的关系,以及对发现的关系进一步量化,并把决策结果通过可视化软件显示给教辅人员查阅,以便他们根据这些问题对教学做出相应的调整,从而提高学生学习质量。

2.1 确定挖掘任务

传统的成绩统计方法,通常是计算均值、方差、信度、效度和区别显著性检验等,对成绩的分析处理方法通常是统计成绩为优、良、及格、不及格等级别的人数及比分比,而很少对影响学生成绩的因素进行全面的了解分析,这样不利于进一步提高学生的成绩, 因此,为了进一步提高成绩,需要对这些数据信息进一步挖掘分析,从而得出结论,供教学使用,而按照学生成绩属性的特征进行分类,采用决策树方法可以从一组无次序、无规则的数据记录中推理出决策树表示形式的分类规则;对于教师来说,了解学生的学习兴趣与差异对教学很重要,因此,本文将决策树分析应用在学生成绩分析中,通过挖掘分析,找出影响学生成绩的主要因素,以便在以后的教学活动中采取相应的改进措施。

2.2 准备数据

在学校每学期结束时,网络课程管理系统中,保存了学生所参与课程的成绩信息,而成绩是与学生关联最大的数据,每学期都有新的成绩数据产生,且随着时间推移,成绩数据库中的数据量将越来越大。因此,为了从学生成绩中提取有用的信息供教学参考,本文以历年来的学生成绩作为要分析的数据,希望从学生成绩信息中发现与提高学生学习成绩有关系的一些因素。如学生的性别,教师的学历高低,教师职称的高低,学生生源地是城镇还是农村等与学生成绩密切相关的属性。

2.3 C4.5算法设计

本文主要是对学生成绩进行分析,而成绩是数值型的数据,因此在分析时所用的算法是基于信息熵的决策树分类算法C4.5,C4.5是在ID3算法基础上改进的,其特点主要是根据属性集的取值选择实例的类别及各级决策树,C4.5主算法描述如下:

1)在训练集T中,使用计算方法选取属性作为子集T={T1,T2,T3,T4,……};

2)用C4.5 “建树算法”对子集分裂T={T1,T2,T3,T4,……}进行信息增益(嫡)计算,生成决策,并得到测试子集T1,Ti的信息增益,“建树算法”为:首先对当前训练集T数据计算每个样本子集的信息增益S={S1,S2,S3,S4,……},然后, 选择互信息S={S1,S2,S3,S4,……}中最大的特征属性Smax作为树(或子树)的根结点Tboot,接着将那些嫡值大于平均值的样本子集合并成一个临时的复合样本子集归于同一子集,该取值作为树的分支Tos={Tos1, Tos2, Tos3, Tos4,……},最后,对树的分支Tos={Tos1, Tos2, Tos3, Tos4,……}中分类结果不为同一类的子集递归调用建树算法, 若子集仅属于同一类分类结果,对应分支结束作为树的叶结点,返回调用处;

3)对训练集T1,Ti中所有属性进行类别判定,找出类别的分类;

4)若分类结果为同一类, 转到步骤2)进行,否则对子集T1,T2,T3,T4,……再分别进行属性分裂,取其子集T={Ti1,Ti2,Ti3,Ti4,……},转到步骤2)进行;

5)判定此决策树为最后结果。

2.4 属性选择度量

属性选择度量又称分裂规则,其是将给定的类标记的训练集元组的数据“最好”地划分成各种个体类的启发式方法,其中具有最好度量的属性被选作给定元组的分裂属性,其相关计算公式如下:

原来信息: (1)

期望信息: (2)

信息增益: G(B)=f(B)-E(B)(3)

分裂信息: (4)

增益率: GR(B)=G(B)/sf(B)(5)

上式中, 假设类标号属性具有k个不同值,定义了k个不同类集合U={U1,U2,U3,U4,……},Bi是Ui中的样本数, B 是 Bi个训练集的集合, Q(Bi)是Ui的概率。

3 算法实现

为了验证上述算法的正确性,文中从英语专业的专业课成绩中随机抽取400名学生的成绩组成训练集进行试验, 把其中的连续属性平均成绩经过分类转换为离散属性:S1=[85,100];S2=[70,85]:S3=[60,70];S4=[0,60],并将训练集中的数据进行简化如下:学生性别={男,女},教师学历:{ 博士研究生,硕士研究生,本科,专科 },教师职称={教授,副教授,讲师,助教},学生生源地性质:{ 农村,城镇},学生成绩={S1,S2,S3,S4},其中, S1有160个, S2有80个, S3有80个, S4有80个,

3.1 属性计算

学生的成绩期望信息为:

下面以性别属性计算为例:在400个数据中, 一共有220个女同学, 分别是:S1有80个, S2有40个, S3有60个, S4有40个,有180个男同学,分别是S1有80个, S2有40个, S3有20个, S4有40个;按照公式⑵计算期望信息,

于是,性别的信息增益为:G(B)=1.922-1.891=0.031;

按照公式⑷计算性别属性的分裂信息为:

按照公式⑸计算性别属性的增益率是; GR(B)=G(B)/sf(B)=0.031/0.993=0.0312;

按照此方法依次可以计算出,

教师职称增益率为 GR(B)=G(B)/sf(B) =0.0435;

教师学历的增益率为 GR(B)=G(B)/sf(B)=0.0403;

学生生源地的增益率GR(B)=G(B)/sf(B)=0.0278。

3.2 决策规则的生成

利用决策树形成的各种分类模型, 利用IF.THEN语法形成分类规则, 在IF.THEN分类规则中,从根到树叶的每一条路径都创建一条规则,THEN部分用该决策树中叶点所标记的类别表示,IF部分用决策树中一条路径所形成的属性值表示;决策树从一种表示形式到另一种表示形式的转换是非常简单直接的,就可以得到相应的THEN部分结论,就可以得知这个学生成绩是属性哪个分类。

从上面的学生成绩系统中抽取教师的学历、学生所学的专业、教师的职称、学生的性别、学生生源地性质和平均成绩进行建树分析,从构造的学生成绩的决策树中,可分析得知影响学生成绩的最重要的因素是教师职称,其次是教师学历,学生性别和学生生源地性质,这棵树的构成是很符合现实要求的。

4 结束语

数据挖掘技术已在多个领域得到很好的应用,学校各部门多年来积累了大量的数据,但这些数据只是简单的存储在数据库中,没有得到深层次地分析与利用。本文对数据挖掘技术在分析高校网络课程相关数据中的应用进行了讨论,并通过C4.5算法在分析学生成绩中的应用, 揭示了成绩背后的深层意义,找出了隐藏着的教学信息与规律,通过加强对这些教学信息与规律的教学管理,提高学生的学习成绩,有助于网络教学质量的动态管理。

参考文献:

[1] 周曦.数据挖掘技术在网络营销中的作用[J].电脑知识与技术,2011(11).

[2] 施晓华.数据挖掘技术在图书馆学科数据馆藏分析中的应用[J].情报杂志,2011(1).

[3] 廖燕玲.数据挖掘在学生职业能力分析中的应用[J].电脑知识与技术,2010(33).

数据挖掘课程例9

[中图分类号] G642.3 [文献标识码] A [文章编号] 1005-4634(2013)04-0082-03

0 引言

数据挖掘技术能从大量数据中发现和学习有价值的和隐藏的知识,因而近年来在国内外受到极大重视,在电信业、零售业和银行业等生产大数据的行业中正获得越来越广泛的应用[1]。因此,近几年数据挖掘这门课程已越来越多的走进了高校课堂。但是,数据挖掘又是一门综合性较强的交叉学科,它涉及到统计学、数据库技术、数据仓库、人工智能、机器学习和数据可视化等学科知识,对学生的专业知识背景和前期所学课程有较高的要求,这在一定程度上限制了数据挖掘作为一门既有理论价值又有实践价值的学科的应用和推广。笔者结合自己的教学实践研究经管类专业本科生开设数据挖掘课程的教学探索。

1 经管类专业本科生开设数据挖掘课程的必要性和可行性分析

从经管类各专业的培养目标角度分析。以南京邮电大学经管类专业为例,该专业包含信息管理与信息系统、电子商务、市场营销、经济学和工商管理等专业,这些专业的培养计划都把培养学生具备市场分析、经营和管理决策能力作为专业的基本培养要求之一。数据挖掘作为商务智能的核心技术,是辅助管理者进行决策分析的有效工具,在激烈的商业竞争中发挥的作用越来越大。因此,为经管类专业本科生开设数据挖掘课程可以更好地实现专业培养目标。

从经管类专业本科生的就业角度分析。经管类专业本科生毕业后,有相当一部分同学会从事营销岗位或者信息管理、网站设计与维护等技术岗位。对于从事营销岗位的同学来说,由于现在的市场营销概念已经发展到精细营销理念,即企业恰当而贴切地对自己的市场进行细分,对各种客户群进行深入的分析和定位,并根据不同的客户群特点,采取精耕细作式的营销操作方式,将市场做深做透,进而获得预期效益。数据挖掘技术是实现精细营销的重要工具;对于从事技术岗位的同学来说,学习数据挖掘课程,掌握数据挖掘的思想和方法对培养学生的系统思维和解决实际问题的能力、提高学生的信息素养很有必要。因此,学习数据挖掘课程对学生未来的工作也是非常有帮助的。

数据挖掘是一门交叉学科,课程理论性强,且对学生的计算机基础要求较高。经管类专业只有信息管理与信息系统、电子商务两个专业开设了较多的计算机课程。但是所有经管类专业都开设了统计学必修课程和数据库原理与应用必修或选修课程,这两门课程是数据挖掘的核心。因此,适当地调整教学目标,将数据挖掘作为一门选修课程为经管类专业本科学生开设是完全可行的。

2 教学过程中存在的问题

笔者在为经管类专业本科生开设数据挖掘课程的过程中,往往遇到两个问题。

1)课程较强的理论性与学生知识结构缺陷之间的矛盾问题。数据挖掘这门课程涵盖了统计学、数据库原理、机器学习、信息论和时间序列等众多内容,课程教材中有较多的公式推导和算法分析,因此课程的理论性较强。然而,经管类专业本科生之前只是学习了统计学和数据库原理与应用两门课程,机器学习等其他课程知识均没有涉及到,因此在学习数据挖掘课程时会感到内容难度较大,障碍较多[2]。

2)理论教学与实验教学学时合理分配的问题。由于数据挖掘课程通常是作为选修课安排在经管类专业本科生培养计划中,总学时数相比学位课程要少,只有32学时。正如前文所述,这门课程包含的内容多、难度大,因此必须要保证足够的理论教学学时数量。同时,数据挖掘又是一门应用性较强的课程,特别是对于经管类专业本科生来说,一定要安排足够的实验教学学时,让学生在实践中提高分析问题和解决问题的能力。在较少的总学时约束条件下,如何合理地分配理论教学学时和实验教学学时是课程教学遇到的又一个问题。

针对经管类专业本科生开设数据挖掘课程时遇到的矛盾问题,将这门课程的教学目标确定为:掌握数据挖掘基本流程和经典算法的基本原理,熟练运用数据挖掘软件工具,分析和解决商业应用问题。课程教学目标指出,为经管类专业本科生开设数据挖掘课程的目的是培养学生利用数据挖掘这种工具去分析和解决商业应用问题的能力,而不是要求学生具备数据挖掘算法设计能力。因此,对于经管类专业本科生来说,实验教学和理论教学同等重要。在课程教学大纲中应将理论教学学时和实验教学学时设置为各16个学时。

3 教学内容设计

用16个学时来介绍数据挖掘课程的理论知识点,这就要求教师能够为经管类专业本科生精心挑选知识点,“量身定做”教学内容。

1)以应用为目的设计教学内容。根据经管类专业本科生数据挖掘课程的教学目标,本门课程在教学过程中应注重培养学生应用数据挖掘分析问题和解决问题的能力,这就要求教师能够围绕数据挖掘的整个应用过程来安排教学内容。数据挖掘的应用过程包括数据收集、数据预处理、模型构建和知识评价四个主要步骤。数据收集步骤是指准备数据挖掘的对象——数据源,有的数据源是一个数据文件或者是数据库中的一张关系表,但对于具体的商业应用来说,数据源往往是来源于同一个或不同数据库中的多张关系表,或者是多个数据文件,这时需要对数据源进行集成,甚至是构建数据仓库;数据预处理步骤是指通过数据清洗、数据集成、数据变换和数据归约等操作为数据挖掘任务提供干净、准确和简洁的数据,提高数据挖掘效率和挖掘结果的质量,它是数据挖掘中非常重要的环节;模型构建步骤是指选用数据挖掘算法在预处理后的数据集上构建挖掘模型的过程,关联、分类、聚类和回归分析是数据挖掘中四个主要的挖掘任务,每个挖掘任务又对应了多个挖掘算法;知识评价步骤是指采用各种统计指标对挖掘结果进行评价,以发现有价值的知识。由于不同挖掘算法得出的挖掘结果表现形式不同,知识评价应针对具体挖掘算法进行,因此知识评价步骤要安排在每个挖掘算法介绍完之后。

2)重点介绍经典算法。针对经管类专业本科生在学习数据挖掘课程时感到内容难度较大这一问题,且考虑到课程的理论授课学时有限,笔者对原有的数据挖掘内容进行了适当的精简。数据挖掘包含数十种挖掘算法,删除复杂和难度大的数据挖掘算法,针对每种挖掘任务重点介绍其经典算法。例如,关联挖掘中的Apriori算法,实现分类挖掘的决策树算法,实现回归分析的最小二乘法以及聚类分析的k-means算法。对于神经网络、贝叶斯分类、时间序列挖掘和Web数据挖掘等难度较大或内容拓展性算法,在介绍相关章节时略提一下,并鼓励有兴趣的学生在课余时间自学。

3)增加商业案例。数据挖掘是一门技术性较强的课程,一般的教材往往注重理论,相关案例较少,因而不容易激发学生的学习热情[3]。为了帮助经管类专业本科生增加对课程中各种挖掘任务的感性认识,同时也是为了激发学生对本门课程的学习兴趣,笔者在讲授过程中增加了若干关于数据挖掘的幽默故事、经典案例和在各行业中的应用案例,通过分析案例加深学生对算法应用的理解。例如,在介绍关联挖掘任务时给学生们引入“啤酒与尿布”的故事;在介绍分类挖掘任务时讲解客户流失分析的应用案例;在介绍聚类挖掘任务时分析客户细分的应用案例。

基于上述分析,笔者为经管类专业本科生开设的数据挖掘课程教学内容具体如下。

第一章为绪论,主要是对数据挖掘技术作概括性描述,让学生对数据挖掘定义、与数据仓库的关系、研究热点以及发展趋势形成感性认识。本章内容分配2个理论教学学时。

第二章为数据仓库,主要内容包括数据仓库的定义与特征、数据仓库的数据组织、数据模型、总体结构和设计等原理性知识点,以及联机分析处理(OLAP)的基本概念和分析操作等基本知识。本章内容分配2个理论教学学时。

第三章为数据预处理,主要介绍数据清洗、数据集成、数据转换以及数据归约等数据预处理的基本步骤和常见方法。本章分配3个理论教学学时。

第四章至第七章围绕数据挖掘的4个重要任务——关联、分类、聚类和回归分析,在介绍每种挖掘任务基本概念的基础上,重点介绍经典算法的基本原理和挖掘结果评价方法,以及每个挖掘任务在具体行业的应用案例。第四章至第六章每章内容分别分配3个理论教学学时,第七章内容分配2个学时。

4 实验项目设计

数据挖掘是一门与实际应用结合紧密、实践性较强的课程。为了加深学生对数据挖掘理论知识点的理解,锻炼和提高学生的实际动手能力,必须结合实验进行教学。数据挖掘课程的理论教学和实验教学构成一个完整的整体,缺一不可[4]。实验教学要充分调动学生的主动积极性,而不是简单地让学生进行验证式的操作实验或仅仅局限于机械地使用、熟悉某种软件工具。

笔者针对课程知识点设计了4个实验项目,每个实验项目分配4个实验学时。

第一个实验项目为数据仓库构建,实验软件是SQL Server 2000,它提供了一套完全的数据库和数据分析解决方案,其中的Analysis Service 组件支持数据仓库的创建和应用,并提供OLAP联机分析操作。构建数据仓库的数据源来自SQL Server 2000的样例数据库Northwind,Northwind是一家虚构的公司,从事世界各地的特产食品进出口贸易。Northwind数据库包含有这家公司的销售数据,数据内容多,数据量大,数据结构贴近企业的真实数据,符合实验要求[5]。实验包含4个步骤:(1)理解业务数据,确定分析主题。Northwind数据库中的表非常多,需要理清各关系表的内容及其相互间的关联,在此基础上确定感兴趣的主题;(2)围绕分析主题,将主题相关的关系表通过企业管理器中的DTS进行清洗和转换,为数据仓库提供合适的数据;(3)使用Analysis Server向导,建立多维数据集;(4)基于构建好的多维数据集,对数据进行切片、切块、钻取、聚合和旋转等各种OLAP分析操作。

第二至第四个实验项目均是基于Clementine12.0等数据挖掘工具,通过构建数据挖掘模型分析具体商业问题。其中,第二个实验项目为关联挖掘的综合实践,要求学生运用关联挖掘经典算法Apriori分析移动产品交叉销售;第三个实验项目为分类挖掘的综合实践,要求运用决策树算法进行电信客户流失分析;第四个实验项目为聚类挖掘的综合实践,要求运用聚类经典算法K-means进行电信客户细分分析。上述三个综合实验项目都要求学生首先能够分析具体应用问题,然后进行数据预处理、构建数据挖掘模型,并对挖掘结果进行分析和讨论,以锻炼学生数据挖掘的思维体系和数据分析能力。

5 教学方案实施

在教学方案实施过程中,着重营造活跃的课堂教学氛围,重视对课后作业的指导,以期提高课堂教学效果。考虑到经管类专业本科生的知识背景和本门课程的特点,在每次课堂上都会抛出一个思考题,要求学生们运用所学理论联系身边实际展开讨论。例如,在介绍完第一章后设计了一个讨论题:如何运用数据挖掘帮助电信企业提高竞争优势?学生讨论得很热烈,也得出了多个答案。由于本门课程课堂讲授学时较少,为了帮助学生复习、巩固及应用所学内容,课程每章节后都安排了课外作业,并就其中的难点进行指导和讲解。实验过程中,着重培养学生的独立性和数据分析能力。首先向学生讲授清楚实验具体要求和注意事项,然后放手让学生自己去做,遇到问题先鼓励学生自己思考解决,实在有困难再稍加指点。实验结束后,要认真分析实验结果,完成实验报告。选择实验数据时要考虑到数据是否符合现实情况且能够突出所分析的问题。除实验以外,其它实验项目均采用SPSS产品培训过程中所用的相关数据,数据量大小适中,适合在实验课上使用,而且这些数据与真实数据的差异小,有助于提高学生解决现实问题的能力。数据挖掘课程的教学方案已实践了5年,其间不断进行经验总结和探索,无论从近几年选修本门课程的学生人数还是从课堂上学生的反映和学习气氛看,本门课程都取得了很好的课堂教学效果。

6 结束语

数据挖掘作为一门技术性和应用性较强的课程,对优化经管类专业本科学生的知识结构、扩展学生的专业应用领域有着重要的作用。笔者结合自己的教学经验,对经管类专业本科生数据挖掘课程的教学内容和实验环节等方面进行了积极的教学探讨和实践,学生反映非常好。在今后的教学工作中,要不断实践,不断总结,进而不断改进和提高数据挖掘课程的教学质量。

参考文献

[1]刘云霞.统计学专业本科生开设“数据挖掘”课程的探讨[J].吉林工程技术师范学院学报,2010,26(6):20-22.

[2]李志勇,王翔,喻军.信息管理专业数据挖掘课程教学探讨[J].管理工程师,2012,(4):66-68.

数据挖掘课程例10

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)08-0190-04

Data Mining and Analysis for the Personalized Teaching of Multimedia Technology Course

YANG Nan-yue

(Industrial Training Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China)

Abstract: Since personalized teaching has been implemented in multimedia technology teaching in the past five years, a lot of teaching data accumulated from multimedia technology online learning platform. The article introduced data mining and analysis technology to process these data in order to obtain support and decision-making reference for the improvement of the quality of personalized teaching. First, the snowflake model of courses selection for data warehouse was built. Then the Apriori algorithm was used to dig out the inner link between the students’ media technology achievements and the final grade. And then cluster analysis with k-means algorithm on all students’ scores was conducted. Finally, the calculated results were visualized and analyzed. Practice proved that data mining and analysis technology is a useful tool for quantitative analysis in the teaching.

Key words: data mining; snowflake model; association rule; cluster analysis; personalized teaching

我校的多媒体技术公选课面向全校各年级各专业本科生开课,因此选修本课程的学生来源较复杂,其计算机基础参差不齐。过往统一步调的授课模式满足不了不同层次学生的需求,所以从2011年开始,本门课程实施教学改革,以多媒体技术在线学习平台为基础,结合课堂授课开展个性化教学,把多媒体技术包含的四大媒体技术课程:图像处理、音频处理、视频处理和动画制作做成讲座的形式,每一门课程分别包含两到三次的讲座,学生根据自己的情况选听选学。每门媒体技术不同难易度的学习资料都放在学习平台里,学生可以自由选择学习资源,并通过网络或课堂与同学和老师进行学习交流。考核方式为每一门课程最后一次讲座讲完后在学习平台上进行随堂考试,要求每位学生至少选考其中三门。本门课程期末考试也在学习平台上进行,要求全体学生都必须参加。本教改实施五年来,学生反应良好,同时多媒体技术学习平台网站上存在着大量学生成绩和教师教学及管理过程中的相关数据,那么这些数据之间存在着怎样的联系,是否蕴藏着教与学之间的知识和规律?由于数据挖掘技术能够发现隐藏在海量数据中的潜在联系和规则,从而预测未来的发展趋势[1],因此我们把该技术引入学习平台中的信息资源管理系统,把大量积累的教学基础数据建立数据仓库[2],在这基础上运用数据挖掘手段从中快速准确地提取出重要的信息和有价值的知识,找出影响学习成绩的因素,为进一步改善个性化教学的教学质量提供数据支持和决策参考。

1 数据仓库多维数据模型的建立

数据仓库的逻辑数据模型是多维数据模型。目前使用的多维数据模型主要有星型模型和雪花模型。一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表[3]。雪花模型是对星型模型的扩展,将星型模型的维度表进一步层次化,原来的各维度表被扩展为小的事实表,形成一些局部的层次区域[3-4]。建立本课程数据仓库时,为了减少数据冗余,改善查询性能我们采用雪花模型结构,如图1所示。建立以学生选课为中心的选课事实表,三个主维度表“学生表”、“成绩表”和“时间表”分别通过“学生键”、“成绩键”和“时间键”与事实表直接关联。其中,主维度表中的“学生表”和“成绩表”都有各自的二级维度表,与事实表间接关联[5]。

2 采用Apriori算法的关联规则挖掘

关联规则用于揭示数据与数据之间未知的相互依赖关系,即在给定的一个事物数据库D,在基于支持度-置信度框架中,发现数据与项目之间大量有趣的相关联系,生成所有的支持度和可信度分别高于用户给定的最小支持度(min_sup)和最小可信度(min_conf)的关联规则。关联规则挖掘算法归结为下面两个问题:(1)找到所有支持度大于等于最小支持度(min_sup)的项目集(Item Sets),即频繁项目集(Frequent Item Sets)。(2)使用步骤(1)找到的频繁项目集,产生期望的规则。两步中,第(2)步是在第(1)步的基础上进行的,工作量非常小,因此挖掘的重点在步骤(1)上,即查找数据库中的所有频繁项目集和它的支持度[4]。本课题对多媒体技术课程学习平台中所有考试成绩进行关联规则挖掘,采用Apriori算法查找频繁项目集。

Apriori算法通过逐层迭代来找出所有的频繁项目集L。用户需要输入事物数据库D和最小支持度阀值min_sup。实现过程为:

1)单次扫描数据库D计算出各个1项集的支持度,得到频繁1项集构成的集合L1。

2)连接:为了产生频繁K项集构成的集合,通过连接运算预先生成一个潜在频繁k项集的集合Ck。

3)剪枝:利用Apriori算法“任何非频繁的(k-1)项集必定不是频繁k项集的子集”的性质,从Ck中删除掉含有非频繁子集的那些潜在k项集。

4)再次扫描数据库D,计算Ck中各个项集的支持度。

5)剔除Ck中不满足最小支持度的项集,得到由频繁k项集构成的集合Lk。

Apriori算法如下:

[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠?;k++) do begin(3)Ck=apriori_gen(Lk-1); //新的潜在频繁项集(4)for all transactions t∈D do begin(5) Ct=subset(Ck,t);//t中包含的潜在频繁项集(6)for all candidates c∈Ct do begin(7) c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]

求出频繁项集L后,1)对于L中的每一个频繁项目集l,产生l的所有非空子集。2)对于l的每一个非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],则输出规则:SL-S[4]。

本课题对近五年选修多媒体技术的学生所有成绩数据进行清洗,填补空缺值,去噪,类型转换,集成等处理后放入数据仓库中,系统采用Apriori算法找出所有的频繁项集。为了便于进行关联规则的挖掘,对成绩数据进行离散化处理,转变成标称型变量[5]。成绩score(简化为“s”)在85-100区间的表示“优秀”,标记为“1”,在70-84区间的表示“中等”,标记为“2”,在60-70区间的表示“合格”,标记为“3”。多媒体技术每门媒体技术课程:图像处理、音频处理、视频处理、动画制作和最后的期末考试分别用A、B、C、D、E表示。学生的学号用StudentID表示,那么每个学生选修的N门课和最后期末考试的成绩可以表示为{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范围是{1,2,3}。例如{ 2011204543021,A3,B1,D3,E3}表示学号为2011204543021的学生,选修了图像处理,音频处理和动画制作这三门媒体技术,其中图像处理成绩为合格,音频处理成绩为优秀,动画制作成绩为合格,期末考试成绩为合格,该名学生没有选修视频处理,故没有这门科目的成绩。

设定最小支持度阀值min_sup为3%,最小置信度阀值min_conf为70%,系统采用Apriori算法进行数据挖掘,得到满足最小置信度阀值的规则和相应的置信度如表1。

挖掘结果分析:表1的关联规则体现学生选修的媒体技术课程种类、科目数量与期末考试成绩之间的相互关系。可以看到期末考试成绩属于中等(E2)或合格(E3)级别的,学生全选四门媒体技术比只选学三门的置信度高,即选课数量多的较容易及格或获得中等的期末成绩。另外,在选课种类方面,选B这门课,即选音频处理的学生比较多,是一个概率比较高的事件,可能这门课内容比较少和易掌握,因此选学选考的学生就多。但这门课的成绩对期末考试成绩影响不明显,说明教师这门课出的考题区分度低,没能反映出学生的水平层次。在最小支持度阀值min_sup为3%的情况下,选A(图像处理),C(视频处理)和D(动画制作)这几门课并获得优秀成绩(A1,C1,D1)的很少,即小概率事件被过滤掉了,没能挖掘出它们与期末成绩之间的关联性。但这几门课程成绩中等或合格与期末成绩存在内在关系,也就是说如果这几门课成绩都是中等的,期末考试成绩大部分都为中等,一小部分可以达到优秀。如果这几门课成绩都是合格,期末考试成绩就是合格。说明这几门课程的考题比较真实反映出学生掌握技能的实际水平,致使期末综合性的考试成绩与学生平时掌握程度相符合。这也意味着个性化教学具有一定的成效。

本课题对近五年的学生多媒体技术每科成绩与期末成绩进行聚类分析,把学生划分到若干不同的类中,分析各个类的特征,从而考察实施个性化教学后的效果。设定85分,75分和65分为三个初始的聚类中心,对学生的所有成绩进行聚类分析,找出同一类别学生的学号,以此为索引,查找到该类中各个学生的专业与年级,绘制出饼状图,再绘制出该类学生所选各门媒体技术的平均分柱状图,通过这几个图表考察不同专业不同年级学生在本门课程优秀中等合格若干成绩区间的分布情况,从而检查实施个性化教学的效果,为今后的改进方案提供参考。例如调整后得到的最终聚类中心为82分的学生,各门媒体技术的平均分和专业、年级分布如图3~图5所示。

从上面几个图可以看出,成绩为优秀的学生主要来自美术、计算机和电信这几个专业,大三、大四的学生比较多。分析其中的原因,主要是美术学院很多专业课需要用二维、三维图像软件或视频软件进行制作和处理,他们对这门课程已经有一定的基础,所以学起来比较轻松,也容易取得高分。而计算机和电信专业中高年级的学生学习和使用软件的能力比较强,因此掌握多媒体技术各个媒体软件较其他专业学生快,并且能够灵活运用,因而较易取得比较优异的成绩。

最终聚类中心为64分的学生,各门媒体技术的平均分和专业、年级分布如图6~图8所示。

从图中可以看出,这个类别的学生主要来自文科方向的专业,年级分布差异不大,大四所占百分比稍微比其他三个年级略高,有可能是学生们最后一年为了修满选修课学分而选了这门课,目的是混个及格拿到学分,因此学习积极性和学习态度不佳,导致大部分成绩徘徊在60来分。还有一种可能性是大四学生毕业在即,需要写简历找工作,做自我介绍作品等,觉得掌握一些多媒体技术可以作为辅助工具因此选了本门课程。可惜有效学习时间明显不如前三年充足,加上文科方向的同学计算机基础和软件学习能力较理工类学生薄弱,因此成绩不太理想。

4 总结

本文以多媒体技术在线学习平台为基础,对该门课程近几年积累的大量教学基础数据进行整理并建立数据仓库,将数据挖掘技术应用到此数据仓库,为评估该课程实施个性化教学的效果提供定量分析的依据[7],也为今后进一步提高个性化教学质量提供数据支持和决策参考。

参考文献:

[1] 孟卫平,张丽萍. 民办高校选课决策支持系统的研究[J]. 电子测试, 2014(S2):241-245.

[2] 侯毅. 基于数据挖掘的开放教育个性化教学系统的构建[J]. 福建电脑, 2011(5):128-129.

[3] 雷启明. 超市数据仓库雪花模型的设计与应用[J]. 商业现代化, 2008(9):40-41.

[4] 李於洪. 数据仓库与数据挖掘导论[M]. 北京: 经济科学出版社, 2012.

数据挖掘课程例11

课题以提供系统的、具体的特色课程教学体系为目标,细化课程知识点、课程链、知识网。在维持原有的教学安排的前提下,建立学科“保密通信与信息安全”特色课程群的教学体系,优化“保密通信与信息安全”课程结构和内容。解决课程之间松散关系,建立课程之间强势连接关系。本文的研究与实践,将直接应用于通信与信息系统学科通信工程专业网络信息安全方向的教学、科研、应用环节,将会对本学科电子信息类专业课程教学提供经验方法,研究学科和专业新特色,促进学科内部组建新的课程群,继而推广至其他学科和专业,最终形成黑龙江大学的特色办学。

一、课程群理论与实践教学的松散性

课程群建设是近年来高等院校课程建设实践中出现的一项新的课程开发技术,其基本思想是把内容联系紧密、内在逻辑性强、属同一个培养能力范畴的同一类课程作为一个课程群组进行建设,打破课程内容的归属性,从实践能力培养目标层次把握课程内容的分配、实施、保障和实践能力的实现。在课程群中,最基本的教学单元是知识点,知识群是知识点的集合。把传统的教学组织由两层架构进化为三层架构,使技能要求独立于课程,形成目标明确的课程群层次,嵌在课程和培养方案之间。由课程群承载技能培养目标,协调课程之间的关系,使目标明确化。弱化课程的独立性,强化课程之间的亲和性,凸显它们为确定的共同技能的服务特征,突出各课程所蕴涵的实践定位,把围绕一个实践培养目标的、含有若干课程中的实践点抽象出来,在一个更高层次上连贯起来,使该实践的培养随课程教学的推进而不断递进、加深和拓展,逐步实现与培养目标的重合。

课题研究“保密通信与信息安全”特色课程群教学体系的建立,优化“保密通信与信息安全”课程结构和内容。解决课程之间松散关系,在课程之间建立强势连接关系。“保密通信与信息安全”课程组包含c语言、传感器网络、信号处理、信息论、通信原理、密码学、通信电子线路、电磁场与微波天线、网络通信、网络安全等专业课程,知识点就是课程大纲、教案、考点,须要对上述内容进行知识点的挖掘工作。遵循原有的教学大纲和课程设置,标记“保密通信与信息安全”相关课程,并归类为特色课程群。对于标记为特色群内的课程,教师须要挖掘特色群课程的知识点,依托纵向和横向课题的研究内容,形成相关联的知识链、知识网络。特色群内课程须要改进教学内容和方法,对知识链和知识网络内的重要知识点,采用关联式、阶段式、综合式的考评和教学改革。

二、课程群知识点数据库构建

“保密通信和信息安全”课程群包括传感器网络、信号处理、信息论、通信原理、密码学、通信电子线路、电磁场与微波天线、网络通信、c语言、网络安全等课程,构建“保密通信和信息安全”课程群知识点数据库共分为三个步骤:(1)“保密通信和信息安全”项目组老师根据教授的课程,讨论并提出标记课程,建立特色课程群;(2)负责理论教学的老师在原来课程考点基础上挖掘总结课程知识点,参与产学研用项目的老师根据项目需求,建立项目知识点;对课程知识点和项目知识点进行融合,确定特色课程和知识点;(3)依据知识点类型的不同,将特色课程知识按照理论研究、应用开发、工程实践三个类别进行划分,完成课程群知识点数据库的建立。

课题以“保密通信和信息安全”作为教学目标,对本专业理论研究、应用开发、工程实践不同类型的人才培养项目方面,推进专业“分类培养”,根据学生的不同层次,设计差异化培养方案,实行差异化人才培养模式,实行导师制、小班教学,激发学生学习主动性、积极性、创造性,培养不同层次的拔尖创新人才。最终目标是建立“保密通信与信息安全”系统平台,提供学生的创新、创业交互平台,提供校园文化传播平台,旨在加强创新创业教育和就业指导服务,为学生提供多种创业思路和多条就业渠道,推进高校文化传承创新。

三、关联规则挖掘知识链

数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、统计学技术、高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者作出正确的决策。

在教育领域的应用相对较少,高校中对学生信息、成绩等数据的处理一般还停留在简单的数据的备份和查询阶段。从教学信息技术角度看,数据挖掘是一种崭新的教学信息处理技术,其主要作用是对教学数据库中的大量数据进行抽取、转换、分析和其它模型化处理,从中提取出辅助教学决策的关键性数据。数据挖掘更主要是为教学决策提供真正有价值的信息,进而获得更好的教学效益。但很多学校面临的一个共同问题是:学校数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的教学数据中经过深层分析,获得有利于教学决策、促进教学发展的有价值的信息。

课题参照一种最有影响的挖掘关联规则频繁项集的Apriori算法,挖掘隐藏在教学系统数据间的相互关系。

首先,根据每个课程的重要知识点,设计数据项集。参照教学大纲执行顺序,将每个课程项集设置为数据库的一个关系模式,包括起始时间、知识点关键字、课时、预备知识等属性。其次,在课程数据项集中构造事务T,分配唯一标示符标注,对于全体事务构成的事务集合D,统计事务集D关于集合A与集合B的支持度s,分析研究最小支持度集。之后,计算事务集D包含A事务同时也包含B事务的计数或百分数,得到置信度与最小置信度,得到满足最小支持度阀值的事务中的频繁项集。

课题构建知识链和知识网,要结合理论研究、应用开发、工程实践不同项目需求,依据上述方法,结合产学研用的需要将知识点串联为知识链,将知识链组成知识网,并且全面的展示理论教学、高精尖的研究、应用开发、工程实践不同领域的重要知识技术。