欢迎来到速发表网,咨询电话:400-838-9661

关于我们 登录/注册 购物车(0)

期刊 科普 SCI期刊 投稿技巧 学术 出书

首页 > 优秀范文 > 数据挖掘课程设计论文

数据挖掘课程设计论文样例十一篇

时间:2023-03-20 16:24:39

数据挖掘课程设计论文

数据挖掘课程设计论文例1

0引言

近几年,随着互联网技术的发展和对人们工作生活的不断渗透,随着移动互联、物联网、云计算、智慧工程等新兴信息技术的出现和普及,数据在人们的生活中呈爆炸式增长,人们开始进入大数据时代。由于海量数据中记录了企业的发展、运营以及人们生活和行为的点点滴滴,所以,挖掘海量数据背后存在的模式、规律和趋势,并结合各行各业进行创新应用,已经成为这个时代的重要课题。我国电子商务经过近20年的发展和数据累积,已经从用户为王、销售为王进入到数据为王的阶段,如何针对用户消费行为的分析,提升电子商务的运营效率,促进精准营销的开展,增加客户黏性,从而实现电子商务的智能化发展,是当前电子商务发展的重中之重。因此,在大数据背景下,为适应行业发展需求,国内外很多高校,尤其是应用型本科院校,在电子商务专业本科生中陆续开设大数据分析与挖掘系列的课程,其中作为大数据研究与应用的重要支撑技术的数据挖掘,是其中一门重要课程。

1电子商务专业开设数据挖掘课程的必要性

1.1行业发展的必然要求

进入大数据时代,“互联网+”技术与传统行业深度融合,电子商务数据已覆盖了从用户、商家、第三方、物流等一系列商务环节。因此,充分利用大数据,有效分析和挖掘大数据的价值和规律,已成为推动电子商务深化发展的重要引擎。首先,数据挖掘技术是电子商务智能化的基础。由于电子商务的活动从开始就具备了信息电子化的先天优势,所以,用户在电子商务网站上发生的所有行为信息都被日志记录,包括用户对产品的搜索、浏览、在购物车加入或取出商品、收藏产品、对商品的讨论、评价、分享等。对这些用户行为信息进行收集和分析,可以挖掘用户的兴趣特征和潜在需求,实现对用户的个性化推荐。其次,数据挖掘技术支撑电子商务的精细化营销的实现。通过网络爬虫收集用户在消费过程种对商品的兴趣、偏好、评价等数据,并进行分析挖掘,可以更好地对用户进行细分,针对性地制定营销策略,更准确地把握用户态度和对产品的情感倾向,及时控制营销中的不良影响,从而提升用户体验和用户黏性。第三,数据挖掘技术推动电商物流的优化。通过对电商物流数据的分析和挖掘,可以预测市场需求变化的规律,帮助企业合理地进行库存管理和控制,优化配送路线,进行物流中心选址策略分析等。可见,对于电子商务专业大学生开设数据挖掘课程是行业发展的必然需求。

1.2专业人才培养的迫切需求

电子商务是利用信息和通信技术,通过Internet在个人、组织和企业之间进行商务活动和处理商务关系的一种活动。随着云计算、物联网及移动互联等新兴信息技术的迅速发展,大量传感器和监控设备不间断的数据采集和行业数据的持续积累,使大数据成为时代的鲜明特点。教育部电子商务专业教学指导委员会王伟军教授等人对138个电子商务专业本科人才的市场招聘需求进行研究发现,网络营销与数据分析是当前电子商务专业的主要能力需求,而目前我国开设电子商务专业的高校中开设数据挖掘及其相关课程的只有14所。因此,该类别人才缺口目前较为严重,市场需求量较大。为了适应时展需求,高校在人才培养时既要注重电子商务运营管理能力的培养,同时更要注意商务数据分析与挖掘能力培养。培养同时具备这两种能力,并且可以将两种能力有效结合起来的应用型人才,是当前高校电子商务专业发展的趋势和方向。总之,在当前的电子商务活动中,商务管理是核心,数据分析与挖掘是手段。在大数据背景下,要提升电子商务的管理效率,实现电子商务的智能化发展,必须应用好数据挖掘这把利器。因此,在电子商务专业开设数据挖掘课程,是行业发展的必然要求,也是专业发展的迫切要求。

2电子商务专业数据挖掘课程教学思路设计

数据挖掘是一门交叉学科,涉及统计学、数据库、机器学习、高性能计算等多门学科相关内容,要求学生具有较为扎实的基础知识。由于课程难度较大,早期高校都把该课程作为研究生的专业课程。为适应市场需求和行业发展,近年来,也有些高校将此课作为本科生高年级选修课开设。从该课程的传统教学上来看,由于学生理论基础不够扎实,课程教学又多侧重算法的分析与实现,导致该课程存在教学难度大、理论教学过多、学习兴趣难以提高等问题。考虑到传统教学的问题以及电子商务专业培养应用型本科人才的实际情况,笔者认为该课程在教学过程中应“轻算法,重应用”,以启发学生数据思维为主,以理解算法思路为主(忽略细节实现),以合理构建数据挖掘模型、正确解读数据挖掘结果为主。在组织教学时,采用基于场景的启发式教学方式。该课程在讲授每个数据挖掘方法时,都通过一个电子商务问题进行导入;通过本节所授方法,形成解决问题的思路;最后通过专门数据挖掘软件进行方法的应用,通过对挖掘结果的解读分析,为导入问题的决策分析提供依据。通过这种由浅入深,由易到难的方式,引起学生学习兴趣,激发学生主动思考,真正成为课堂的主体。实践环节是学生理论联系实际的关键步骤,选用合适的数据挖掘软件工具非常重要,对于电子商务专业的学生,数据挖掘重在问题的建模和方法的应用,所以,该课程选择的数据挖掘工具是IBM公司的SPSSModeler。SPSSModeler拥有丰富的数据挖掘算法,本课程涉及到的分类、聚类、关联分析、时序分析、社会网络分析挖掘等主要数据挖掘功能均可实现,而且其操作简单易用,分析结果直观易懂,可以使用户方便快捷地实现数据挖掘。学生通过对算法基本思路的了解,针对实验问题设计数据挖掘方案,并通过数据挖掘软件进行算法的应用和结果的分析,理论和时间的顺利衔接,进一步加深学生对数据挖掘方法的认识和理解。

3电子商务专业数据挖掘课程教学内容设计

数据挖掘课程主要讲解数据挖掘的基本概念、主要方法和技术、应用情况及发展趋势,目的在于启发学生的数据思维,提升学生数据分析与挖掘的能力,深入理解电子商务数据在电子商务中的重要地位和作用,实现商务管理和数据挖掘的有机结合。由于数据挖掘课程理论性和应用性均较强,反映在教学要求上,既要重视理论学习,又要重视实践环节。具体来说,就是一方面通过理论教学使学生对理论内容有较深入的理解和领悟;另一方面结合实践教学,鼓励学生多动手,多思考,综合运用所学知识分析和解决实际问题。

3.1理论教学设计

针对大数据时代的数据特点和应用特点,在数据挖掘课程的理论教学设计时,其内容不仅包括传统的基础性的分类、聚类、关联分析、时序分析等数据挖掘方法,还注重根据电子商务行业特点进行知识的拓展介绍,比如在将关联分析的时候,除了传统的购物篮分析,还增加了序列模式分析内容;比如在结合社会化电子商务的发展,对社会网络分析、文本挖掘等前沿数据挖掘知识也进行了一定的拓展介绍。这些拓展内容,不但丰富了学生的知识体系,也为部分学生的课下深度扩展指明了方向。我校电子商务专业的数据挖掘课程总学时为48学时,其中理论教学32学时,主要内容及其学时分配如表1所示。表1数据挖掘课程理论教学安排序号章节标题内容提要学时1数据挖掘概述数据挖掘基本概念与功能;基本流程与步骤;基本方法与应用;拓展:数据库,数据仓库与数据挖掘的关系22数据预处理数据清洗;数据的集成与转换23分类分析决策树分类;贝叶斯分类;分类特点及结果分析64聚类分析K-means聚类;两步聚类;聚类特点与结果分析65关联分析频繁项集;关联规则挖掘;关联分析效果评价;拓展:序列模式分析86时序分析移动平均模型;指数平滑模型;拓展:ARIMA模型67数据挖掘发展趋势社会网络分析;文本挖掘;Web挖掘2理论教学在组织时,基本上以“课堂引例-问题分析-算法思路讲解-课后练习”的方式展开。通过实例分析,给学生介绍各种算法的基本思想和相关概念,引起学生学习兴趣。在讲授算法时,通过具体的简单数据演算实例来分析数据挖掘的过程和结果,使学生在实际案例中明白数据挖掘算法在处理数据过程中的作用和意义。虽然该课程开设在电子商务专业的第六学期,但是,由于数据挖掘课程本身需要多个学科的基础知识,在目前的大学课程体系内,难以在有限的时间内开设全部先修课程。因此,在理论讲解时,对涉及到学生比较生疏的知识点,应根据学生的知识水平,予以补充说明。例如,在讲决策树分类时,对于信息论中信息熵基本概念和计算方法,可以结合实际数据集合,进行讲解和计算。

3.2实验教学设计

数据挖掘是一门紧密结合实际应用的课程,具有较强的实践性。实践教学环节中,首先教师讲解实验步骤,然后安排学生进行实验,并对实验结果做详细分析与评价。每个实验要求学生完成以下几方面的内容:(1)根据实验问题设计数据挖掘方案和实施流程;(2)进行数据预处理,并构建数据挖掘模型;(3)解读数据挖掘结果,并联系实验问题进行具体分析;(4)实验拓展与总结。在实验拓展和总结部分,可以设计一些开放性的题目,比如在进行关联分析时,可以设计这样的问题“如果支持度阈值设置时降低十个百分点,频繁项集会有哪些变化?关联规则的准确性和适用性会有哪些方面的变化?”。在实验环境下,学生可以通过对比实验,比较容易得到结果,而在总结这些变化规律时,又可以强化和巩固对关联规则、频繁项集、支持度、置信度等这些概念和指标意义的理解,从而更好的应用在以后的工作实践中。结合电子商务活动特点以及数据挖掘在电子商务中的应用,该课程的实验是16学时。在实验设计时,共设计了五个单人实验和一个综合性多人实验.由于使用数据挖掘技术处理实际问题时,很多时候需要综合运用一些数据挖掘方法,其设计方案不止一种,分析结果也不一定完全一致。为激发学生的主观能动性,本课程在最后需要每个小组共同完成一个综合性的数据挖掘作业。研究表明,对于本科生来说,指导教师给出一些具体的题目,如大学生消费状况预测、校园共享单车满意度分析等,这些热点问题更容易激发学生的学习兴趣。综合作业从数据挖掘方案的设计、数据采集、数据预处理、数据建模、结果分析以及报告撰写全部由小组成员协作完成,通过这样一个完整的分析问题、解决问题的过程,不但可以锻炼学生综合应用知识的能力,也可以锻炼学生的沟通写作能力。在综合性作业完成的过程中,教师需要给予一定的指导,例如教师可以介绍问卷星等网络调查平台或网络爬虫等工具帮助学生进行原始数据的采集;通过对数据挖掘方案的点评,帮助学生更合理的选取数据分析指标,设计数据挖掘方案;通过报告撰写指导,帮助学生规范化的总结实验分析结果。

4结论

大数据时代的电子商务活动中,对电子商务人才的数据挖掘和分析能力非常迫切,在电子商务专业中开设数据挖掘课程是行业发展和专业发展的必然要求。在电子商务专业开设数据挖掘课程既有别于研究生也有别于计算机等理工科专业,“轻算法,重应用”,以提升学生主动学习兴趣为导向,采用基于场景的启发式教学方法更合适。本文从教学思路、教学方法、教学内容等方面进行了思考和探索,经课程开设两年来的教学实践证明,学生在学习上的主观能动性得到了一定的体现,理论和实践相结合的能力得到了锻炼。激发学生学习兴趣,培养学生的主动性思维,是当前教学中的重要课题,在电商行业不断发展的过程中,如何更好的将最新行业问题融入教学过程,实现理论和实践的有机结合,需要我们进一步深入思考和探索。

参考文献

[1]冯然,陈欣.论数据分析类课程在电子商务专业设置中的重要性[J].河南教育,2015,(2).

[2]黄岚.数据挖掘课程实践教学资源库建设[J].计算机教育,2014,(12).

[3]薛薇.基于SPSSModeler的数据挖掘(2版)[M].中国人民大学出版社,2014.

[4]李海林.大数据环境下的数据挖掘课程教学探索[J].计算机时代,2014,(2).

数据挖掘课程设计论文例2

中图分类号:G642 文献标识码:A 文章编号:1009-3044(2016)22-0148-02

1 引言

数据挖掘总是让人觉得就是“高大上”、“深不可测”,而该领域当前主要是博士生、硕士生所研究的,另外,也只在一些研究生或重点大学的高年级的本科生中开设数据挖掘课程,在应用型本科院校中很少开设 [1]。

数据挖掘技术应用很广,应用较好的领域、行业有:金融保险业、电信、市场营销分析、医学、体育、生物信息学(Bioinformatics)等方面[2]。在商业领域中,主要应用如:客户细分、客户获得、公司风险管理、企业危机管理、欺诈行为检测和异常模式的发现等;在计算机领域中,主要应用如:信息安全(入侵检测,垃圾邮件的过滤)、互联网信息挖掘、自动问答系统、网络游戏(网络游戏外挂检测、免费用户到付费用户的转化)等[3]。这一技术的广泛应用,必然在相关的企业中迫切需求掌握这一技术的人才。所以,开设数据挖掘技术课程对于应用型本科来说是很有必要的。

但对于应用型本科来说,若是像重点本科院校或研究生课程那样,在教学中以研究型为主,会导致学生的培养要求与教学内容的深度和广度不适应,学生会感觉到学习得很吃力,而且他们今后工作中的需求与所学到的知识相差也较大。对于应用型本科的数据挖掘技术课程的内容的安排,不仅要反映出数据挖掘技术的特点及前沿,还应该结合学生的学习能力及兴趣,也还需要综合考虑本校该课程的学时分配、教学条件等,要具针对性,突出应用这一重点,目的是使学生能够“学以致用”。

本文从应用型本科的实际出发,讨论了数据挖掘课程的理论教学内容及方法、实验教学内容及方法,使学生能够掌握和应用所学的知识。

2 先导课程及课程的基本要求

先导课程有:程序设计语言、数据结构、数据库技术、Web技术、概率论等[4]。必须深入学习一门程序设计语言,从计算机发展和应用角度,推荐学习C/C++和Java;对于“数据结构”课程,掌握树的知识,数据挖掘中的很多算法都涉及树的应用;对于“数据库技术”课程,掌握数据库操作和应用,因为数据挖掘的主要对象是数据库中的数据;对于“Web技术”,因为Web已经存在于我们生活方方面面,对于Web挖掘相当重要,而且还具有巨大的应用价值;对于“概率统计”课程,要能够熟练掌握其中的思维方式、条件概率以及各种分布,在数据挖掘中的关联规则、分类预测等,都会涉及概率统计中的思维和方法。

课程的基本要求:①了解数据挖掘的重要性,了解国内外的发展的状况及未来发展的方向;②掌握数据挖掘中的一些基本概念、经典算法及相关技术;③对于实际应用问题,能熟练地运用数据挖掘技术及工具解决;④为以后进一步深造或进行高级应用开发打下基础。[5,6]

3 理论教学及方法

对于应用型本科生数据挖掘技术课程的教学,本人认为重要的是普及经典算法,若有多余时间,可以补充一些较难的算法。对于经典算法原理的讲解,采取的是一步步地对小数据集案例进行算法演练,以具体化比较抽象的算法,对于算法的优缺点,采取课堂讨论的方式,可以加深学生对算法的理解和吸收。本校的数据挖掘技术课程的理论教学是32个学时,课程的理论教学内容主要包括:

(1)绪论(4学时):①先举几个数据挖掘中有意思的例子。第一个:超市货架的组织―“啤酒与尿布”;第二个:基于拐点变化的股票趋势预测;第三个:网上购物―“定向营销”;第四个:农夫山泉用大数据卖矿泉水;第五个:阿迪达斯的“黄金罗盘”;第六个:网易的“花田”―定制爱情。通过例子让学生对数据挖掘有一个大致的认识,可以提起学生对学习本课程的兴趣,也让学生了解到目前的数据挖掘已经发展到何种程度。②讲解KDD与数据挖掘相关概念。③数据挖掘对象:关系数据库、数据仓库、事务数据库、空间数据库、时态和时间序列数据库、文本数据、万维网数据、流数据等等。④数据挖掘的方法与相关领域:分类预测型和描述型,通过例子简单介绍聚类、关联规则、分类算法的概念、应用领域等,使学生对要学习的算法有大致的认识。⑤数据挖掘软件与应用系统:介绍数据挖掘软件:IBM Intelligent Miner、SPSS Clementine、Microsoft SQL Server 2008 Data Mining、Weka;数据挖掘应用系统:介绍在商业领域和计算机领域的应用。

(2)数据预处理(2学时):先对数据进行概述,包括:数据集的三个特性:维度、稀疏性和分辨率,它们对数据挖掘技术具有重要影响;数据挖掘中一些很常见的数据集的类型:记录数据、基于图形的数据和有序的数据。然后分别详细介绍数据预处理的主要任务:①数据清理;②数据集成;③数据变换;④数据归约;⑤数据概念分层与离散化。每一项任务举例讲解。

(3)关联规则(6学时):主要介绍关联规则的相关概念、关联规则的经典算法Apriori及它的改进算法FP_Tree、规则的产生,简单介绍多级关联规则和多维关联规则、非二元属性的关联规则、关联规则的评估(提升度(lift) /兴趣因子的计算)等。

(4)聚类(6学时):主要介绍聚类的概念及距离的计算(欧氏距离、曼哈顿距离、明可夫斯基距离)、基于划分的聚类算法(基本K-means聚类算法及其拓展、PAM算法)、层次聚类算法(凝聚的层次聚类算法AGNES、分裂的层次聚类算法DIANA)、基于密度的聚类算法(DBSCAN);简单介绍层次聚类方法的改进―BIRCH算法、CURE算法以及聚类算法评价。

(5)分类和预测(10学时):①决策树(4学时):主要讲解决策树的概念、信息论、ID3算法和C4.5算法。②贝叶斯分类(2学时):主要讲解贝叶斯定理及朴素贝叶斯分类算法。③人工神经网络(4学时):主要介绍人工神经网络的概念及单感知器模型,简单介绍BP神经网络。

(6)数据挖掘模型的评估(2学时):简单介绍模型的过拟合、没有天生优越的分类器、模型选择和模型评估、评估分类器或预测器的准确率――简单划分和交叉验证、数据挖掘模型评估的错误观念。

对于9个需主要介绍的经典算法的讲解,如Apriori算法,先介绍算法的流程,然后通过超市购物篮的一个小数据集一步步地进行算法的演练,得出频繁项集,如下图所示:

又如决策树算法和朴素贝叶斯分类算法,通过如下所示的关于动物的数据集,一步步地进行相关算法的演练,通过建立决策树或计算概率问题,判断一个未知的动物X={1,0,0,1,?}是否会生蛋。

对于算法的优缺点,在讲解完算法的过程之后,采取课堂讨论的方式,与学生共同分析总结算法好在哪里,不足又在哪里,学生通过参与,可以加深对算法的理解与掌握。

4 实验教学及方法

对于应用型本科的学生来说,采用Weka进行算法编写是不切实际的,实验教学工具建议采用目前一些主流的数据挖掘软件,如 SPSS Clementine或 Microsoft SQL Server 2008 Data Mining等[7]。这些软件都具有必需的数据预处理工具及预设的挖掘算法,学生可以把注意力放在要挖掘的数据及要相关需求上,设定挖掘的主题,然后采用这些软件完成相关主题的数据挖掘过程,这样也可以积累一定的处理实际挖掘问题的实战经验,今后碰到项目时也可知道从何处下手。

本校的数据挖掘技术课程的实验教学是8个学时,共两次上机,采用Microsoft SQL Server 2008 Data Mining对Adventure Works DW 2008R2 示例数据库进行数据挖掘。课程的实验教学内容主要包括:

实验一:SQL Server 2008 数据多维分析环境的建立;

实验二:关联规则挖掘方法;

实验三:决策树挖掘方法;

实验四:聚类挖掘方法。

为了让学生更好地进行实践动手,在教学中分两步:第一步,具体的操作步骤的讲解,由老师进行;第二步,学生上机并详细的分析挖掘结果,要求学生熟悉使用Microsoft SQL Server 2008进行数据挖掘的步骤,以及几种常用的算法的挖掘过程:包括创建数据源、创建数据源视图、创建挖掘结构(主要参数的设置)、处理和浏览挖掘模型。如关联规则,要求学生分析挖掘的模型,找出有价值的规则出来。

5 结论

为迎接大数据时代带来的互联网经济机遇,很有必要同时也是时代迫使在应用型本科中开设数据挖掘课程。对这一类学校的教学也是一个挑战,需要老师们在教学过程中不断摸索和改进。在教学过程中,需要针对应用型本科生的学习能力、知识结构,设计好教学内容并采用适当的教学方法,从而使学生对学习的内容感兴趣,改进课堂教学效果,以提高学生实际动手能力,使学生对数据挖掘课程的整体结构、基本概念、经典算法有较深入理解和掌握,最终达到教学目的。

参考文献:

[1] 徐金宝.对应用型本科生开设数据挖掘课程的尝试[J].计算机教育,2007(14):27-29,57.

[2] 李姗姗,李忠. 就业需求驱动下的本科院校数据挖掘课程内容体系探讨[J].计算机时代,2015(1):60-61,64.

[3] 张艳.大数据背景下的数据挖掘课程教学新思考[J].计算机时代,2014(4):59-61.

[4] 李忠,李姗姗. 应用型本科院校IT专业数据挖掘课程建设[J].计算机时代,2014(11):65-69.

数据挖掘课程设计论文例3

中图分类号:G642 文献标志码:A 文章编号:1006-8228(2014)11-65-02

Course construction of data mining course for IT specialty in application-oriented university

Li Zhong, Li Shanshan

(Institute of Disaster Prevention, Sanhe, Hebei 065201, China)

Abstract: Aiming at the content differences of data mining course in the application-oriented university, the training objectives and requirement for different specialty are analyzed. The content system and hours arrangements of data mining courses for IT specialty starting are given from the three major functions of data mining. Based on the last two years' student teaching effectiveness of data mining courses, it is concluded that combining theoretical and experimental training content settings with appropriate teaching methods can improve learning interest, stimulate learning enthusiasm, improve operating ability and achieve training objectives.

Key words: data mining; course content system; IT specialty; teaching effectiveness

0 引言

毋庸置疑,我们正处在信息时代。根据国际互联网管理机构2012年的数据,每天全球互联网流量累计达1EB(即10亿GB),这意味着每天产生的信息量可以刻满1.88亿张DVD光盘[1]。要想在如此浩瀚的数字海洋里寻找有用的信息,简直是大海捞针!因此数据挖掘技术应运而生。大概十几年前,微软创始人比尔・盖茨就预言,数据挖掘技术将是未来计算机发展的重要方向之一,事实也的确如此。

数据挖掘技术诞生于20世纪80年代末,是统计学和计算机科学的交叉学科,涉及数据库技术、统计学、机器学习、神经网络、模式识别、知识发现、专家系统、信息检索、高性能计算、可视化以及面向对象程序设计等若干学科知识,在商业、金融、保险、体育、勘探、生物技术等领域获得广泛应用。也正因为该课程涉及的内容宽泛,要求知识面宽广、数学基础扎实等,前几年主要在研究生阶段开设。但是随着信息技术的快速发展,本科生能力要求提高,知识传授的重心下移,很多高校已在本科阶段开设数据挖掘课程,以提高大学生解决实际问题的能力,进而为课程设计和毕业设计打下必要的基础[2]。

1 国内高校本科数据挖掘课程开设现状

通过院校实地交流,结合网络搜索,我们已经收集了十几所高校的数据挖掘课程教学大纲,开设专业包含有计算机类专业、经济统计类专业、电气自动化类专业、生物技术专业等,各专业根据自己的人才培养目标制订教学大纲、教学计划、考试大纲等,其内容存在很大差异。其中985、211高校主要以英语授课,采用国外原版教材,课程内容涉及算法、编程较多;而一般院校多采用中文教材,根据专业不同,内容也有很大差异。

经济统计类专业开设数据挖掘课程,要求学生了解什么是数据挖掘,以及如何用数据挖掘来解决实际问题,了解如何通过几种数据挖掘技术建立数学模型,了解主流数据挖掘系统的特点,能够安装、使用,要求能够熟练使用典型的挖掘工具对实际数据进行分析,具备从数据资源提取信息与知识并进行辅助决策的基本能力。

数据挖掘课程设计论文例4

0.引言

随着经济、科技和信息技术的飞速发展,特别是网络技术的发展,数据的产生和存储能力有了很大程度的提高。数据挖掘的出现,为人们提供了一条解决“数据丰富而知识贫乏”困境的有效途径Ⅲ。所以很多高校,包括世界上一些著名高校都开设了数据挖掘课程。课程的基础理论部分一般包括数据预处理、关联规则、分类、聚类、时间序列挖掘、Web挖掘等内容。该课程使学生学会分析研究数据挖掘中数据预处理、常用算法、结果的可视化等技术,并培养学生的数据抽象能力,帮助学生形成科学思维和专业素养,使他们毕业后在就业上有更多的选择。

笔者将探讨基于实例教学的数据挖掘课程的教学内容安排,强调淡化学科背景,加强算法的应用性训练,将实际的例子贯穿于教学中,并重新组织授课内容、安排实践环节,教会学生学以致用。

1.教学现状分析

1.1课程本质

数据挖掘原理与算法涉及的学科领域很宽泛。其最终目的是在数据中挖掘出可供人们利用的知识和信息,因此数据挖掘技术要从数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等领域汲取营养。另外,每个学科都在进行着日新月异的发展变化,数据挖掘技术遇到的挑战也为相关学科领域的深入研究提供了新的契机。由于课程难度较大,很多高校把这门课程作为研究生的专业课程,也有院校将此课作为本科生高年级选修课开设脚。但是本科生开设这门课程的普通院校较少,我们能借鉴的教学经验有限。

1.2数据挖掘课程教学环节的弊端

①某些学校对本科生开设的数据挖掘课程,其教学过程对理论的探讨过多,与应用存在距离,没有体现出这门课程面向应用的特质,缺少对学生工程能力的训练,存在学生在学了这门课程后不知道能干什么的现象。

②教学形式呆板单一。传统的教师讲、学生听的教学模式,很难引起学生的探究兴趣,不利于发挥他们自身的能动性和创新动机。

2.选择恰当实例贯穿数据挖掘课程的教学过程

烟台大学计算机学院所开设的数据挖掘课程在教学上安排了6章内容,涉及3个实例(其中两个是实际生活中的项目课题):第1个是用于房产信息调查的房产客户关系管理系统;第2个是用于烟台大学督评中心评教文本分类的中文文本数据挖掘系统;第3个是用于国家葡萄酒检测中心的数据分析的葡萄酒成分数据挖掘系统。

2.1房产客户关系管理系统

在讲述房产客户关系管理系统时内容涵盖绪论、知识发现过程和关联规则3章,重点讲授内容包括:

(1)数据仓库。住房管理数据仓库中的数据是按主题组织的,可从历史观点提供信息。数据挖掘技术能按知识工程的方法完成高层次需求,可以发现蕴藏在数据内部的知识模式。挖掘后形成的知识表示模式可为企业决策提供支持。

(2)通过对客户信息进行分析,阐述关联规则的参数:support、confidence、expected confidence,并简单介绍关联规则中的多维、多层次等拓展知识。

(3)关联规则挖掘。①讲授关联规则挖掘的Apriori算法;②讲述布尔关联规则的概念,对处理后形成的交易数据库进行布尔关联规则挖掘,将问题转化为寻找以决策属性为结果的规则;③将关联规则挖掘应用于客户关系管理的最终目的是努力将潜在客户转变为现实客户,将满意客户转变为忠诚的终生客户,提高客户满意程度,降低市场销售及宣传成本,增加利润率。

(4)设minsup=10%,minconf=70%。在统计的各类人群中猎取咨询的渠道主要是杂志、报纸、互联网和电视。经试验统计后得到以下有关知识:①满足age>50 AND职业=“工人”的客户占所统计总人数的9.7%;其中满足age>50 AND职业=“工人”AND渠道=“TV”的客户占92%。②符合学历=“大专”AND职业=“工人”的客户占所统计总人数的24.8%,其中满足学历=“大专”AND职业=“工人”AND渠道=“newspaper”的客户占82%。③被统计人群中满足income=“5000-9000”AND职业=“教师、医生、公务员”的客户占所统计总人数的32.7%;其中满足income=“4000-6000”AND职业=“教师、医生、公务员”AND渠道=“杂志”的客户占83%。④被统计人群中满足学历=“本科”AND income≥“10000”的客户占所统计总人数的占11.6%;其中符合学历=“本科”ANDincome≥“8000”AND职业=“公司经理”AND渠道=“杂志”的客户占86.5%。

(5)教师要分析Apriori算法的瓶颈和改进,介绍Close算法和FP-树算法,并且要求学生们掌握这3种经典算法。

2.2中文文本数据挖掘系统

中文文本数据挖掘系统围绕评教分类模型的建立讲述特征选择和主要分类算法。根据烟台大学教学督评中心提供的学生对教师的中文评教文本,利用分类的方法找出其评价的倾向性,结合教材,重点讲授了以下内容:

1)特征选择。

①介绍有监督、无监督和半监督的特征选择方法。②介绍使用分词软件后,统计词频,去掉小于阈值的低频词。③对比词频率、IG值(信息增益)、期望值差异对分类结果的影响留取特征词。

部分数据示例如下:用特征选择的方法对重要的属性进行抽取,略去对分类影响不大的属性,达到降维的目的,把特征选择作为预处理。我们选用517条主观评价作为训练样本,其中233条留言是一般评价,采用以下3种方式进行特征选择:词频率、IG值(信息增益)、期望值差异。不同方式特征选择对分类准确性的影响如表1所示。

2)分类。

在介绍常用的分类基础知识和决策树、ID3、朴素贝叶斯分类、最近邻分类算法之后,又介绍了基于潜在语义分析的降维技术,讲授了支持向量机(SVM)适用于文本分类的原因。布置给学生的任务是用爬虫获取网评,作倾向性分析。

评教文本分类统计后的结论是:将降维技术和支持向量机算法结合在评教模型的建立过程中,研究讨论的主要内容有:①各个指标取不同值对分类的影响,这些指标主要集中在特征抽取和选择、保留词性和降维维数等几方面;②对分词后的文本进行特征选择,筛去了词频数小于4的文本;③降维至30维,并适当设置SVM中的可变参数,找到合适的训练一测试样本的比例,最后综合出一个现有条件下的最佳分类模型。

2.3葡萄酒成份数据挖掘系统

葡萄酒成份数据挖掘系统介绍数值数据的预处理和聚类2章内容。对葡萄酒成份的分析是根据所提供的酒中各成份的含量数据,采用聚类或分类的方法确定某种葡萄酒的种类,比如是红葡萄酒、白葡萄酒还是甜葡萄酒。围绕这个问题我们介绍了如下内容:

1)数值数据的预处理。

①介绍葡萄酒中各个属性的含义和取值范围;②讲授数据的离散化技术,如等深、等宽、聚类技术;③讲授本例中使用的m一估值计算对数值属,1生的离散化技术;④讲述本例中如何避免0值出现及去噪声技术。

葡萄酒中各成份的含量数据如表2所示。

2)聚类。

在介绍聚类的基本知识和常用算法(如k均值、k中心点、DBSCAN技术)之后,讲解了:①本课题使用的层次聚类算法。在测试结果时通过测试样本和分类样本的不同比例,对结果进行了对比。②讲述了用朴素贝叶斯分类计数对这一问题的分类处理,同时对比了聚类和分类算法在同一问题上的结论差异。利用朴素的贝叶斯分类器可以完成预测目标,根据训练样本建立分类器,对待测样本进行预测,准确率可达到90%以上。③引导学生思考对问题的处理可以联合使用各种算法,并分析各种算法对结果的影响,从而找出解决问题的最佳方案。

2.4利用已知算法和实例讲授Web挖掘技术

因特网规模庞大、结构复杂、动态变化性大,蕴含大量的信息。将Web上丰富的信息转变成有用的知识正是Web挖掘的意义所在。用之前中文文本分类的方法引导学生在一些购物网站中下载对商品评论的中文文本,抽取特征词,进行倾向性分析,使学生熟悉支持向量机的分类方法,分词软件的使用及文本挖掘的整个过程。

3.结语

文章在前期制定应用型本科生数据挖掘课程教学大纲的基础上,针对数据挖掘课程内容多学科交叉的特点,在教学中提出淡化学科背景,注重算法应用与实践,以客户关系管理、葡萄酒数据分析、中文评教文本分类等实例作为授课内容主线,让实例教学始终围绕着典型的算法和前沿知识展开的教学方式。在今后的教学工作中,我们还应该不断站在学科发展的前列,经常更新实例,使其更好地融入教学,将教与学有机统一,取得更好的教学效果。因此我们还有大量的工作需要探索研究。

参考文献:

[1]宋成,李晋宏,项目驱动的数据挖掘教学模式探讨[J],中国电力教育,2011(27):116-177.

[2]刘云霞,统计学专业本科生开设“数据挖掘”课程的探讨[J],吉林工程技术师范学院学报,2010(6),20-22.

[3]徐金宝,对应用型本科生开设数据挖掘课程的尝试[J],计算机教育,2007(7):27-29.

数据挖掘课程设计论文例5

中图分类号:TP311 文献标志码:A 文章编号:1006-8228(2014)04-59-03

Abstract: With the advent of the era of big data, data mining has become an essential technology which has important social value in the field of business, healthcare, manufacture and administrative management, etc. In many universities, the course of data mining is an important course which is integrated with other disciplinary knowledge and plays an important role in talent cultivation. According to the characters of big data, the knowledge hierarchy data mining is presented, and case teaching and new teaching evaluation method in graduate students' data mining course are discussed. The result shows that the effect is good and it is welcomed by graduate students.

Key words: data mining; knowledge hierarchy; case teaching; teaching evaluation

0 引言

近年来,传统科学研究(如天文物理学、生物医学等)、电子商务、网络搜索引擎(如GOOGLE和百度等)和物联网等产生的数据已经以PB或ZB(10的21次方)来计算。以分布式数据仓库、流计算的实时数据仓库技术为代表的最新数据存储技术,让全世界的数据存储量越来越大,由人、机、物三元素高度融合构成的信息化的社会引发了数据规模的爆炸式增长和数据处理模式的高度复杂化,大数据(Big Data)时代已经到来[1]。因此,数据具有越来越强的可视性、可操作性和可用性,能够越来越细致、精准、全面和及时地反映人的思维、行为和情感,以及事物的特性和发展规律,要想让这些大数据以更加有效的方式为提升人类各方面的生产力和生活质量服务,离不开以非平凡的方法发现蕴藏在大量数据集中的有用知识为根本目的数据挖掘技术的支撑。

市场上对于有大数据背景知识又懂数据挖掘技术的专业人才的需求也将越来越大,作为一名高校计算机专业教师,根据自己三年来研究生数据挖掘课程的授课经历,结合当前大数据的时代背景,对数据挖掘课程教学进行了新的思考和探索。

1 明确大数据背景下学习数据挖掘知识的重要性

1.1 大数据的定义

“大数据”是最近几年才出现的新名词,尚无统一的概念,维基百科上的解释是:大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。

1.2 大数据的特征

大数据的特征可以总结为四方面,即4V。

⑴ 数据量浩大(Volume)――数据集合的规模不断扩大,已从GB到TB再到PB级,甚至开始以EB和ZB来计数。例如:1立方毫米电子显微镜重建出的大脑突触网络的图像数据就超过1PB。

⑵ 模态繁多、异构(Variety)――大数据面向的是一切计算机可以存储的数据格式,类型包括结构化数据、半结构化数据和非结构化数据,包括互联网上的各种网页、图片、音频、视频、文档、报表,以及搜索引擎中输入的关键词、社交网络中的留言、喜好和各种传感器自动收集的监控结果等等。

⑶ 生成快速(Velocity)――大数据往往以数据流的形式动态、快速地产生,具有很强的时效性,同时,数据自身的状态与价值也往往随时空变化而发生演变,数据的涌现特征明显。

⑷ 价值巨大(Value)――数据显性或隐性的网络化存在使得数据之间的复杂关联无所不在,将对信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的研究和应用起到革命性的作用,价值巨大[2]。

Gartner、IBM和牛津大学2012年联合的关于大数据的研究报告指出:交易数据、记录数据、事件和电子邮件是四大主要数据;数据挖掘,数据可视化,预测,建模与数据优化是五大数据能力[3]。大数据的潜在价值只有通过数据挖掘才能显现,因此,国外的Google、IBM、Amazon、Oracle、Microsoft、EMC;国内的腾讯、百度、新浪、淘宝等知名企业已经开始着眼大数据,从不同角度进行数据挖掘,以便改善自身服务,创造更大的商业价值。所以,作为高校教师,首先要让学生了解大数据的基本特点,明确数据挖掘知识和技术对当今社会的重要意义。

2 利用概念图,构建数据挖掘课程的知识体系结构

在大学里,设置一门课程,不能只关注这门课程所含的内容,更要考虑教育培养学生基本专业能力、可持续发展能力等本质性的问题。

数据挖掘是一门结合数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等多门学科知识的交叉学科[4]。而且,该课程既包括各种理论知识,又离不开相关的实践技术,整个教学过程是培养和提高学生的创新能力和综合解决问题能力的重要途径。因此,针对计算机专业的学生,教学的首要任务是构建起整个课程的核心知识结构(如图1所示),同时,简单介绍相关的统计学、机器学习等计算机专业学生不太了解的非专业知识。

课程核心知识结构是教学的主线,是学生必须要掌握的。首先,让学生明确数据挖掘前要先经过预处理,再存入数据仓库;其次,针对具体情况利用相关的挖掘工具和挖掘算法进行挖掘;最后,挖掘结果以可视化的形式有效地展示给用户。教学的重点是挖掘算法和挖掘工具。对于挖掘算法,以数据挖掘国际会议ICDM(the IEEE International Conference on Data Mining)的专家评选出的十大经典算法(见表1)为主[5],结合相关实例给学生介绍各种算法的基本思想和相关概念,重点介绍使用较多的分类、聚类、关联、序列和机器学习这几种算法,先为学生打下良好的理论基础。

3 以实例为切入点,注重理论结合实践

数据挖掘课程主要针对我校研究生开设,考虑到学生就业和当前市场需求,以及课程本身实践性强的特点,在教学过程中要注重理论结合实践,注意培养学生解决实际问题的能力。因此,在给学生介绍目前常用的数据挖掘工具(如IBM Intelligent Miner、SAS Enterprese Miner、SPSS Clementine、Weka等)的基础上,结合市场应用需求,以实例为切入点,分别分析数据挖掘在互联网日志分析、电子邮件分析、互联网广告挖掘、电子商务、移动互联网等各大领域中的实际应用情况和成功案例(表2)。同时,还可以从内容挖掘、结构挖掘和用户访问模式挖掘这三个方面简单介绍WEB挖掘的基本知识[6]。这样,课程本身就脱离了枯燥的理论,让学生对数据挖掘有了感性认识,激发学习兴趣。

⑵ 过滤垃圾邮件。\&互联网广告\&⑴ 通过大数据挖掘,精准定位各类客户的广告形式;

⑵ 准确评估广告效果。\&电子商务\&用数据提升整体营销;通过日志挖掘做客户分析;用序列算法分析商品上架时间;用聚类算法对商品分类、提升会员管理。\&移动互联网\&⑴ 锁定用户的数据价值,通过地理位置信息挖掘出有价值的东西;

⑵ 文本挖掘。\&]

在教学过程中,贯穿以“能力培养为目标”的实践教学理念,提供有效的网络资源,让学生自己动手动脑,分析成功案例,完成教师给定的虚拟挖掘任务,强化学生参与意识,教师在以学生为主体的教学过程中当好指导者和激励者,从而充分调动学生的主观能动性,掌握不同应用领域大数据的挖掘问题的基本解决方法,培养学生的创新能力。例如,给学生一个文本挖掘的分类题目,让他们熟悉从原始数据的清洗、预处理、降维、建立模型、测试、得到结论等一系列环节。

4 改革教学评价,实施分类化评价

数据挖掘课程是一门融合了多个学科的实践性很强的课程,对应的考核方式应该与其他专业课程有所区别,应该更重视学生学习过程中的表现和能力的提升。

理论知识的考核注重学生对数据挖掘基本概念、挖掘流程和主要挖掘算法的掌握情况,主要以试卷考核的方式为主,注意主观题和客观题的数量比例,采用统一考核方式和评判标准。对于实践技能的考核,主要强调的是学生对不同类型数据进行挖掘时应掌握的相关软件使用技能的考查,考核时除了要体现学生对实验原理的掌握外,更重要的是要反映出学生在实验方法的掌握、设计、操作过程中的实际能力,我们取消了以往把一次性考试结果作为总成绩的方法,而把学生平时课堂实验成绩作为总成绩的主要部分,考核成绩占课程总成绩一定比例。

教师教学质量的评价与学生考核成绩相对应,可采用单独评价和统一评价两种方式。单独评价是指将社会实践作为一个独立的质量评价过程对教师教学质量进行考核;统一评价是指将教师实践教学与理论教学综合起来统一考核,以一定比例计入教师总体评价。

无论是对学生,还是对教师,这种分类化的教学评价方式,不仅有利于学生实际能力的培养,而且对教师的教学水平也是一种促进,有利于课程教学质量的不断提高。

5 结束语

大数据时代,谁能发掘出数据背后的巨大商业和社会价值,谁就能在激烈的市场竞争中处于优势。数据挖掘作为计算机应用专业的研究生核心课程之一,也是学生今后就业必需的专业技能之一。以往的教学过程理论性强,枯燥乏味,考核形式单一,学生学习热情普遍不高,不利于学生专业能力的培养。本文结合当前大数据的时代背景,在构架课程核心知识体系的前提下,结合实际应用领域和案例,分析数据挖掘常见算法和常用工具,强调学生的参与和主观能动性的发挥,而采用分类化的教学评价又能比较客观、公正地评价学生对课程知识和专业实践技能的掌握情况以及教师的教学效果。课程开设三年来的教学实践证明,学生综合运用计算机专业知识的能力得到提高,理论与实践结合的创新能力得到锻炼,教师在教学过程中不断完善了自身的知识结构,提高了教学水平,实现了教学相长,得到了学生的好评。

参考文献:

[1] Anand Rajaraman, Jeffrey David Ullman.大数据:互联网大规模数据挖掘与分布式处理[M].人民邮电出版社,2012.

[2] 李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012.8:8-15

[3] Jiawei Han,Micheline Kamber,Jian Pei等.数据挖掘概念与技术(第3版)[M].机械工业出版社,2012.

数据挖掘课程设计论文例6

大数据时代的到来,给人们的生产和生活带来极大的变革,由此也引起了社会各界的广泛关注。目前,大数据已经与我们的日常生活息息相关,对各行业的发展也产生了至关重要的作用。数据挖掘技术是信息化的产物,也是现代企业生产和发展过程中需要用到的重要技术之一,因此对数据挖掘技术人才的需求越来越多,《数据挖掘》学科由此得到了快速的发展。本文将对《数据挖掘》课程的教学展开论述,希望能引起同行的共鸣。

1 大数据介绍

1.1 大数据含义 大数据是网络技术发展到一定阶段出现的新兴名词,是指数量巨大、结构复杂、类型众多的数据构成的集合,大数据是以云计算的共享平台为基础,通过数据的交叉复用,形成新的智力资源和知识服务能力。大数据处理需要分布式计算机构架才能完成,仅依靠单台的计算机无法实现大数据处理,因此大数据处理就是借助云计算的分布式处理、分布式数据库、虚拟存储技术对大量数据进行整合处理的过程。

1.2 大数据特征 大数据具有数量大(Volume)、类型多(Variety)、价值高(Value)和速度快(Velocity)的特点,简称为“4V”。大数据处理的数据规模不断扩大,已经由GB、TB级扩展到EB或ZB级,这是普通计算机硬盘容量所无法达到的;大数据对象包括结构化数据、半结构化数据以及非结构化数据,存储对象由传统的文本内容扩展到了音频数据、视频数据、搜索引擎中关键词等,其数据的类型繁多复杂;数据之间的关联性不断加强,已经对社会经济、系统、信息学、网络学以及心理学等多个领域产生了深远影响;大数据的产生形式以数据流为主,能瞬时产生,具有很强的动态性和时效性。

2 《数据挖掘》课程教学探讨

2.1 教学内容 《数据挖掘》是一门综合性的学科,学科内涉及的主要内容有数据库技术、统计学、信息检索、计算机技术以及可视化技术等,需要不同的学科交叉学习,因此,该课程具有很高的理论性和实践性。在教学过程中,不仅要注重基础理论知识的培养,还要加强对学生创新能力以及问题解决能力的培养。课程的知识结构可按照表1所示组建。

数据挖掘前需要进行预处理,然后才能存入数据仓库,再利用相关的挖掘工具和算法,按照挖掘流程进行数据挖掘,最后将挖掘结果以可视化的形式展示出来。在整个教学过程中,教学重点是挖掘工具和挖掘算法,其中挖掘工具主要有通用挖掘工具和专用挖掘工具两类,而挖掘算法则包括分类法、关联分析法、聚类法等10种方法。学生不仅要了解各类算法的相关概念,还要能利用算法对实例进行分析。

2.2 《数据挖掘》课程教学探索

2.2.1 培养数据意识 《数据挖掘》是以数据为驱动的理论分析和应用课程,具有抽象性和具体性,抽象性是指数据挖掘过程中的理论、技术和方法具有很强的抽象性,学生在有限的时间内无法理解和消化;具体性是指研究内容比较客观,具有一定的解释性和理解性。针对以上特点,教师在组织教学时,应先培养学生的学习兴趣,使学生产生一定的数据意识。具体安排时,可先安排2-4个学时讲解数据及其主要应用,让学生对大数据的产生、影响和应用等内容做初步了解,使学生对该课程的学习目的和实际意义产生客观认识。

2.2.2 深化基础,加强理论体系 大数据特征对数据分析技术提出了更高的要求,现有的数据分析技术难以满足实际需求,这就说明了数据挖掘技术的应用和发展将面临更严峻的考验。数据挖掘技术涉及的知识内容较多,在大学课程体系中难以全部开设,给学生的学习带来很大阻碍。为解决以上问题,开封大学采取措施:将《数据挖掘》课程授课对象设定为高年级学生,经过两年或三年基础课程的学习,学生已经具备了一定的理论基础,在学习《数据挖掘》课程中,就可节约大量时间学习课程的核心内容。

2.2.3 教学方式多样化 理论来源于实践,也可以指导实践;实践是检验理论的唯一途径。《数据挖掘》具有很强的抽象性,学生无法在有限的学习时间内对众多概念产生足够清晰的认识,只能借助实践教学使学生明白课程内容的原理及其实用价值。在讲解基本概念、原理或者算法时,可采取案例教学法、任务驱动教学法、项目教学法等,将理论与实践相结合,提高学生的学习兴趣和操作能力。因此教师应在教学过程中注意教学方法的选择和使用,充分体现出学生的主体地位和教师的主导作用,通过一系列理实一体化教学方式,提高教学效果。

2.3 改革教学考核方式 《数据挖掘》是一门融合多种学科的实践课程,因此,课程的评价方式也应做出一定的改进。在考核时,应包括理论基础和实践部分考核,除考查学生对基本概念、挖掘流程等内容的掌握情况外,还应对学生的实践操作技能进行考核,采用多种方式对学生的学习进行评价,提高考核的有效性和公平性。

3 结语

随着信息化技术的不断发展,现代企业生产运行对信息化管理系统的依赖性越来越高,现代社会已经进入了大数据时代,在这种时代背景下,数据挖掘技术得到了社会各界的广泛重视,企业对该专业的人才需求也越来越多,这就为《数据挖掘》课程的发展提供了有利条件。高校及任课教师应认清形势,积极调整教学理念,通过优化课程内容,改进教学方式和考核方式,提高课程的教学效果,以培养高专业素养和高操作技能的复合型人才。

参考文献:

数据挖掘课程设计论文例7

中图分类号:C37文献标识码: A

一、前言

网络技术在不断发展,科学技术也在不断进步。高校的信息化建设也蒸蒸日上。如何把数据挖掘技术很好的应用到学校的信息化建设中是学校在信息化建设中十分重要的一个研究课题。从数据挖掘的定义和特点开始分析,对其中的一些问题展开讨论。

二、高校网络教学平台信息化建设的现状

随着我国高等教育规模的快速发展、信息技术的广泛应用,我国高等教育的教学理念、教学模式、教学环境和教学手段等都有了重大变革,课程教学模式与教学管理模式得到了不断的改进。网络教学平台以其灵活的、开放的、基于资源的特点日益成为现代教育过程中不可替代的部分,不断增长的学生需求和网络所提供的开放式学习机会为网络教学平台的研发、应用和推广提供了优越的发展空间。然而,由于近年来许多高校不断扩招,造成了在校学生规模的剧增,给学校的教学工作带来了许多影响教学质量的问题。而现今的网络教学平台,多是提供教学大纲、教学课件、授课教案、单元测试等教学资源,供学生课后学习。通过信箱、留言板、课程论坛等提供师生实时或非实时的交流。这样的教学平台,只能将知识给学生,而在学生访问教学平台的过程中,学校并无法获知学生的反馈信息。而实际教学工作展开的过程中,教师需要得知学生的学习过程中出现的问题和状况,并且提供帮助,以此来确保教育教学工作的全方位展开,为课程改革的推行做出贡献,充分利用网络教学平台,把资源合理的优化使用。

三、数据挖掘技术

通过笔者的分析可以看出,我国的高校信息化建设还存在许多不足。其中比较突出的问题是在传统的网络教学平台中,学校无法通过学生的活动对学生未来的发展趋势或者是规律做出预判。随着技术的不断发展,越来越多的高校开始考虑将数据挖掘技术应用到网络教学平台中,通过对学生点击访问教学平台的数据进行分析和挖掘,对学生学习方式、学习态度、知识的把握度、学习反馈等有了科学的了解,对今后的教学改革、课程设置、教学平台设置等工作提供了决策支持。

1、数据挖掘定义

数据挖掘是一门新兴的学科,它主要是面向决策支持,为决策者提供有价值的信息。数据挖掘又是一个交叉性的科学领域,涉及数据库技术、统计学理论、机器学习技术、模式识别技术、可视化理论和技术等。有人从商业角度将数据挖掘(Data Mining)定义为:数据挖掘在商业活动中的主要作用是对商业活动中的业务数据进行分析处理,用模型化的方法对数据进行全方位分析,帮助减少商业活动中的风险,帮助企业管理者做出决策。

2、数据挖掘分类

由于所用的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同,从而产生了大量的、各种不同类型的数据挖掘。

(一)根据所挖掘数据库类型的不同来分类,可以分为:关系型数据挖掘、对象型数据挖掘、对象-关系型数据挖掘、事务型数据挖掘、数据仓库的数据挖掘。

(二)根据所挖掘的知识类型来分类,可以分为:特征化、区分、关联、分类、聚类、孤立点分析(异常数据)和演变分析、偏差分析、相似性分析等分类。

(三)根据所采用技术,可以分为:自动数据挖掘、证实驱动挖掘、发现挖掘和交互式数据挖掘。

(四)根据数据挖掘应用来划分,可以分为:金融数据的数据弯角、电信行业的数据挖掘、DNA序列数据挖掘、股票市场数据挖掘、WWW数据挖掘等。

不同的应用通常需要集成对于该应用特别有效果的方法,因此,普通的、全功能的数据挖掘并不一定适合特定领域的数据挖掘任务。

3、数据模块中采用的几项典型技术如下:

(一)聚类分析。聚类是把一组数据对象设计成一类,以便让同一类中的对象具有最高的相似性。而类间具有最大的差异性,这种方法被用于机器学习、模式确认、图象分析、信息检索等领域。

建立的每一个聚类可以看成是一类对象,通过它导出规则。聚类在教育中的应用能帮助机构组合学生个人相似的班,把学生分成类,以便使学生在一类中相互之间更相似,或者说水平更平均。

(二)决策树。决策树是一种决策支持工具,它使用树型图显示可能的结果,包括概率事件结果和源的关系,成本和用途功用,它是一种方式显示一种算法。决策树常被用于行为研究特别是决策分析,去帮助识别一种策略,主要是要达到的目标;决策树作为一种描述性工具手段用于计算条件概率;决策树还可以用于分析一个机构的准入规则。同时它对小数据样也能给出好的结论。这种方法能适用于不同数量级的编目变量。

(三)关联规则。反映一个事件和其他事件之间依赖或关联的知识,如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测,可以用关联规则的形式表示规则形式。

(四)分类。找出描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象。

(五)回归。通过构造函数以符合数据变化的趋势,这样可以用一个变量预测另一个变量。

四、数据挖掘在高校教育信息化中的应用

高校教育信息化是整合先进的技术,运用到高校教育管理体系之中,使教育教学、管理工作和校园的文化生活更网络化、信息化,提高教育质量和效率,形成一种全新的教育和管理模式。高校教育信息化所产生和积累的数据,为我们进行数据挖掘提供了有效的数据。数据挖掘可以应用到高校教育信息化的各个方面,如教学评价、课程设置、网络教育、分析学习者特征、干预师生行为、辅助考试等方面。

1、教学评价

教学评价就是根据教学目标、原则的要求,利用收集到的信息对教学活动以及教学成果进行评价的过程,主要包括对学生学和对教师教的评价。随着信息化的快速发展,高校教育信息化积累了大量的学生成绩、行为纪律、处罚奖励等数据,利用数据挖掘的方式来进行分析处理,可以客观准确的得到学生的评价结果,及时纠正学生的不良的学习行为,同时还能尽量避免教师因主观作用对学生做出的不公平的、不客观的评价。将数据挖掘的关联规则运用到教学评价的数据中,使教师能够认识到自身的教学情况以及学生的学习和个性特点,并给予合理的意见,对今后的教学工作有一定的指导意义。

2、合理设置课程

高校学生所进行的课程学习是循序渐进的,对于课程的学习要一步一步按照先易后难来进行,而且由于教师、学生以及班级的文化氛围的不同,同一年级的不同班级在学习相同课程时也存在很大的差异。这种情况下,教务管理人员和任课教师就很难根据学生的成绩做出客观、合理的判断,从而做出教学进程的决策。因此,要借助于数据挖掘技术,从大量已有数据中挖掘出有用的信息和内容,分析各数据之间存在的关系,找到影响学生成绩的因素,然后在此基础上,对课程设置做出合理的安排。

3、个性化、智能化网络教育

个性化、智能化网络远程教育充分的利用了数据挖掘的技术,远程教育的顺利开展得到保障。首先根据学生所提供的信息,对不同层次的学生提供不同的学习内容和模式,进行因材施教。其次,对已保存的学生的信息进行数据挖掘,利用已有的资源,对课程进行重新组合,使之更符合教学规律。最后通过对学习者学习行为进行数据挖掘,了解学习者的浏览模式,重新进行页面之间的链接,以符合学习者的访问习惯。

4、学习者特征分析

根据系统中已有学生的基本信息、成绩信息、学习过程数据、偏好、知识结构等,利用数据挖掘功能分析学生特征,从获取的知识帮助学生修正自己的行为。教师利用挖掘到的知识帮助学生修正学习行为、提高学习能力。

对学习者特征的分析在教育活动中具有重要的地位。它不仅是教学设计的前提,是教学成功的关键。学习者特征包括学习者的知识结构和学习风格。学习者的知识结构是学习者已经学习的或即将学习的内容。学习风格包括学习者的生理、心理和社会特征。利用数据挖掘来分析学习者的特征,不仅有助于学习者改进自己的学习行为,而且能提高学习者的学习能力,完善其人格,有利于学习者素质的全面、和谐发展。

5、在教学评价方面的应用分析

高校信息化系统长期运行中产生了海量数据,学籍数据、考勤纪律、招生就业、奖惩等各方面的数据累积在信息系统中,通过使用数据挖掘技术可帮助教师、学生、学校管理决策者有效地利用这些数据,建设有效的评价系统。

6、就业预测分析

通过对历史中毕业生的就业数据进行数据挖掘,对毕业生就业因素的相关性进行分析,如综合成绩,英语成绩,计算机成绩,是否学生干部等,对学生能否就业的影响因素进行挖掘,得出毕业生的就业预测模型,这样可以对学生未来是否能就业,对就业作出预测,对就业好的学生类型推广,对不易就业的学生类型,修改培养方案和模式。

五、结束语

通过数据挖掘技术可以加强高校的信息化建设水平,对学生的学习和就业能够进行有效的指导,对高校的整体发展也有促进的效果和作用。希望各大学校能够加快对数据挖掘技术的学习和应用,以此来促进自己学校的建设和发展。

参考文献

[1] 胡春红.数据挖掘技术在高校信息化管理中的应用[J]. 长江大学学报(自然科学版)理工卷. 2010年03期,11-12

[2] 孙中祥,彭湘君,杨玉平,贺一.数据挖掘在教育教学中的应用综述[J]. 智能计算机与应用. 2012年01期,99-100

[3] 余永红,向晓军,高阳,商琳,杨育彬.面向服务的云数据挖掘引擎的研究[J]. 计算机科学与探索. 2012年01期,45-46

[4]胡春红 数据挖掘技术在高校信息化系统中的应用长江大学学报(自然科学版)理工卷2010-06-15期刊,15期,67-69页

[5]徐建锋; 董桂娟; 朱颖; 袁家三 谈数据挖掘技术在高校图书馆中的应用吉林化工学院学报2008-10-15期刊,15期,109-110页

[6]黄小红; 王倩 数据挖掘技术在高速铁路SCADA中的应用研究中国电气化铁路两万公里学术会议论文集2005-12-01中国会议,12期,88-89页

数据挖掘课程设计论文例8

中图分类号:G642.0?摇 文献标志码:A 文章编号:1674-9324(2014)15-0197-02

一、引言

随着数据挖掘、商务智能技术的快速发展与广泛应用,作为综合型应用型人才的信息管理专业的本科生必须在掌握一定理论知识的前提下熟悉数据挖掘的实践操作,能够根据实际数据构建数据仓库的多维模型、进行联机分析处理,并能结合案例主动思考分析,熟练选择合适的数据挖掘方法解决管理领域的问题,得出数据挖掘的结论。这就对数据挖掘课程的实践教学提出了很高的要求。数据挖掘是一门与多学科交叉的综合课程,其课程内容丰富、课程案例和使用工具具有多样化特征,这使得实践教学设计的方案的可选择性增强了,同时也对选择适合的内容、案例与工具并设计成一个完善的系统化的实验增加了难度。

二、基于建构主义理论进行实践教学设计

1.建构主义理论与实践教学目标。建构主义理论强调,学生通过以往的学习和经历已经形成了对客观事物的基本理解和认识,已具备了一定的知识结构,学习的过程是学生个人的知识储备与知识结构和外界影响相结合,并在结构过程中继续主动地建构自己新知识结构的过程[1]。

基于建构主义理论,给出数据挖掘课程实践教学的主要目标即为在原有理论知识理解的基础上,在新的教学实验情景下不断学习和理解,最终熟悉了实验情景、掌握了课程设计的应用,还能改达到对原有知识的深刻理解,进而能在新的实验情景和新的应用案例下有启发式的想法和思路,进行独立的思考和研究。具体包括:巩固已学习知识、加深对理论知识的理解,实验内容设计与教材理论体系一脉相承,有助于学生系统化理解本课程;深刻理解数据挖掘多步骤之间以分析为驱动、以数据相衔接的前后关系;训练学生对管理问题的抽象能力,培养学生学习兴趣。通过管理实例深刻体会到数据挖掘方法的重要性和实用性,培养学生对课程的兴趣,引导学生学会科学思考问题、提炼问题;熟悉主流软件,为学生踏入数据仓库与数据挖掘领域做好铺垫。实验使用业内流行的数据整合软件和商务智能软件进行实验设计,使得学生的实践适应技术的发展。

2.基于建构主义理论选择实验工具与实验案例。建构主义认为,学是与一定的情境相联系的。学习情境是学生可以在其中进行自由探索和自主学习的场所,一个良好的实践教学情景设计对学生学习要有明显的激发和引导作用。

在案例选择时,教师可以为学生提供一种典型的案例背景,在这种背景下的研究方法可以给予较多的辅导,使学生首先熟悉实验工具的环境,以及实验工具、实验案例与实验内容和原理的融合。再准备一些其他的经典案例供学生自由选择,鼓励学生用已有的知识来寻找最佳解决方案。这样,就促进了学生对知识、能力的迁移,并使得这一过程成为学生能力和自我有意识的调节过程。在确定软件选择方案方面,根据对国内外调研情况的分析[2],数据挖掘实践模块的工具的选择,可以分为以下三种情况:一是使用基本工具编程实现算法;二是直接使用具备数据整合、多维数据建模等方法的商务智能工具;三是使用数据挖掘软件进行数据建模或编程开发。根据信管专业培养方案的培养目标,后两种模式较为适合。可以针对学生基础知识的掌握情况,选择合适的工具为学生设计综合性实验,并在实验后期留一部分自由度,让学生自己设计数据仓库、进行数据挖掘,并对挖掘结果进行多种形式的展示。

3.基于建构主义理论设计实验原理与内容。建构主义理论认为,意义建构是整个学习过程的最终目标,即认识事物的性质、规律以及事物之间的内在联系,通过“同化”和“顺应”来完善和丰富个体的认知结构[1]。“同化”是利用原有认知结构中的有关经验去学习当前的新知识,并对新知识进行过滤或改变,原有框架的一部分。如果原有经验不能“同化”新知识,则要引起“顺应”过程,即对原有认知结构进行改造与重组。[3]

基于建构主义理论进行实践教学活动设计,需要围绕意义建构目标而展开,需要在安排实践教学课程前,明确理论课程的主要框架,并遵循已有的理论框架和逻辑结构安排实践环节,这样学生就能够更有效地从学习过程中理解当前实践内容所反映的事物性质、规律及其互相联系。

实验原理实际就是实验所选择的理论和方法基础,在实验设计时最好能依据课堂内容进行选择,并注意最好选择按照课堂内容的顺序前后衔接,这样更加符合建构主义的教育方法。实验内容就是以与学生专业相符合的案例和案例的数据,应用实验原理进行实验的设计。在本课程中主要的实验原理是:应用数据预处理抽取、转换和装载方法,对原始数据进行整合和装载;应用数据仓库的OLAP技术,建立星型模式的多维数据模型,并进行OLAP操作,应用多维数据展示技术进行数据展示;应用数据挖掘分类与预测方法,对多维数据建模、预测,并使用报表工具展示挖掘的结果。主要实验内容包括:数据集成与转换,使用Pervasive软件实现数据存储格式转换、集成;进行Mstr商务智能软件的基本配置,并将实验1的数据装载到软件的数据仓库表中,为实验3做准备;数据仓库与多维数据的OLAP操作,使用商务智能软件针对原始数据建立星型模式多维数据模型,实现多维数据模型的OLAP操作,掌握商务智能软件的数据展示功能;数据挖掘方法应用,创建季度指数度量,进行数据挖掘前的数据转换,并创建训练度量实现对销售量的预测。

4.基于建构主义理论设计实践教学方式和方法。在建构主义理论下,教师需要由传统的知识的传授者与灌输者转而成为实践教学的设计者、组织者、引导者。教师要引导学生形成分析问题的思路,启发学生对实践活动进行评价、反思和讨论,帮助学生深刻理解学习内容并形成新的认知结构。从课程内容安排上分析,建构主义强调“支架式教学”,即为学习者的知识建构提供一种概念框架[4]。为此,要在安排实验前对实验任务加以分解,形成逐渐递进式的概念框架,便于由浅入深逐步引入实践内容。例如,对于第三个实验――数据仓库与多维数据的OLAP操作,教师首先带大家回顾多维数据模型的星型模式、OLAP操作和多维数据展示三部分理论课内容,再分析案例数据,引导学生思考如何对案例数据进行处理,然后给出答案,加深对原来这三部分内容的理解。从对学生的引导和教学方法上来说,应该充分发挥学生的主动性,鼓励学生大胆探索,主动观察和认识客观事物,并鼓励学生在在实践中重新整合头脑中原有的知识,通过讨论、思考的过程加深对客观事物的认识。在条件允许的前提下,为学生提供更多的案例训练的机会,加深对知识的理解和知识架构的丰富与完善。本实验选用的实验模式为小组讨论、教师引导、上机实验相结合的方式,使用的具体方法有录制实验教学视频,引导学生思考初始数据蕴含的管理问题,画出课程知识点与实验过程、软件使用关系图等方式。

三、实验效果与结论

使用建构主义理论设计实践环节,事前给学生做好知识架构的铺垫,针对入门级实践,进行原理的讲解与回忆、进行实验过程的引导思考与详细讲授,同时提供更多情景资源给学生训练;对深入研究型的部分,给学生较大自由度,由学生自己完成。该门课程多数学生能够独立完成实验过程,并且能够在实验过程中较好地理解实验原理,分析管理问题。本实验综合效果较好,随着数据挖掘在信息管理专业中重要性的增强,在教学实践中增加课时的可能性很大,继续使用建构主义理论进行实践环节设计对学生也更有好处。

参考文献:

[1]张向葵.教育心理学[M].北京:中央广播电视大学出版社,2003.

[2]韩家炜.数据挖掘:概念与技术[M].北京:机械工业出版社,2001.

[3]赵学凯,赵芳.教学建设与改革[J].北京教育,2007,(01).

数据挖掘课程设计论文例9

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9599 (2012) 15-0000-02

1 绪论

2010年5月6日,我国国务院常务会议审议并通过了《国家中长期教育改革和发展规划纲要(2010-2020年)》(以下简称《教育规划纲要》),标志着中国新的教育改革的开始。

《教育规划纲要》提出“大力发展现代远程教育,建设以卫星、电视和互联网等为载体的远程开放继续教育及公共服务平台,为学习者提供方便、灵活、个性化的学习条件”。

基于这一思想,我们申报了“基于数据挖掘的网络教学决策支持系统研究”项目研究课题,探索并构建了基于数据挖掘技术的网络教学模式,并在现代远程开放教育实践中进行了应用尝试。

今天,数据挖掘技术在国外的大型商业、金融业、保险业、民航等大型企业得到了广泛应用,其中,Web挖掘在电子商务上的应用是目前最成功的,我们常常访问的京东、当当等大型商务网站均能看到数据挖掘的影子。Web挖掘为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。

目前国内外远程教学平台在利用数据挖掘技术分析学生访问记录,优化Web站点拓扑结构,从而给学生提供动态的个性化的高效率学习支持服务方面做得比较少,大多数网络教学平台只是简单利用了一些数据统计功能等,对数据的分析不够深入,不能提供完善的个性化支持服务。这是因为数据挖掘作为一个新兴领域,在实际应用当中仍存在许多尚未解决的问题,有很多问题需要深入研究,我国在这一领域已有专家在从事研究工作,但应用和产品相对滞后。

2 Web数据挖掘

首先看看什么是数据挖掘,通俗地说,数据挖掘就是从数据中发掘信息或知识,有人称为知识发现(KDD),也有人称为数据考古学、数据模式分析或功能相依分析。

数据挖掘应用于Internet,于是就有了Web数据挖掘的产生。Web挖掘是利用数据挖掘技术从大量的Web数据中发现有用模式和信息的过程。

Internet包含了丰富和动态的链接信息,以及Web页面的访问和使用信息,为数据挖掘提供了丰富的资源,与传统数据比较,Internet上的数据有其独有的特点。如:Web数据庞大、Web页面复杂性大、Web信息是动态的等。

Web数据挖掘的技术主要有频繁模式挖掘、序列模式挖掘、聚类分析、路径分析等。

3 需求分析与系统搭建

网络教学系统是现代远程教育的方向,教学决策支持系统在其中扮演着重要角色。我们的基于数据挖掘的网络决策支持系统,主要包括以下功能:

3.1 学生学习功能

基于Web的在线学习、在线自测、在线作业等功能。

3.2 课程管理功能

提供给课程教师进行课程管理所需各种功能。如资料管理、作业布置评改、学习评测、学生评价等。

3.3 统计挖掘功能

统计查询功能主要对学生的数据进行统计查询,建立起完整的学生学习个性模型,进行个性化界面定制,可为用户提供智能化、个性化服务。

3.4 其他

权限管理功能、BBS论坛、质量评价等。

在我们的平台设计中,系统开发环境的选择要求是目前流行的开发技术手段同时又要求经济可行。所以免费开源成了我们的首选。我们系统软件环境搭建为Apache服务器+PHP+Winxp+Mysql数据库。

PHP是:Hypertext Preprocessor(超文本预处理器)的缩写,它是一种服务器端的HTML脚本/编程语言,支持几乎所有流行的数据库以及操作系统。

MySQL是最受欢迎的开源SQL数据库管理系统。是一个快速、多线程、多用户的SQL数据库服务器,PHP的首选数据库。MySQL可运行在不同的操作系统下。

Apache是世界排名第一的Web服务器,它为我们的网络管理员提供了丰富多彩的功能,如果您在Windows系统上成功安装配置了Apache之后,您的计算机也将随着Apache的生效而摇身一变,成为一台名副其实的Web Server。

4 数据挖掘处理模块的实现

Web挖掘的主要由以下几个基本步骤完成:数据收集、数据预处理、模式识别、模式分析。

数据的收集是根据用户的需要从原始数据库中选取数据,Web服务器的日志文件详细地记录了用户的浏览行为。

数据的预处理是保证数据挖掘质量的关键。首先进行数据清理,主要包括进行冗余数据的清除,以及对错误数据和缺失数据的修复,比如去除访问中的广告链接、图片链接等信息,将其转化成适合模式发现的、具有良好格式的数据抽象;第二步是识别用户,想要识别出每一个用户变得很复杂,一般采用的方法包括Cookie技术,启发式规则等;第三步是会话识别,会话识别的目的是把属于同一用户的同一次访问请求识别出来;第四步是路径补充,路径补充的主要目的就是将漏掉的用户访问请求补充到用户会话中,通常采用站点的拓扑结构结合引用页的方法进行路径补充。

模式识别:是对预处理后的数据用数据挖掘算法来分析数据。首先确定挖掘的目的是进行分类、聚类、关联规则发现等,确定了任务再决定使用的挖掘算法。

模式分析:解释并评估结果,对数据挖掘得到的知识结果进行分析,将经过模式分析得到有价值的模式,采用可视化技术,以图形界面的方式提供给使用者。

平台设计时,我们将平台分为在线和离线,在线部分向学生提供访问页面,提供服务,信息处理则为离线,进行后台数据挖掘。如图1.1所示。

5 数据挖掘对平台决策的支持

数据挖掘功能应用于网络教学平台,能够实现学生学习的个性化。在学校,课程的学习是循序渐进的,学习的课程也有关联。同一年级学习的不同班级、同一班级的不同学生,由于授课方式、学生基础的不同,成绩结果相差很大。利用教学平台中存放的历史学习记录和历史成绩,结合关联规则挖掘,聚类挖掘等技术,找到一条最佳学习路径,因材施教,对课程学习做出合理安排。

数据挖掘技术对网络平台的优化提供了数据支持。利用数据挖掘的关联规则,寻找教学平台页面间的内在联系。可以在学习者访问A网页时,根据关联规则结果,向其推荐页面C。平台还可以提前将页面C下载至用户缓冲,加快浏览速度。

6 总结与展望

与原来的电大在线比较,网络决策支持系统的优点主要在于强调远程教育的网络学习过程;强调教师与学生、学生与学生或学生与资源的互动;强调网络学习的环境建设,强调个性化学习支持,强调网站结构的合理。

WEB日志挖掘的理论研究及实现技术涉及多方面的理论、方法和技术,由于本文主要是针对自适应站点建构的可行性研究,因此对算法的要求主要是算法正确、可行,对于系统的完善、资源的优化和服务器优化设计等在今后需要更深入的研究。

参考文献:

[1]刘上力,赵劲强,聂勤务.Web使用挖掘中的数据预处理方法[J].郑州轻工业学院学报,2010,4(8):23-27

[2]焦李成.智能数据挖掘与知识发现[M].西安:西安电子科技大学出版社,2006,8

[3]朱晋华,陈俊杰.Web日志预处理中会话识别的优化[J].太原理工大学学报,2008,2(4):34-36

数据挖掘课程设计论文例10

Key words data mining; association rules; teaching management; teaching plan

0 引言

近几年来华留学生教育进入快速发展时期,我国已经成为国际学生流动的重要目的地国家之一。随着我校留学生规模的不断扩大,如何更有效地对来华留学生进行教学管理已成为一个重要的研究课题。而运用数据挖掘技术,从大量的留学生相关数据中挖掘出一些有价值的信息,将更有利于构建切合我校留学生实际的培养体系,更好地保证培养质量。

一方面,从招生角度上来讲。目前我校留学生的生源渠道主要分为三类:第一类是由中国国家留学基金委直接分配至我校学习的获中国政府奖学金的学生。第二类是学生自己通过网上申请,我校根据学生提供的材料进行审核录取。第三类是由国外大学或中介机构根据协议推荐来我校学习的学生。由于外国留学生来自不同的国家,之前在各自不同的教育体系中接受高中教育,文化课背景差异很大,这就导致生源的质量参差不齐。运用数据挖掘技术可以找到其中有价值的信息,如哪个国家的教育水平相对较高,来自哪个国家的学生平均申请成绩较好,使用何种母语更容易融入中国高校教学等。这为招生工作提供了参考,从招生源头提高留学生质量。

另一方面,从教学管理角度来讲。目前,我校留学生数据库中存放着历届学生的各科考试成绩,海量的数据只是单纯地记载了数据信息,对学生信息、成绩等数据的处理一般还停留在简单的数据备份和查询阶段,如传统数据库技术可以查询最高分最低分和平均分等表层信息,但却无法发现隐藏数据之间的规律或者说有指导意义的知识。大量有价值的信息被淹没在海量数据中。事实上不论是课程与课程之间,还是课程的设置之间,与学生成绩都存在着千丝万缕的联系,现阶段已有的数据并没有发挥其真正的价值,而运用数据挖掘技术则可能更好地发现隐藏在数据背后的丰富信息。通过对学生成绩数据库中所包含的各种类型数据进行相应的处理,如:抽取、转换、分析和模型化处理,从中寻找影响学生学习成绩的众多因素,以及这些因素所涉及到的相关问题。应用数据挖掘技术分析学生的成绩水平,使学生深入了解其在学生整体中的相对位置,由此来调整个人学习计划。同时,帮助教师和学校决策者洞悉教学过程中存在的问题,进而反思教学质量。还可以根据关联规则挖掘得到的一系列有价值的规则,分析检查课程体系的合理性,比如:相关课程之间的衔接与先后顺序是否恰当等,根据分析结果最大限度地优化培养计划和决策。此外,利用数据挖掘技术还可以发现数据中存在的潜在关系与规则,比如:根据学生的出勤次数和作业的上交情况预测学生成绩发展趋势等。为教师的教学环节提供建设性的意见和建议,为学生管理工作提供有价值的决策支持,从而帮助学校做出实时适时的决策调整,使得学生管理工作有的放矢。

1 数据仓库与数据挖掘

1.1 数据仓库

传统数据库在联机事务处理(OLTP)中获得了较大的成功,而传统数据库中只保留当前的管理信息,缺乏决策分析所需要的大量历史信息,故不能满足管理人员的决策分析要求。为了解决这一问题,进行相关决策分析,数据仓库应运而生。简而言之,数据仓库就是能够满足决策分析所需要的数据环境。数据仓库的概念,由“数据仓库之父”W.H.Inmom博士提出:数据仓库是一个面向主题的,集成的、与时间有关的,非易失的数据集合,为管理部门提供决策支持。它实际上是一个特殊的数据库,这种系统称为OLAP系统。本文中我们就利用留学生成绩数据库中的各种类型的数据建立相应的数据仓库,为数据挖掘提供数据平台。

1.2 数据挖掘

近年来随着信息技术的迅猛发展,人们所拥有的数据信息急剧增大。如何从大量随机的数据中挖掘出一些有价值的信息,成为一个重要的研究课题,由此带动了数据挖掘技术的产生和飞速发展。数据挖掘就是从大量的,不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又有潜在的有用信息和知识的过程,是数据库中的知识发现的核心。可以说,有数据积累的地方,就有数据挖掘技术的用武之地。

数据挖掘的分析方法分为:聚类分析,关联分析,时序模式分析和分类分析。其中聚类分析是指通过数据本身具有的相似特点把海量数据集归纳为若干个簇,即“物以类聚”。同一簇中的数据之间相距小,相似度高;不同簇中的数据之间相距较大,数据相异度高。关联分析是指利用关联规则进行数据挖掘,其主要评价标准有:支持度、置信度、兴趣度等。本文中我们将数据挖掘技术与留学生教学管理相结合,挖掘在留学生教学管理中隐藏的有价值的信息,为留学生管理提供决策指导与决策支持。

2 数据挖掘在教学领域中的应用

数据挖掘与数据仓库相结合,是完成决策分析的关键因素。教务数据主要存储在关系型数据库中,其主要任务是执行联机事务和查询处理,对其中大量的教学信息及数据的应用仅限于某些单方面的分析,而缺乏相关的综合分析,大部分数据难以再次利用,不能满足决策分析的要求,为此需要对各种类型的数据进行抽取,转换、汇总加载到留学生成绩数据仓库中,借助数据挖掘技术,为教学提供决策支持服务。

在留学生成绩数据库中,包含着多种类型的数据,它们既相互独立又相互联系。运用数据仓库的理论和方法,对这些数据进行适当的预处理,即可产生支持教学决策所需要的信息。留学生成绩仓库的应用模型如图1所示。

根据留学生成绩的特点,以学生成绩分析为主题建立星型结构的留学生成绩仓库。星型结构主要由事实表与维度表两部分构成。事实表是星型模型的核心,维度表是事实表的附属表,一个事实表一般拥有一组维度表,每个维度表都通过主键与事实表相连,维度表之间通过事实表的中介相互建立联系。该数据仓库主要涉及到的信息有:留学生基本信息,教师信息,课程信息,试卷信息,知识点信息及专业信息等。星型结构的留学生成绩数据仓库的具体构建情况如图2所示。

2.1 数据挖掘在成绩分析中的应用

定性评价在生活中有着广泛的应用,我们往往把学生成绩硬性地划分为:优、良、中、差四个等级。而这种传统的硬性区间划分法,存在着众多弊端。例如将成绩90分定为“优”,而成绩79分确定为“良”,这往往只是根据经验但却缺乏理论指导,而实际上二者之间并没有那么明显的差距。如果我们利用数据挖掘中的聚类分析法对学生成绩进行适当处理,就可以有效地对学生成绩进行等级划分,为学生学习和教师的教学提供更合理的参考标准。在合理的等级划分基础上,我们就可以利用关联规则挖掘技术对学生成绩进行多角度、多方向的深入分析,获得可以为教学工作提供决策支持的有价值的隐藏规则。比如:学生成绩的好坏跟作业上交情况有着明显的关系,该规则说明教师可以通过及时督促学生上交作业来提高学生成绩。此外,我们也可以采用决策树挖掘技术来分析影响学生某门课程成绩的主要因素。比如:针对学生出勤率,作业上交情况,国籍,学生中英文水平四个因素对学生成绩的影响程度进行决策树挖掘分析,我们发现学生出勤率、作业上交情况以及学生的中英文水平是影响学生成绩的主要因素,而国籍则是次要因素。由此说明较高的出勤率、良好的作业上交情况以及较好的中英文水平是学生取得良好成绩的重要保障。

2.2 数据挖掘在培养计划制定中的应用

培养计划对一个专业的学习至关重要,一个好的培养计划将会获得事半功倍的效果,反之,将会产生事倍功半的结果。目前我校对于本科留学生虽然部分课程有全英文授课模式,但是就培养方案、教学计划来讲,大部分课程与本专业国内学生的几乎一样。而我国大学课程大纲的起点都是按照和国内高中毕业的程度衔接制定的,特别是数理化这样衔接性很强,对基础和选修课程要求很高的课程,大部分留学生不能跟上学习进度,教学效果较差,学习困难较大。

传统的教务系统无法为留学生的培养计划的制定提供建设性的决策支持。然而,利用数据挖掘技术对留学生信息维表,课程维表和学生成绩维表进行关联规则挖掘,则可以找出不同课程之间的关联,从而为留学生单独制定一套行之有效的特殊培养方案,适当调整外国留学生的必修和选修课程,提高教学效果和质量。如对石油工程专业留学生课程成绩进行关联规则挖掘,获得等级为“优”的课程之间存在的有价值的规则,如表1所示。

相应的规则解释有:(1)规则2 表明,“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程的信任度为88.3%,因此“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程比较合理。(2)规则3表明,“理论力学”作为“材料力学”先行课的信任度为90.6%,所以“理论力学”作为“材料力学”的先行课程比较合理。(3)规则4表明,“理论力学”和“材料力学”作为“油田开发地质”的先行课程的信任度为86.0%,所以“理论力学”和“材料力学”作为“油田开发地质”的先行课程比较合理。综合(1)(2)(3)可知,高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质这四门课程的合理开课顺序应该是:(1)高等数学(Ⅱ)(I ,II)(2)理论力学(3)材料力学(4)油田开发地质。如果对上面列出的规则进行多次推导,可以得出“石油工程”这个专业大致合理的开课顺序:(1)高等数学(Ⅱ)I、高等数学(Ⅱ)II;(2)高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质;(3)测井综合解释,钻井工程、油藏工程、气藏工程,石油工程的全面设计;(4)环境保护在石油和天然气领域,强化开采理论。

由上述的关联规则及相应的结果解释,我们可以清楚地看到,相关课程成绩之间存在较高的关联程度,先行课程的学习情况将直接影响其后续课程的学习。我校即可根据上述结论为学习“石油工程专业”的本科留学生合理安排课程顺序,使其获得良好的学习效果。

2.3 数据挖掘在留学生选课方面的应用

高校愈来愈注重个性化人才培养,学校教育方式越来越人性化、多样化,学生自主选课就成为课程改革的必然产物。但由于留学生初到中国对环境的不熟悉,包括一开始的语言障碍、沟通障碍,显然对中国高校的课程设置了解有限,这样有可能致使他们选课仅仅是凭表面感觉来进行。如:学生在选择“中国概况”这门课的时候,可能仅仅是因为对中国历史文化的好奇,而并不了解应如何合理选择其他相关课程来加深对这门课程的理解。“中国概况”这门课程需要有一定中文语言基础,盲目选课将导致留学生对中国概况的学习仅限于皮毛,而不能深入了解中国历史文化。

现有的选课系统不能为学生选课提供建设性意见,但如果利用数据挖掘技术对学生汉语成绩进行关联规则挖掘,找出课程之间的关联,就可以在学生选择某门课时为其推荐相关课程,完善学生在该领域的学习体系。若获得如下规则:“中级汉语”和“中国概况”成绩等级为“优”;该规则说明汉语水平高低与中国概况的了解程度有较强的关联程度,所以我们在学生选择“中国概况”这门课程的时候,就应当向其推荐“中级汉语”,从而加强学生对该课程的学习。

2.4 数据挖掘在教学中其他方面的应用

数据挖掘课程设计论文例11

【中图分类号】G642.0 【文献标识码】A 【文章编号】1009-9646(2008)09(b)-0043-02

发展经济学课程体系庞大、理论丰富、学派林立,表现为海量的、模糊的、随机的信息。如何在教学中改进和创新本课程的教学模式,提高教学质量一直是从事本课程教学的教师所面临的主要问题之一。本文应用数据挖掘技术对这些信息进行量化、分析、处理,以便对教学质量监测系统更加科学、客观的设计、控制和评价,实观对教学质量监测系统的优化,进一步提高教学质量。

1 发展经济学教学中面临的困境

由于教材、开设时间、教授方法、教师水平等诸多原因,发展经济学教学一度停留在“浅显易懂”的范围内,具体表现在以下几个方面:

1.1 教师方面

首先,教师专业结构不合理。多数发展经济学教师是在其所学经济学相关课程,如政治经济学、经济史以及经济思想史等的基础上开始自我学习和提高的,所以未经过发展经济学系统学习和训练。其次,教学方式的效果并不理想。大多数高校的发展经济学课程所采用的授课方式仍然是以任课教师的课堂讲授为主,也有少数教师采取专题讲座和案例讨论方式的,教学中,教师把备课、教学的重点及主要精力用在了概念的界定、逻辑推理和追求理论体系的逻辑性、完整性上,而较少关注经济现象的变化及学生关心的实际问题,这就很难引起学生的共鸣。

1.2 学生方面

在教学过程中,一方面由于学生的基础不同、领悟程度不同;另一方面一些学生学习态度不端正;再加上大班化授课,人数多,间接带来学生上课纪律不好,存在迟到早退乃至旷课现象,不认真听课及做作业,严重影响课堂教学效果和质量。

就学生的专业基础而言,大学四年级是最佳学习时机。但是,发展经济学课程的教学和学习需要安排充裕的时间,而大学四年级的课程安排一般很少,专业课程的教学已经结束,其原因在于,大学四年级学生必须参加社会实习、撰写毕业论文、寻找工作单位和研究生入学考试,这些事需要花费大量时间和精力。如果在这一阶段还有发展经济学的课程教学显然是不合适的。这便出现了学生专业基础与发展经济学教学时间安排上的矛盾。

1.3 教材方面

教材的内容过于陈旧,目前国内高校使用的发展经济学教材的主要内容多年不变,有的发展理论、经济发展政策己与当代先进的理论、政策明显不符,也与我国经济发展现实不合。发展经济学的内容在不断地更新和发展,我国对发展经济学的理论研究已经达到相当高的水平,我国经济实践中也积累了相当多的经验,但教材建设远远没有跟上理论研究和实践发展的步伐。

2 在提高发展经济学教学质量中的数据挖掘

本文结合数据挖掘技术,分析提高发展经济学教学质量途径。数据挖掘流程可分为四个模块:数据收集模块、数据处理模块、数据挖掘模块和数据表示应用模块[1]。如图1所示:

2.1 数据收集模块

在学校的各部门中积累了大量的影响发展经济学教学质量的数据,这些数据分散在人事处、学生处、教务处、科研处等各个部门除了利用这些已有数据,还必须把更多的因素考虑在内。包括:(1)教学过程中教师教学方法、教学内容、教学设计、教学态度和教学效果;(2)教师的学历、职称、培训经历、现代教育观和信息意识等。

2.2 数据处理模块

数据处理模块处理的信息包括:解决语义模糊性,数据库按照元数据标准对数据进行清理、集成和变换,检查数据的完整性和一致性,将数据整合成能被采掘算法利用的数据,最后存入数据采样库。

2.3 数据挖掘模块

数据挖掘模块:在友好的导航界面引导下,使用合适的算法通过关联分析、分类分析、聚类分析和序列模式分析对经过处理、转化的数据,进行挖掘、分析处理,得出结果并输出给数据表示与应用模块。

2.3.1 教师信息的挖掘

从以下几个方面对教师的信息进行挖掘:(1)课堂教学信息挖掘:通过对教师、学生的分类分析、关联分析找出数据间中隐藏的关联网。根据教师、学生的行为占有率、行为转换率得出本节课的教学模式图。(2)对教师教学风格、特点的信息挖掘:包括对教师语言特点、提问的比率、提问的开放性程度、与学生的互动能力等主观性因素进行量化,可视化。

2.3.2 学生信息的挖掘

从以下几个方面对学生的课堂行为表现进行挖掘:(1)思维状态:看学生是否对教师的提问,提示信息作出积极的反馈;学生是否主动提出问题、发表见解。(2)交往状态:一看课堂上是否有多边、丰富、多样的信息联系与信息反馈,二看课堂上的人际交往是否有良好的合作氛围。

2.4 数据表达和应用模块

2.4.1 数据表达。挖掘发现的知识可以利用可视化技术,如树、表、规则、图表、交叉表、矩阵或曲线等多种形式表示,使内容易于理解能够直接被人们使用。

2.4.2 数据应用。数据挖掘在教学质量监测系统中的应用主要有以下几个方面:

(1)个性化学习。1)学习者特征的可知性分析。根据学生的注册信息和需求纪录,系统可以向学生显示那此可能引起学生特殊兴趣的新知识。2)分析需求趋势。分析每个学习者的访问模式,通过挖掘对应的访问历史记录,系统向不同的学生提供符合其访问习惯的页面信息,预测学习需求。(2)自动答疑系统。系统解答与对学生提交的问题是同步并发的过程,用户在页面输入提出的问题,提交给计算机处理,系统对输入的问题进行分词和提取关键字的预处理。(3)教学评价和学习结果评价。教学效果和学习结果都需要一个客观公正的评价,数据挖掘可以帮助实现多方面,多层次、全方位的评价。

参考文献

[1] J.Han and M .Kamber 著.范明,孟小峰译.数据挖掘:概念与技术[M].机械工业出版社,2004.