期刊 科普 SCI期刊 投稿技巧 学术 出书 购物车

首页 > 优秀范文 > 数据挖掘技术分析论文

数据挖掘技术分析论文样例十一篇

时间:2023-04-19 16:57:07

序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇数据挖掘技术分析论文范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!

数据挖掘技术分析论文

篇1

摘要:学习成绩是评价学生素质的重要方面,也是教师检验教学能力、反思教学成果的重要标准。利用大连民族大学统计学专业本科生有关数据(专业基础课成绩、平时成绩和回归分析期末成绩),建立多元線性回归模型,对影响回归分析期末成绩的因素进行深入研究,其结果对今后的教学方法改进和教学质量提高具有十分重要的指导意义。

关键词:多元线性回归;专业基础课成绩;平时成绩;期末成绩

为了实现教学目标,提高教学质量,有效提高学生学习成绩是很有必要的。我们知道专业基础课成绩必定影响专业课成绩,而且平时成绩也会影响专业课成绩,这两类成绩与专业课成绩基本上是呈正相关的,但它们之间的关系密切程度有多大?它们之间又存在怎样的内在联系呢?就这些问题,本文主要选取了2016级统计专业50名学生的四门专业基础课成绩以及回归分析的平时成绩和期末成绩,运用SPSS统计软件进行分析研究,寻求回归分析期末成绩影响因素的变化规律,拟合出关系式,从而为强化学生的后续学习和提高老师的教学质量提供了有利依据。

一、数据选取

回归分析是统计专业必修课,也是统计学中的一个非常重要的分支,它在自然科学、管理科学和社会、经济等领域应用十分广泛。因此研究影响统计学专业回归分析成绩的相关性是十分重要的。

选取了统计专业50名学生的专业基础课成绩(包括数学分析、高等代数、解析几何和概率论)、回归分析的平时成绩和期末成绩,结合多元线性回归的基础理论知识[1-2],建立多元回归方程,进行深入研究,可以直观、高效、科学地分析各种因素对回归分析期末成绩造成的影响。

二、建立多元线性回归模型1及数据分析

运用SPSS统计软件对回归分析期末成绩的影响因素进行研究,可以得到准确、科学合理的数据结果,全面分析评价学生考试成绩,对教师以后的教学工作和学生的学习会有较大帮助。自变量x1表示数学分析成绩,x2表示高等代数成绩,x3表示解析几何成绩,x4表示概率论成绩,x5表示平时成绩;因变量y1表示回归分析期末成绩,根据经验可知因变量y1和自变量xi,i=1,2,3,4,5之间大致成线性关系,可建立线性回归模型:

(1)

线性回归模型通常满足以下几个基本假设,

1.随机误差项具有零均值和等方差,即

(2)

这个假定通常称为高斯-马尔柯夫条件。

2.正态分布假定条件

由多元正态分布的性质和上述假定可知,随机变量y1服从n维正态分布。

从表1描述性统计表中可看到各变量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的标准差分别为10.847,11.531,8.929,9.018,9.221,y1的标准差为8.141;有效样本量n=50。

回归分析期末成绩y1的多元回归模型1为:

y1=-5.254+0.221x1-0.4x2+0.154x3

+0.334x4+0.347x5

从表2中可以看到各变量的|t|值,在给定显著水平?琢=0.05的情况下,通过t分布表可以查出,自由度为44的临界值t?琢/2(44)=2.015,由于高等代数x2的|t|值为0.651小于t?琢/2(44),因此x2对y1的影响不显著,其他自变量对y1都是线性显著的。下面利用后退法[3]剔除自变量x2。

三、后退法建立多元线性回归模型2及数据分析

从模型1中剔除了x2变量,多元回归模型2为:

y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)

在表4中,F统计量为90.326,在给定显著水平?琢=0.05的情况下,查F分布表可得,自由度為p=4和n-p-1=45的临界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自变量的|t|值都大于t?琢/2(45)=2.014,因此,多元回归模型2的线性关系是显著的。

四、结束语

通过对上述模型进行分析,即各个自变量对因变量的边际影响,可以得到以下结论:在保持其他条件不变的情况下,当数学分析成绩提高一分,则回归分析成绩可提高0.242分[4-5];同理,当解析几何成绩、概率论成绩和平时成绩每提高一分,则回归分析成绩分别提高0.149分、0.377分和0.293分。

通过对学生专业基础课成绩、平时成绩与回归分析期末成绩之间相关关系的研究,一方面有利于教师把控回归分析教学课堂,提高教师意识,注重专业基础课教学的重要性,同时,当学生平时成绩不好时,随时调整教学进度提高学生平时学习能力;另一方面使学生认识到,为了更好地掌握回归分析知识,应加强专业基础课的学习,提高平时学习的积极性。因此,通过对回归分析期末成绩影响因素的研究能有效的解决教师教学和学生学习中的许多问题。

统计学毕业论文范文模板(二):大数据背景下统计学专业“数据挖掘”课程的教学探讨论文

摘要:互联网技术、物联网技术、云计算技术的蓬勃发展,造就了一个崭新的大数据时代,这些变化对统计学专业人才培养模式的变革起到了助推器的作用,而数据挖掘作为拓展和提升大数据分析方法与思路的应用型课程,被广泛纳入统计学本科专业人才培养方案。本文基于数据挖掘课程的特点,结合实际教学经验,对统计学本科专业开设数据挖掘课程进行教学探讨,以期达到更好的教学效果。

关键词:统计学专业;数据挖掘;大数据;教学

一、引言

通常人们总结大数据有“4V”的特點:Volume(体量大),Variety(多样性),Velocity(速度快)和Value(价值密度低)。从这样大量、多样化的数据中挖掘和发现内在的价值,是这个时代带给我们的机遇与挑战,同时对数据分析技术的要求也相应提高。传统教学模式并不能适应和满足学生了解数据处理和分析最新技术与方法的迫切需要。对于常常和数据打交道的统计学专业的学生来说,更是如此。

二、课程教学探讨

针对统计学本科专业的学生而言,“数据挖掘”课程一般在他们三年级或者四年级所开设,他们在前期已经学习完统计学、应用回归分析、多元统计分析、时间序列分析等课程,所以在“数据挖掘”课程的教学内容选择上要有所取舍,同时把握好难度。不能把“数据挖掘”课程涵盖了的所有内容不加选择地要求学生全部掌握,对学生来说是不太现实的,需要为统计学专业本科生“个性化定制”教学内容。

(1)“数据挖掘”课程的教学应该偏重于应用,更注重培养学生解决问题的能力。因此,教学目标应该是:使学生树立数据挖掘的思维体系,掌握数据挖掘的基本方法,提高学生的实际动手能力,为在大数据时代,进一步学习各种数据处理和定量分析工具打下必要的基础。按照这个目标,教学内容应以数据挖掘技术的基本原理讲解为主,让学生了解和掌握各种技术和方法的来龙去脉、功能及优缺点;以算法讲解为辅,由于有R语言、python等软件,学生了解典型的算法,能用软件把算法实现,对软件的计算结果熟练解读,对各种算法的改进和深入研究则不作要求,有兴趣的同学可以自行课下探讨。

(2)对于已经学过的内容不再详细讲解,而是侧重介绍它们在数据挖掘中的功能及综合应用。在新知识的讲解过程中,注意和已学过知识的融汇贯通,既复习巩固了原来学过的知识,同时也无形中降低了新知识的难度。比如,在数据挖掘模型评估中,把混淆矩阵、ROC曲线、误差平方和等知识点就能和之前学过的内容有机联系起来。

(3)结合现实数据,让学生由“被动接收”式的学习变为“主动探究”型的学习。在讲解每种方法和技术之后,增加一个或几个案例,以加强学生对知识的理解。除了充分利用已有的国内外数据资源,还可以鼓励学生去搜集自己感兴趣的或者国家及社会大众关注的问题进行研究,提升学生学习的成就感。

(4)充分考虑前述提到的三点,课程内容计划安排见表1。

(5)课程的考核方式既要一定的理论性,又不能失掉实践应用性,所以需要结合平时课堂表现、平时实验项目完成情况和期末考试来综合评定成绩。采取期末闭卷理论考试占50%,平时实验项目完成占40%,课堂表现占10%,这样可以全方位的评价学生的表现。

三、教学效果评估

经过几轮的教学实践后,取得了如下的教学效果:

(1)学生对课程的兴趣度在提升,课下也会不停地去思考数据挖掘有关的方法和技巧,发现问题后会一起交流与讨论。

(2)在大学生创新创业项目或者数据分析的有关竞赛中,选用数据挖掘方法的人数也越来越多,部分同学的成果还能在期刊上正式发表,有的同学还能在竞赛中取得优秀的成绩。

(3)统计学专业本科生毕业论文的选题中利用数据挖掘有关方法来完成的论文越来越多,论文的完成质量也在不断提高。

(4)本科毕业生的就业岗位中从事数据挖掘工作的人数有所提高,说明满足企业需求技能的人数在增加。继续深造的毕业生选择数据挖掘研究方向的人数也在逐渐增多,表明学生的学习兴趣得以激发。

篇2

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2012)30-7150-04

随着数字信息化社会的飞速发展,计算机技术和数据库管理系统被广泛应用于科学探索、商业、金融业、电子商务、企业生产等各种行业,已逐渐发展成为一种智能管理过程。数据挖掘作为一种新兴的数据分析技术,它的研究成果取得了令人瞩目的成就[1]。利用数据库技术,通过对教务管理的大量数据进行多层次、多维度的加工处理,从而实现人性化管理,为科学决策提供支持。

毕业论文在教学体系中占有十分重要的位置,是本科生培养计划中衡量教学质量的重要指标。提高毕业论文教学质量是一项系统工程,为研究在当前的教学条件下如何提高毕业论文教学质量,本文采用数据挖掘技术对影响毕业论文成绩管理的多方面因素进行了深入分析和挖掘,以期发现对学校毕业论文教学管理有用的知识,将这些知识应用于本科学生毕业论文教学实践中,为学校管理者提供有用的信息,进而获得更好的管理效益,为学校未来的发展提供更广阔的空间,发挥重要的作用。

1 数据挖掘简介

数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge discovery in Database. KDD)[2],是通过分析每一个具体数据,从大量的、有噪声的、模糊的、随机的海量数据中寻找其规律的技术,它是数据库研究中的一个很有应用价值的新领域。

1.1 数据挖掘的定义

H包含如下功能:

综上所述,数据挖掘具有三大特点:其一是处理大型数据;其二应用数据挖掘的目的是发现未知的、有意义的模式或规律;其三是一个对大量数据处理的过程,有特定的步骤[3]。

1.2 数据挖掘的主要方法

数据挖掘是一个多学科交叉领域,它由人工智能、机器学习的方法起步,并与统计分析方法、模糊数学和可视化技术相融合,以数据库为研究对象,围绕面对应用,为决策者提供服务。

数据挖掘的方法主要可分为六大类:统计分析方法、归纳学习方法、仿生物技术、可视化技术、聚类方法和模糊数学方法。归纳学习法是目前重点研究的方向,本文根据给定的训练样本数据集,采用归纳学习法中的决策树技术构造分类模型,将事例分类成不同的类别。

2 决策树算法基本理论

2.1 决策树方法介绍

决策树[4]方法是以事例学习为基础的归纳推算法,着眼于从一组无序的,无规则的事例中推断出类似条件下会得到什么值这类规则的方法,它是一种逼近离散值函数的方法,也可以看作一个布尔函数[5]。决策树归纳方法是目前许多数据挖掘商用系统的基础,可以应用于分析数据,同样也可以用来作预测。建模过程中,即树的生长过程是不断的把数据进行切分,采用“自顶向下,分而治之”的方法将问题的搜索空间划分为若干个互不交叉的子集,通常用来形成分类器和预测模型。如图1所示,为决策树的示意图。

决策树一种类似流程图的树形结构,是一种知识的表现形式。为了对未知样本进行分类,生成具体的分类规则,信息样本的各个属性值要在决策树上进行测试。主要分为两个阶段:在第一阶段中生成树。决策树最上面的节点为根节点,是整个决策树的开始,然后递归的进行数据分区,每次切分对应一个问题,也对应着一个节点;在第二阶段中对树进行修剪,此过程中去掉一些可能是噪音或异常的数据,防止决策树的过匹配,进而保证生成决策树的有效性和合理性。当一个节点中的所有数据都属于同一类别,或者没有属性可以再用于数据进行分割时,分割工作停止。具体的工作流程如图2所示。

2.2 C4.5算法

1986年Ross Quinlan首次提出了ID3决策树算法,它是最早的决策树算法之一。ID3算法运用信息熵理论,选择当前样本中具有信息增益值的属性作为测试属性,对样本的划分则依据测试属性的取值[6]。C4.5算法是在ID3算法基础上发展起来的,它继承了ID3算法的全部优点,并增加了新的功能改进了ID3算法中的不足,可以进行连续值属性处理并处理未知值的训练样本。在应用单机的决策树算法中,C4.5算法不仅分类准确而且执行速度快。

C4.5通过两个步骤来建立决策树:第一阶段树的生成,第二阶段树的剪枝。C4.5算法采用信息增益率来记录字段不同取值的选择,首先计算各个属性的信息增益率,寻找到规则信息的优劣,选出信息增益率最大的属性作为结点,自顶向下生成决策树。C4.5算法构造决策树的基本策略如下:

首先计算出给定样本所需的期望信息,设S为一个包含s个数据样本的集合,对于类别属性,可以取m个不同取值,分别对应于m个不同的类别[Ci(i∈1,2,...,m)]。假设类别[Ci]中的样本个数为[si],期望信息为:

其中,[Pi]是任意样本属于[Ci]的概率,并用[sis]估计。

接着,计算当前样本集合所需用的信息熵,设一个属性A具有n个不同的值[(a1,a2,...an)],利用属性A可以将集合S划分为n个子集[S1,S2,...Sn],其中[Sj]包含了S集合中属性A取[aj]值的样本数据。如果属性A被选作测试属性,设[Sij]为[Sj]中属于[Ci]类别的样本集,根据A划分计算的熵为:

然后利用属性A对当前分支结点进行相应样本集合划分计算信息增益:

最后,求信息增益率,表达式为:

C4.5算法的伪代码如下:

输入:训练样本Samples;目标属性Target—attribute;候选属性的集合Attributes

输出:一棵决策树

1)创建根节点root;

2)If Samples都在同一类C Then;

3)返回label=类C的单结点树root;

4)If Attributes为空Then;

5)返回单结点树root,[label=Samples]中最普遍的Target-Atribute值;

6)Else;

7)For each测试属性列表Attributes中的属性;

8)IF测试属性是连续的Then;

9)对测试属性进行离散化处理,找出使其信息增益比率最大的分割阈值;

10)Else;

11)计算测试属性的信息增益比率;

20)添加子树Generate Tree C4.5;

21)对已建立的决策树计算每个结点的分类错误,进行剪枝,并返回根结点Root。

3 毕业论文成绩管理系统的设计和实现

利用数据挖掘技术对学生的成绩数据进行提炼,所产生的结果和信息会对以后的教学管理工作提供有用的信息,进而获得更好的管理效益。解决问题的重点在于怎样对学生的毕业论文成绩进行全面且深度的分析,从而挖掘出成绩与其他因素之间隐藏的内在联系。本文采用决策树技术挖掘信息时,主要操作步骤如下:

1)确定挖掘来源:清晰地定义挖掘对象,明确挖掘目标是数据挖掘所有工作中重要的一步。本文中应用于挖掘的数据信息是毕业生的毕业论文成绩,旨在通过对大量成绩数据进行各层次的挖掘,全面了解具体影响学生毕业论文成绩的各方面因素,正确的针对问题拟定分析过程。

2)获取相关知识:数据是挖掘知识最原始的资料,根据确定的数据分析对象,抽象出数据分析中所需要的特征信息模型。领域问题的数据收集完成之后,与目标信息相关的属性也随之确定。这些数据有些是可以直接获得的,有些则需要对学生进行调查才能的得到。

3)数据预处理:此过程中是对已收集的大量数据进行整合与检查。因为存放在数据库中的数据一般是不完整的、不一致的,通常还含有噪声的存在。因此就需要对数据库中数据进行清理、整理和归并,以提高挖掘过程的精度和性能。

4)数据转换:对预处理后的数据建立分析模型,对于特定的任务,需要选择合适的算法来建立一个准确的适合挖掘算法的分析模型。本文采用决策树技术进行分类建模来解决相应的问题。

5)分类挖掘知识和信息:此阶段的工作目的是根据系统最终要实现的功能和任务来确定挖掘的分类模型。选择合适的数据挖掘技术及算法,并采用恰当的程序设计语言来实现该算法,对净化和转换过得数据训练集进行挖掘,获得有价值的分析信息。

6)知识表示:将数据挖掘得到的分析信息进一步的解释和评价,生成可用的、正确的、可理解的分类规则呈现给管理者,应用于实践。

7)知识应用:将分析得到的规则应用到教学管理中,教师可以利用所得到的知识针对性的开展毕业设计的教学活动,进一步指导教学工作,提高教学水平和学生的毕业论文质量。

4 结论

最终发现影响学生毕业论文成绩主要的因素不是指导教师的职称,学生的基础及感兴趣程度,而是指导教师的学历高低。根据具体分类规则的结论,学校教学管理工作应加重对教师的素质及能力培养,合理的分配每个教师的毕业论文指导工作,不仅能够有效的完成毕业课题指导工作,更有助于学生整体论文质量的提高。

在高校教学数字化的时代趋势下,利用数据挖掘技术来挖掘提取教学工作中的全面而有价值信息,可以为教育管理者的教学工作提供有效的参考信息,改进教学管理方法,提高教学质量和学生的综合素质,是高校保持良好的可持续发展的有力工具。

参考文献:

[1] 刘玉文.数据挖掘在高校招生中的研究与应用[D].上海:上海师范大学,2008.

[2] 魏萍萍,王翠茹,王保义,张振兴.数据挖掘技术及其在高校教学系统中的应用[J].计算机工程,2003.29(11):87-89.

[3] 刘林东. Web挖掘在考试系统中的应用[J].计算机应用研究,2005(2):150-154.

篇3

1.引言

计算机网络技术的普及与应用给人们的生活带来了翻天覆地的变化,同时在网络上产生了大量杂乱无章的数据。而网格技术、Web技术的发展,为人们从分布的网络资源中寻找有价值的信息提供了新的技术支持,同时也产生了许多基于网格的数据挖掘系统。而数据挖掘算法又是决定一个数据挖掘系统性能的主要衡量指标。任何软件系统的设计都离不开算法,数据挖掘技术的执行效率也与数据挖掘算法有关,随着数据库技术与数据挖掘技术的成熟与发展,像分类、聚类、决策树、关联等等数据挖掘算法已相当成熟,可以研究借鉴现有数据挖掘方法、数据挖掘模式、数据挖掘流程,建立一个基于网格的数据挖掘系统。笔者以众多数据挖掘算法中的聚类分析算法为例,介绍基于GT4(Globus Tookit 4.0的简称,GT4的核心开发工具包(Java Web Service Core))的数据挖掘算法的设计过程。

聚类分析(Clustering Analysis)是一个应用比较广泛的数据挖掘算法,算法的理论研究与实践应用都已经很成熟,把这一成熟的理论应用于基于网格的分布式系统中,会大大提高数据挖掘的效率。本文主要研究如何将聚类分析的CURE(Cluster Using Representation)算法和K-平均方法算法应用于基于GT4数据挖掘系统中。

2.系统结构设计

基于GT4数据挖掘系统的数据源是分布式数据源,分布式数据源是指在物理上分布而逻辑上集中的数据源系统。在该系统中,处在这个网格中的每台计算机就是这个网格的一个节点,称之为网格节点。在众多的节点中,要有一个网格节点来控制和管理其他的节点,这个节点就叫做网格中心控制节点,决策支持都是由网格中心控制节点完成的。如果要完成某个数据挖掘任务,则可以由空闲的网格节点先按挖掘需求来完成本节点的挖掘任务,再由网格中心控制节点来汇总每个节点的数据挖掘情况。局部网格节点管理的信息具有局限性,涉及的范围较小,主要完成单个节点数据的管理,对局部的数据挖掘结果进行汇总分析,但是这些局部节点的数据与全局节点的数据又是有一定关联的。根据以上的分析可知,网格平台下的数据挖掘任务由全局数据挖掘与局部数据挖掘共同完成。

3.算法的Web Service设计

3.1 全局聚类算法的Web Service设计

网格环境下的全局控制网格节点与局部网格节点间的关系我们可以理解为上下层的关系,这样就可以借鉴基于层次的聚类分析算法,按照层次的自底向上的聚类方式,把全局控制节点当成是层次聚类的顶层。本课题全局聚类算法借鉴传统的利用代表点聚类算法CURE。

CURE算法将层次方法与划分方法结合到一起,选用有代表性的、固定数目的空间点来表示一个聚类。算法在开始时,每个点都是一个簇,然后将距离最近的簇结合,一直到簇的个数为要求的K。首先把每个数据点即局部网格节点看成一个聚类,然后再以一个特定的收缩因子向中心收缩它们。

CURE算法的主要执行步骤如下:

(1)从数据源样本对象中随机抽取样本集,生成一个样本集合S;

(2)将样本集合S分割为一组划分,每个划分大小为S/p;

(3)对每个划分部分进行局部聚类;

(4)通过随机采样剔除聚类增长太慢的异常数据;

(5)对局部聚类进行聚类,落在每个新形成的聚类中的代表性点,则根据用户定义的收缩因子收缩或移向聚类中心;

(6)用相应的标记对聚类中的数据标上聚类号。

有了数据挖掘算法,就可以完成数据挖掘任务了。全局聚类算法的主要功能是响应用户的数据挖掘请求,将对应的请求发送给局部网格节点,将局部网格节点的挖掘结果整理输出。全局聚类算法Web Service资源的结构包括算法Web Service接口、算法资源属性文档、算法功能实现和算法功能四个部分。

利用传统的聚类算法完成全局的数据的并行挖掘最重要的一步就是将全局聚类算法部署到GT4中,完成全局聚类算法的Web Service设计要经过过以下几步:

第一步:用WSDL(Web Service描述语言,是Web Service提供的XLM语言)来描述数据挖掘服务接口,该服务接口可以用Java来定义,利用Java-to-WSDL工具把Java定义的接口转为WSDL文件。

第二步:用Java编写全局聚类算法(CURE)代码;

第三步:用WSDD配置文件和JNDI(GT4自带文件)部署文件;

第四步:用Ant工具打包上面的所有文件,生成一个GAR文件;

第五步:向Web Service容器部署全局数据挖掘服务。

3.2 局部聚类算法的Web Service设计

局部聚类算法的主要功能是完成局部网格节点的数据挖掘任务,并把数据挖掘结果上传到全局控制节点。局部网格节点的数据挖掘任务与传统的单机数据挖掘任务类似,本课题局部聚类算法使用传统的聚类算法K-平均方法,以K为参数,把N个对象分为K个簇,簇内具有较高的相似度,而簇间的相似度较低[34]。本论文的数据挖掘任务主要是由局部网格节点实现的,下面就详细的介绍K-平均算法的主要执行过程如下:

(1)从数据集中任意选择K个对象作为各个簇的初始中心。

(2)根据现有的簇中心情况,利用距离公式计算其他对象到各个簇中心的距离。(可选的距离公式有:欧几里、行德公式、距离公式、曼哈坦距离公式、明考斯基距离公式)。

(3)根据所得各个对象的距离值,将对象分配给距离最近的中心所对应的簇。

(4)重新生成各个簇的中心。

(5)判断是否收敛。如果收敛,即簇不在发生变化,那么停止划分,否则,重复(2)到(5)。

K-平均算法是一个经典的聚类算法,将K-平均算法部署到GT4中,完成局部聚类算法的Web Service设计,部署方法与全局算法相似。

4.结论

基于GT4的数据挖掘系统中的数据挖掘服务资源有网格的中心控制节点(即全局节点)进行统一的管理,在局部网格节点挖掘过程中,根据其处理能力分配最佳的数据集给局部节点,从而使整个系统的计算负载相对均衡。其数据挖掘系统的规模可随着服务的多少动态伸缩。当系统要增加新的局部挖掘节点时,只需部署局部Web Service资源即可。将网格应用到分布式数据挖掘系统中,建立一个基于网格的数据挖掘系统,必将使其在各个领域都得到广泛的应用。

参考文献

篇4

[引言]随着我国信息技术的进步,数据挖掘技术得到广泛应用,在软件工程中需要对数据信息进行搜集、分类与整理,通过数据挖掘技术的应用可以有效提高工作效率,推动软件工程的有序发展。我国对数据挖掘技术的应用与研究虽然处于初级阶段,但通过不断的经验积累也能够发挥技术的更多价值。

1数据挖掘技术概述

数据挖掘技术指的是在信息技术发展背景下,对信息数据展开处理的技术。与过去的信息处理技术相比,数据挖掘技术功能更加强大,可以应用在各个领域,无论是数据处理、数据转换还是数据分析,都能够完成相互之间的联系,并对数据进行最终评估。将数据挖掘技术应用在软件工程中,能够提高企业处理信息数据的效率,避免操作失误,保护企业数据准确[1]。

2数据挖掘技术在软件工程中的重要性分析

2.1高效整合多样化信息数据

由于数据挖掘技术的功能比较多,其中包含了传统处理技术的功能,实现多样化信息的收集与分类,并将数据按照类别存储与整理。数据挖掘技术可以在多样化数据中实现数据的系统化管理,为人们进行数据查阅工作带来方便。在软件工程中应用该技术,方便信息数据的高效整合,帮助企业全方位了解信息与数据[2]。

2.2保证信息数据的准确率

数据挖掘技术拥有强大数据运算功能,以往的数据信息系统运算数据时需要耗费大量时间与成本。如果信息数据体系庞大,系统运算时会面临瘫痪问题。在软件工程中,一旦系统发生瘫痪,系统将无法正常使用,数据也会受到破坏。应用数据挖掘技术之后可以有效解决以上问题,实现系统的优化,使系统可以在最短时间内处理数据,防止信息数据发生丢失现象,提高数据处理的时效性。面对大量的信息数据,有的数据得不到利用,但长期处于系统中会影响系统运行效率,应用数据挖掘技术可以将无价值的数据剔除,留下有用的信息数据,保证系统的运行效率和数据质量。

2.3缩短信息数据处理时间

在软件工程中应用数据挖掘技术可以分类处理杂乱无章的数据,实现数据的转换与调用。对数据进行深入挖掘处理时也可以应用数据挖掘技术进行数据的分类,并对模糊数据及时清理,提高系统内现存数据的实用价值。人们获取到的信息数据需要进行反复核对,以此保证数据真实性,通过数据挖掘技术的应用减少时间浪费,提高数据核对效率。

3数据挖掘技术在软件工程中的应用分析

3.1系统结构

数据挖掘技术应用流程主要分为三个阶段:数据预处理、数据挖掘、模式评估与知识表示。在数据预处理阶段中,高效得到原始数据的根本原因在于确定任务处理对象,得到符合软件工程需求的数据。通过数据清洗弥补原始数据存在的缺陷,确保数据的完整性。数据抽取需要从数据库中选择与软件工程任务相符合的信息。数据转换需要将数据格式加以转化,实现数据的适用性。在数据挖掘中需要制定一定的挖掘任务,通过对数据的分类与评价总结,合理应用运算方法进行数据推敲。在模式评估与知识表示中,其实际用途在于挖掘成功的表达,将兴趣度作为衡量标准,提高数据表达的识别能力。

针对软件工程中数据挖掘技术的优化应用,可以从系统结构方面入手,具体如下:(1)检测软件工程中的克隆代码。以软件工程为标准,将一部分代码复制,结合实际情况更改一部分代码,并对这些代码进行检测,代码检测与更改可以同时进行,能有效提高检测效率,实现系统的维护工作。当前应用数据挖掘技术进行克隆代码检测的方式一共有四种,具体为比较标识符、对比文本、检测系统程序结构与度量圈。在实际操作中,要求人们结合实际情况选择相应的克隆代码检测方法。(2)数据信息挖掘法。这是以横切关注点为主的挖掘方法,在软件工程中应用该方法可以改造系统,对数据信息达到良好的处理效果[3]。

3.2软件管理

为了让数据挖掘技术更好地应用在软件工程中,需要从软件管理角度入手,采用以下两方面举措。一方面,深入挖掘数据的组织关系,另一方面,挖掘版本控制信息。软件工程系统比较繁琐,挖掘组织关系时较为困难,人们需要合理调配各项信息,以此作为挖掘的依据。如果以软件工程管理流程作为主题,对电子邮件与共享文件展开组织关系挖掘,可以有效避免系统流程发生混乱,保护软件管理的秩序。当信息数据发生变化时,应用数据挖掘技术进行软件管理,将版本控制作为重要依据,将数据挖掘技术与版本控制相联系,降低系统运行成本,并达到警示的效果,提高软件工程的管理水平。

3.3软件开发

在软件工程初期阶段,人们将数据挖掘技术看成数据库,随着技术的发展,软件工程发展到现实应用,系统和现实共同发展。软件工程将各项指标与要求紧密结合,研发出最新产品,以往的软件工程中软件开发十分困难,而如今应用数据挖掘技术,可以将其与数据库相融合,发挥数据库内信息的最大价值,有效推动软件开发的进步。不仅如此,软件工程可以对信息进行更深层次的挖掘,充分发挥软件工程的价值,利用数据挖掘技术实现数据的更新,保证软件开发质量,优化软件操作流程。在技术的支持下,人们可以合理划分软件内部,方便及时发现问题,并展开积极有效的问题处理。利用数据挖掘技术可以进行网站设计,对网站内容进行挖掘,特别是对文本内容的挖掘,随后整合网站信息,通过自动归类技术实现信息的层次性组织。在软件或网站管理中,应用数据挖掘技术可以根据用户对网站的访问记录,进行记录信息挖掘,从中了解用户对该网站内容的兴趣,进而对用户提供信息推送服务和定制服务,以此吸引更多用户访问该网站。

在软件开发阶段,可以使用DataAnalytics轻量级业务数据可视化分析平台,这是数据挖掘技术的一项成果。该平台能够实现异构数据源的高效整合,可以兼容各种数据源类型,支持海量数据。可接入Excel/CSV等数据文件、企业各种业务系统、第三方互联网数据、公共数据服务平台等来源,轻松整合所有相关业务数据,帮助企业消灭数据孤岛。企业利用该平台可以完成数据的深度交互分析,DataAnalytics基于探索式分析,支持智能推荐图形与图表,二者可以协同过滤,帮助用户快速定位,通过数据挖掘找出问题,以拖拽式操作方法解决问题。

3.4聚类

在数据挖掘技术中聚类指的是对各个环节数据加以分析,结合软件工程的具体要求实现数据细化,以类型细化作为基础,为原始数据类型做出保障。通过聚类可以让同种类型数据具有相似性特点,在存在相似性的同时,也存在一定的差异,突出各自的特点。应用数据挖掘技术实现聚类划分时,面对的对象无法预测,与其他算法相比,聚类拥有更加广泛的应用范围,进行数据分析时更加独特,挖掘信息数据时可以确保检测结果的有效性与真实性。

4结论

总而言之,随着信息技术的深入发展,人们已经步入信息时代,数据挖掘技术也成为对信息数据展开处理和存储的有效方式。在软件工程中应用数据挖掘技术,有利于提高软件开发效率,提升软件管理质量,加强数据挖掘力度,使数据挖掘技术发挥巨大效果,人们可以应用数据挖掘技术完成数据的聚类和网站设计,为人们的生活带来便利。

[软件工程硕士论文参考文献]

[1]张立鉴.数据挖掘技术在软件工程中的应用研究[J].网络安全技术与应用,2019(6):47-48.

篇5

[2] http:///f?kz=691510974.

[3] J.M.Kleinberg. Authoritativesources in ahyperlinked environment. Proc.9th ACM-SIAM Symposium on Discrete Algorithms. 1998:668-677.

[4] 李晓明,刘建国.搜索引擎技术及趋势.大学图书馆学报,2000,(16).

[5] 陈新中,李岩,谢永红,杨炳儒. Web挖掘研究.计算机工程与应用,2002_13.

[6] 刘军.基于Web结构挖掘的HITS算法研究.硕士学位论文.中南大学,2008.

[7] 刘悦.WWW上链接分析算法的若干研究:(博士学位论文).北京:中国科学院,2003.

[8] A. Blum and T. Mitchell. Combining labeled and unlabeled data with Containing. In COLT:Proceedings of the Workshop on Computational Learning Theory.Morgan Kaufmann Publishers. 1998.

[9] Chakrabarti S, Gerg M, Dom B. Focused Crawling:A New Approach to Topic-Specific Web Resource Discovery. Computer Networks. 1999,31(11):1623-1640.

[10] S. Brin and L. Page. The anatomy of a large-scale hypertextual Web search Engine. In seventh International World Wide Web Conference. Brisbane. Australia, 1998.

[11] Haveliwala T H. Topic-sensitive PageRank[C]. Proceedings of the Eleventh International Word Wide Web Conference. Hoho Lulu Hawaii,2002.

[12] 江裕明.基于超链接的Web结构挖掘算法的研究.硕士学位论文.西安电子科技大学,2006.1.

[13] Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann 2000.

[14] 刘芳芳.Web链接分析中HITS算法的研究.硕士学位论文.大连理工大学,2006.

[15] 李秋锐.基于蜜罐网络的邮件捕获系统分析与部署[J].信息网络安全,2012,(01):64-67.

[16] 郎为民, 杨德鹏, 李虎生.智能电网WCSN安全体系架构研究[J].信息网络安全,2012,(04):19-22.

基金项目:

篇6

 

在电子政务信息建设中已经有了成功的电子政务业务处理和信息管理系统,卓有成效的过程控制指挥系统和办公自动化系统。但从电子政务全局的高层次和大范围的分析角度去审视,则感到数据分散,难以整合。因此,研究电子政务数据仓库和数据挖掘很有必要。

1.电子政务信息建设的数据仓库

电子政务数据仓库是电子政务信息架构的新焦点,它提供集成化的和历史化的电子政务业务数据;它集成种类不同的电子政务应用系统;电子政务数据仓库从事物发展和历史角度来组织和存储电子政务数据,以供信息化和分析处理之用。它是对现有电子政务信息系统深刻认识的结果,来自异地、异构的电子政务数据源或数据库的数据经过加工后在电子政务数据仓库中存储、提取和维护。传统的电子政务数据库主要面向业务处理,而电子政务数据仓库面向复杂数据分析、高层决策支持。电子政务数据仓库提供来自种类不同的电子政务应用系统的集成化和历史化的数据,为全局范围的电子政务战略决策和社会治安长期趋势分析提供有效的支持。免费论文参考网。目前,经过近20年的建设,全国电子政务信息系统建设已经积累了大量数据,对于电子政务工作起了意义深远的推动作用,电子政务工作已经初步进入了数字化、电子化、信息化,极大地提高了电子政务工作的效率。以土地管理为例,现在的管理方式是以前不能比拟的。但是,如何将这些数据用于全局范围的战略决策和长期趋势分析,则是需要进一步解决的问题。例如,土地问题,近年来始终与住房问题、物价问题和就业问题一起,成为全国人民非常关心的问题,其问题有表面的原因,也有深刻的历史原因和现实原因。如何花较少的代价,将此问题解决得圆满一些,建设电子政务数据仓库是一重要手段。免费论文参考网。

电子政务数据仓库是一种全新的分布式异构数据系统的集成方法:把各个信息源中与决策支持有关的数据,预先经过提取、转换、过滤,并与相应信息源中其它数据进行合并,按主题存放在一个中央数据库中,当用户需要查询时,可以直接访问中央数据库,不必访问其它数据源。

电子政务数据仓库包括3个基本的功能部分。数据获取:从电子政务一线数据源获取数据,数据被区分出来,进行拷贝或重新定义格式等处理后,准备载入电子政务数据仓库。数据存储和管理:负责电子政务数据仓库的内部维护和管理,包括数据存储的组织、数据的维护、数据的分发。信息访问:属于电子政务数据仓库的前端,面向用户------提取信息、分析数据集、实施决策。进行数据访问的工具主要是查询生成工具、多维分析工具和数据挖掘工具等。

电子政务数据仓库的特点:针对全局电子政务业务战略分析,非常详细的数据,第三范式数据结构,高层次和大范围的分析,详细的历史信息,存储和管理大量的数据,整个数据结构统一,索引较少。

因此,原来对分布式异构数据的复杂访问变成直接在该仓库上进行即席查询的简单操作:用户需要某些指定信息和快速查询,但不一定要最新信息,在这个环境中需要高性能和访问信息源中不能长期保存的信息。

电子政务数据仓库是一个比传统解决方法更为有效的集成技术,即对感兴趣的数据及其变化预先提取并按公共模式集成到一个中央数据库中,由于分布和异构问题被提前解决,用户可以在中央数据仓库上进行高效的查询或分析。

由于电子政务数据仓库的体系结构,必须照顾电子政务已有的信息系统的体系结构,以及相关的基础设施,因此,确定电子政务数据仓库的体系结构,必须兼顾用户需求的多变性、基础设施的复杂性、技术更新的步伐。数据仓库本身可以使用通用的或者特别要求的数据库管理系统来实现。尽管在图中表示的是一个单独的、中央化的数据仓库,实际上,为了达到理想的性能,分布式和并行性往往是必然的选择。

电子政务数据仓库技术中一些比较重要的问题是:数据仓库管理,数据源和数据仓库的演化,复制带来的不一致,过期数据处理等。电子政务数据仓库管理涉及电子政务数据仓库开发的各个阶段,与之相关的问题涉及电子政务数据仓库设计、数据装载、元数据管理等。数据源和数据仓库演化,则是研究电子政务数据仓库体系结构如何顺利处理信息源的变化问题,如模式变化、新信息源加入,旧信息源删除等。复制不一致,是指从各个信息源拷贝来的同一信息或者相关信息出现的不一致,一般用集成器对这些数据进行清理。对于电子政务数据仓库中的数据,可能会保存很多年,但是一般不会永远保留下去,这就要求研究比较可靠的技术以保证过期的数据,可以自动而有效地从电子政务数据仓库中被清除出去。

2.电子政务数据挖掘一般方法

电子政务部门在过去若干年的时间里都积累了海量的、以不同形式存贮的数据资料,例如户籍资料、土地资料和规划管理资料等。此外,电子政务工作所涉及到的数据类型是相当复杂的,例如:用地指数,其特征抽取相当复杂;土地配置规律特点,其数据联系是非平面的,也是非标准立体的。由于这些资料十分繁杂,要从中发现有价值的信息或者知识,达到为决策服务的目的,成为非常艰巨的任务。电子政务数据挖掘一般方法的提出,让用户有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。

电子政务数据挖掘是按照既定的电子政务业务目标,对大量的数据进行探索、揭示隐藏其中的规律性并进一步将其模型化的先进、有效的方法。数据是按照电子政务数据仓库的概念重组过的,在电子政务数据仓库中的数据、信息才能最有效的支持电子政务数据挖掘。因此,首先从正在运行的电子政务计算机系统中完整地将数据取出;其次各个环节的数据要按一定的规则有机、准确地衔接起来,以极易取用的数据结构方式,全面地描述该业务目标。

电子政务数据挖掘就是从大量的、不完全的、模糊的、有噪声的、随机的数据中,提取隐含在其中的、事前不知道的、但是潜在有用的信息和知识的过程。电子政务数据挖掘技术是面向应用的,不仅面向特定数据库的简单检索和查询调用,而且要对这些数据进行微观和宏观的分析、统计、综合和推理,从中发现事件间的相互关系,对未来的活动进行预测。

3.基于电子政务数据仓库的数据挖掘

基于电子政务数据仓库的数据挖掘的方法,是以电子政务数据仓库为中心,各信息源由原始数据库,经过打包和集成到电子政务数据仓库;基于电子政务数据仓库的数据挖掘,是通过模型库和方法库的协助,对电子政务数据仓库进行数据挖掘,从而获得分析预测结果和决策支持的。

基于电子政务数据仓库的数据挖掘的特点:1、规模: 电子政务数据仓库中集成和存储着来自若干分布、异质的信息源的数据。免费论文参考网。这些信息源本身就可能是一个规模庞大的电子政务数据库,可以想象数据仓库会有比一般数据库系统更大的数据规模。如何从如此巨量的数据中有效的提取有用信息,需要各方面技术的进步。从当前发展来看,支持并行处理的分布式DBMS、具有大规模并行处理(MPP)能力的计算机、超大规模的存储机构等技术的发展和协同将使电子政务数据仓库走向实用。2、历史数据:传统的电子政务数据库系统为了获得最大的执行效率,往往存储尽可能少的数据量。因为,拥有的数据越多,数据组织、重构、浏览、索引和监控的难度越大。传统电子政务数据库系统在“时间”方向的长度很有限。比较而言,电子政务数据仓库的根本特征之一就是进行长时间的历史数据存储,这使得可以进行数据长期趋势的分析。电子政务数据仓库为长期决策行为提供了独一无二的支持,电子政务数据仓库中的数据在时间方向上具有大的纵深性。3、数据集成和综合性:从全局的角度看,数据仓库集成了电子政务内各部门的全面的、综合的数据。电子政务数据挖掘面对的是关系更加复杂的全局模式的知识发现,能更好地满足高层战略决策的要求。在电子政务数据仓库中,数据已经被充分收集起来了,进行了整理、合并,有些还进行了初步的分析处理。另外,电子政务数据仓库中对数据不同粒度的集成和综合,更有效地支持了多层次、多种知识的挖掘。4、查询支持 电子政务数据仓库面向决策支持,电子政务数据仓库的体系结构努力保证查询(Query)和分析的实时性。电子政务数据仓库设计成只读方式,用户可以直接访问电子政务数据仓库,挖掘过程可以做到实时交互,使决策者的思维保持连续,挖掘出更深入、更有价值的知识。

电子政务数据仓库和数据挖掘是将来电子政务智能化的基础,可以帮助用户得到他们想知道的信息,有些数据也许隐藏人们意想不到的信息,数据挖掘就是让用户发现这些隐藏信息的工具。电子政务数据仓库和数据挖掘研究和应用所面临的主要问题:挖掘的对象:更大型的数据库、更高的维数和属性之间的复杂关系;多种形式的输入数据;用户参与和领域知识的融合;证实(Validation)技术;知识的表达和解释机制;知识的更新和维护;多平台支持、与其他系统的集成。

篇7

中图分类号TP3 文献标识码A 文章编号 1674—6708(2012)76—0209—02

近几年来,随着数据库技术的不断发展,数据挖掘引起了信息产业界和整个社会的极大关注。因为人们所拥有的数据量在不断的增长,这就对数据的管理和分析提出了更高的要求,急需新的技术从大量的信息中提取或“挖掘”知识,于是数据挖掘(Data Mining)技术被受人们关注和使用。

1 数据挖掘技术定义

数据挖掘技术是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。在大多数情况下,人们只知道储存数据,数据越来越多,可是不知道数据中存有很多重要的信息,数据挖掘就可以从这大量的数据中搜索出重要的信息。

2 数据挖掘常用的方法

1)决策树。决策树方法是把数据分类,构成测试函数,建立树每一层分支,重复下去就构成了决策树。在构造决策树时,树尽可能精度高,规模小。商业银行在对风险决策时经常用此方法;

2)人工神经网络。神经网络方法引用生物神经网络的方法,就好像人的神经网络,它连接输入、输出信号的枢纽。它在很大程度上模拟人脑的神经系统处理信息。人工神经网络具有四个基本特征:非线性、非局限性、非常定性、非凸性。用人工神经网络方法建立的模型具有很强的非线性拟合能力,学习规则简单,控制能力强等优点;

3)遗传算法(Genetic Algorithm,GA)。遗传算法是模仿达尔文生物进化的自然选择和遗传机制的一种寻优算法。群体中的所有个体为研究对象,利用随机化技术搜索编码,然后分别利用选择、交叉和变异这三个基本遗传算子对其进行遗传操作就能寻找到问题的最优解或者是最满意解。遗传算法的优点是过程简单,具有随机性,可扩展性。实用。在很多领域得到了很大的应用。缺点是编程比较复杂,需要对问题进行编码,找到满意解后还要对问题解码。算法速度比较慢,对初始种群的选择有依赖性等缺点;

4)聚类算法。聚类算法可以说是多元统计研究“物以类聚,人以群分”的一种方法,主要任务是发现大型数据中的积聚现象。聚类分析是把相似特征的样本归为一类,类内差异差距较小,类间距差距较大。聚类算法在好多领域有应用。在商务上,根据客户不同的消费模式进行分类,对客户进行划分,帮助商家获得更多利益。在生物学中,对动植物进行分类,了解各自的基因特征。聚类的算法也比较多,例如:基于模糊的聚类方法、基于粒度的聚类方法、量子聚类、核聚类、谱聚类,这些是新发展的聚类算法。还有常用的聚类算法—BIRCH算法、K—MEANS算法、均值计算方法等。

3 数据挖掘的应用

数据挖掘技术在好多领域有应用。例如:金融业、通讯、教育、政府管理部门等等行业。1)金融业。例如:金融事务需要搜集和处理大量复杂的数据,许多银行和金融机构提供多种多样的投资服务(如共同基金)、信用服务(如个人信用卡)和银行服务(如个人存款)。由于交易的频繁性、信息的不对称性和复杂性,必须从海量数据中挖掘信息,金融数据挖掘技术可以帮助银行系统查询客户以往的需求情况并预测未来;可以分析潜在的信誉较差的客户,及时采取措施减少资产损失;2)通讯业。例如:现今通信业务可以说是五花八门,多种多样,适合不同需求的人群。要想退出新业务,创效益。就必须先确定可能要试用此项业务的客户特征。确定完成后先让小范围的客户试用此项业务,当他们试用一段时间后,对客户的反馈信息进行分析,修改更新,反复这样下去,直至此项业务成熟后,推广进入市场。那如何从大量的客户消费数据中得到这些客户特征,这就需要数据挖掘技术对客户进行详细的深层次的分析,得到有效的,准确的数据;3)教育部门。例如:高校的招生可以说是任何一个高校的大事,招生好坏直接影响学校的生存。专业计划的是否合理,就直接影响招生。我们需要对大量的招生录取信息和就业信息进行分析,数据挖掘技术就可以从这些信息中提取重要的信息预测未来的专业计划如何投放,每个专业投放多少比较合理,不至于计划浪费;4)政府管理部门。随着社会的不断进步,政府部门内部以及部门之间拥有了大量的政务信息,要想掌握有效,准确的政务信息,我们可以利用数据挖掘中的决策树方法,从大量的政务信息中提取准确有效的信息,大大提高整个电子政务的智能化水平。可以通过对网络各种经济资源的深度挖掘,确定未来的经济形势,从而可以指定出合理的宏观调控政策。为社会经济提供有力的可靠的拐杖。

4 数据挖掘未来的展望

数据挖掘的应用越来越广泛,人们对数据挖掘技术的需求水平也就越来越高。它可以预测未来的发展趋势,所以今后研究焦点可能会集中到处理非数字数据;寻求数据挖掘过程中的可视化方法,便于在知识发现过程中的人机交互,使计算机真正实现智能化。这可能需要一段时间,需要计算机工作者的不断的研究探索,可能需要很大的努力。但我相信,不久的将来我们会看到数据挖掘据技术很大的进展。

参考文献

[1][加]Jiawei Han Micheline Kamber著.范明,孟小峰译.数据挖掘概念与技术[M].机械工业出版社.

[2]陈晓燕.遗传算法在数据挖掘中的应用[J].琼州学院学报,18(2).

[3]周明华.近代算法在工程领域中的应用研究[D].浙江大学博士学位论文,2005,1.

[4]曾令明,金虎.基于遗传算法的双向关联规则挖掘[J].微电子学与计算机,2006(23):35—37.

[5]周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用, 2012,48(12).

篇8

1 当前很多高校学生的成绩管理面临的问题

目前大部分高校教务管理系统是采用联机的事务处理系统对学生成绩进行管理,成绩数据只能简单地存储于数据库中,而对数据的处理也停留在单纯的数据查询和插入修改等功能上,仅有的对成绩的分析可能也只是求总和、平均值、均方差和合格率等之类的统计。教务管理系统中的数据单纯的保存了相关数据信息而没有能够挖掘出这些数据背后所隐藏的可能有用信息——例如学生每门课程取得的成绩的可能原因、每门课程的诸多知识点之间以及课程和课程之间的联系。庞大的数据库里数据和数据之间存在着很多的关联,我们如何充分利用这些数据关联,为高校教育教学决策者提供一定的决策依据,从而科学的指导教学,提高高校的教学及管理水平,进一步提高办学效益和水平,是目前高校需要去面对和解决的问题。

2 利用数据挖掘技术管理学生成绩

数据挖掘技术就是从大量的、有噪声的、不完全的、随机的、模糊的应用数据中来提取隐藏在其中的潜在并且十分有用的信息过程[2]。利用数据挖掘对存储在高校成绩数据库中的学生成绩数据信息进行全面的深层次的分析和挖掘,达到全面地分析成绩数据的优劣及产生原因、各种因素之间隐含的内在联系的目的。挖掘分析这些数据所隐藏的有用信息,找到对指导教师教学和学生学习有用的知识,帮助高校管理者对未来高校的发展进步的决策。由此可见,数据挖掘技术一定会在教师提高教学质量、学生增加学习效率和学校强化管理水平等方面起到至关重要的引导作用[3]。

第一,使用计算机对高校学生成绩进行信息管理相对于传统管理方法有着十分明显优势:在现代的互联网时代,信息的管理早已经超越传统概念,使用计算机存储量大且成本低,可以长久保存,同时对信息的检索更迅速也更方便,结果的可靠性也是传统管理方法不可比拟的,这些也正是高校管理正规化和教育单位的科学化所必需的。

第二,学生成绩管理系统对于任何一个教育单位来说都是一个不可或缺的组成部分。它对于高校的管理者的办学思路的抉择来说是至关重要的。高校的成绩管理系统不仅应该做到为用户提供方便快捷的查询手段还用改能够提供充分的信息量以满足不同用户的不同查询需求。学生可以通过这个系统方便的查找自己到各门课的考试成绩及其他的教学相关信息;教师也能够通过系统提供的查询和分析工具非常准确的掌握学生的成绩变化,及时获取教学效果反馈信息,改进教学方式方法等;对高校的管理者来说,运用了最新的数据挖掘技术的学生成绩管理系统也可以让他们更及时快捷的从海量的数据中找到有用的信息,从而为不断提高高校的办学质量和管理水平提供保障。

3 学生成绩管理系统的设计

3.1数据挖掘的过程

数据挖掘是一个多阶段的复杂过程,如图1所示直接数据目标数据净化数据数据源知识数据选择清理与集成数据转换数据挖掘模式评价数据预处理数据挖掘解释和评价。

主要分为以下六个主要步骤[4]:

1)确定数据源。数据源的确立是整个系统的基础,是挖掘结果准确的保证。对学生成绩信息进行数据挖掘时,面向对象是各类不同的学生,例如教务处要挖掘的信息是面向全校学生的成绩,从而掌握全校学生的学习情况,而每个系所要掌握的学生的学习情况是针对本系的学生来说的,所以要挖掘的对象也只是每个系学生的成绩信息。他们面向对象和数据挖掘的目的都是不同的;

2)选定模型。为所挖掘的问题选择恰当的数据挖掘方法,并且针对该挖掘方法选择几种或是一种的算法。选择何种算法将直接影响挖掘信息的质量;

3)采集数据。这个阶段在整个开发过程中将会占用开发者大部分的工作量和时间。因为开发者需要收集在以往的教学实践中的数据信息,这些信息中,有些数据他们可以以直接的方式获得,而有些数据可能需要对学生以问卷调查等形式获得。

4)数据预处理。开发者在这一步需要将收集到的大量的不同的数据预处理,使其为一个分析数据模型;数据预处理是数据挖掘很重要的一步,数据只有经过预处理才能提高挖掘对象的质量;

5)数据挖掘。算法在这一步得到具体的实现,开发者将对经过预处理的数据信息进行挖掘;

6)解释和评价。分析和验证上一步的挖掘结果,并从中找到有价值的信息,将其集成到教师的教学环节和学生的学习环节中去,使教师和学生可利用所得信息改进教和学的策略,指导学生进一步更好的学习。

3.2数据挖掘的方法

在实际应用中需要根据对信息的实际需求选择恰当的挖掘算法。通过对几种常用的数据挖掘方法进行比较和分析,本文选择了以下两种适合的算法:关联分析方法以及决策树分类方法。

1)关联分析

利用关联分析对数据进行挖掘的目的就是挖掘出隐含在数据之间的关系。首先给定一组或一个记录的集合,然后,通过分析此记录集合从而推导出信息之间的相关性[5]。一个适用于关联规则的最有说服力的例子就是“90%客户在购买黄油和面包的同时也会选择购买牛奶”,即:规则“购买黄油和面包也会同时购买牛奶”的信息可信度高达90%。在大型的数据库系统中,类似的关联规则会产生很多,因此需要开发者进行筛选。一般来说,我们会采用 “可信度”和“支持度”这两个闽值去淘汰一些没有太多实际意义的规则。

关联规则算法主要 有以下两个步骤:第一步要求开发者查找出所有的频繁项集。频繁项集就是指其支持度大于或是等于最小支持度的那些项目集。第二步是指由频繁项集所产生的强关联规则,即所产生的以上规则一定要满足最小置信度和最小支持度[6]。

在实际教学中应用关联分析的数据挖掘方法对学生成绩信息进行分析和处理,研究课程的开设先后关系以及各门课程的成绩相关性,分析的结果将对一些课程的教与学提供很多有用的信息,使高校的教学工作迈上一个新的台阶。

2)决策树算法对学生成绩的分析

决策树算法是以实例为基础的归纳学习算法,用来形成数据挖掘的预测模型和分类器,同时可以对大量未知数据进行预测或分类、数据的预处理以及数据挖掘等。通常包括两部分:树的生成和树的剪枝[7]。

使用决策树算法来提取分类规则时,规则使用以“if——then”的形式表示。决策树算法和其他算法相比具有以下的优势:处理速度较快;从结果上来说,分类准确率也更相近,算法更容易转换为SQL语句。

4 结论

利用数据挖掘技术进行高校学生的成绩、心理分析和德育评估、教学及管理决策、教学质量评估等,能够为学生、教师以及教学管理人员等用户提供相应的数据信息支持,对教务管理和教学过程有着极为重要的指导意义,同时也为高校教与学、管理与决策的服务提供了一种新的思路。

参考文献

[1]刘春阳,数据挖掘技术在高校成绩管理中的应用研究,学位论文大连交通大学,2009.

[2]J.Braehaan,T.Anand.The Proeess of Knowledge Diseovery in Databases.A Human一eentered APProaeh.1996:37-58.

[3]刘军.决策树分类算法的研究及其在教学分析中的应用[D].河海大学,2006.

[4]邓景毅.关联规则数据挖掘综述[J].电脑学习,2006(3):2-3.

篇9

数据挖掘技术作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。

一、数据挖掘技术的概念

随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。wWW.133229.Com从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。

二、数据挖掘技术在保护设备故障信息中的实现方法

1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。

2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。

三、数据挖掘技术保护设备故障信息管理的基本功能

1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。

2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。

四、结语

随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。

参考文献:

[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[j].电力自动化设备,2011,9

篇10

一、引言

随着我国高等教育的改革和发展,高校进入大规模举债办学的阶段,高校财务面临的局面越来越复杂。高校不仅有基础建设、事业单位经费收支,还涉及到科研经费、校办企业投资等,高校一旦发生财务问题,影响的不仅仅是高校本身,更会引发各式各样的社会问题,因此需要对影响高校正常运行的各种财务问题进行实时有效的监控。

传统的财务分析方法单纯以财务报表为基础,就多个指标进行分析,也就是单纯地看最近一年或几年,或者某个院系的指标。与这些静态的分析方法相比,把商业智能运用到财务预警系统,即将财务数据和各种外部数据进行收集、归纳、量化(ETL技术)建立数据仓库,高校财务部门可以通过提取有用的数据经过联机分析处理工具(OLAP)或数据挖掘工具(Date Mining)结合财务部门的专业知识进行分析,转化为对高校财务分析有用的信息,从而为高校财务提供一个动态的风险预警方案。总而言之,将商业智能运用于高校的财务分析系统,可以根据不同的决策层灵活地展现财务分析结果,也可以连续分析财务问题,还可以与高校其他院系联合在一起进行综合分析。

二、高校财务指标体系的构建

高校财务指标是高校财务预警的一个核心,相关学者对高校财务指标体系已经有了一定的研究,本文针对高校过度举债、资金利用率低等问题,就高校财务指标作了相应的调整,再结合指标选取原则初步建立了有效的高校指标体系。

(一)偿债能力

为了反映高校偿还债务能力和资产负债水平,选取流动比率、资产负债率、长期负债率、贷款收入比重、利息保障倍数五个指标。

(二)营运能力

为了反映高校的经营状况选取现实支付比率、潜在的支付比率、公共经费支出比率、投资收益比率、自有资金余额占年末货币资金比重五个指标。

(三)发展能力

为了反映高校的成长性以及开源创收的能力,选取净资产增长率、固定资产增长率、现金净额增长率、自筹收入比率四个指标。

(四)非财务因素

一些非财务因素也能体现出高校的办学效率和发展实力,为了全面反映高校的发展状况选取了师生比、教师人均科研经费和教师贡献率三个指标。

即使指标选择严谨,这些指标中某些指标间还是有一定的相关性,并且过多的指标会增加信息的收集和整理难度,降低工作效率,所以要对这些指标进行优化。将初选四个方面的所有十七个指标汇总进行正态性检验,将服从正态性分布的指标体系进一步做T检验,以确定哪些指标具有显著性作用,筛选出显著性指标,删除不显著的指标;将没有服从正态性分布的指标体系进一步做非参数检验,同理确定这部分指标中的显著性指标,删除不显著的指标,最后汇总所有显著性指标用于构建高校财务预警模型指标体系。此优化过程不仅解决了预警指标体系的显著性问题,同时也达到了尽可能降低预警指标体系维度的目的。

三、高校财务预警基于商业智能技术的实现

高校商业智能系统主要包括三部分:高校数据仓库、多维分析和高校数据挖掘。高校数据仓库用于存储有用信息;多维分析可以从不同层面进行全面了解储存在高校数据仓库中的信息;高校数据挖掘则是发现问题找规律,并对将来进行预测。高校商业智能实现的大体过程是收集数据,对数据进行清理、转化,存入数据仓库,将仓库数据变为信息,并用OLAP工具、数据挖掘工具对信息进行处理,将信息变为对决策有用的知识。其架构如图1。

(一)财务数据仓库的设计

高校数据仓库的目的是通过对整个高校的相关数据进行梳理,构建一个体系化的数据存储环境,把大量分散复杂的数据转化成集成的、统一的信息,将正确的信息方便、准确地传递给需要的人。数据仓库与传统的数据库的最大区别在于传统的数据库是未经整理的一堆杂乱数据,而数据仓库是经过整理、规划过的系统数据库的子集合。数据仓库可以使高校面对大量的错综复杂的数据进行灵活的处理,为内部各个信息使用者提供他们所需要的有效信息。

1.数据仓库概念模型的设计

数据仓库的概念模型主要任务是界定系统边界和确定主题域及内容,星形概念模式是由一个事实表和一组维表组成,是一种多维的数据关系,相对于别的概念模型来说,星型虽然不节省空间,但是操作相对简单,所以创建高校数据仓库的概念模型采用星型。

高校各类指标的多维分析是商业智能技术构建高校财务预警的核心问题,所以在设计概念模型时,应选择财务指标作为数据仓库的主题,并以这一主题建立事实表,然后从高校财务分析的角度来确定维度,如时间、项目、部门等。各高校可以根据自身的情况来设定维度,文章根据自身了解的情况拟设了六个维度作为介绍:院级单位、项目、部门、指标、往来单位、时间。星型结构设计如图2。

2.财务数据仓库逻辑模型设计

逻辑模型主要是根据星形维度的选择,构建维度的层次关系,层次关系以高校相关人员对信息的需求为主线,分析各维度的层次关系以及粒度的划分、事实表的设计等。比如之前的高校数据仓库概念模型设计分了六个维度,时间维度就可以从日、周、月、季度、年来进行划分层次;院级单位可以按一级单位(校),二级单位(院),三级单位(部门)依次划分;指标可以根据前文中所示的指标类型进行划分;项目可以按照高校所承接的国家级项目、省级项目以及其他项目类别进行划分;部门可以按党委部门、行政部门、教学单位、教辅单位、附属单位依次划分;往来单位按照政府、金融机构、企业等进行划分。

3.财务数据仓库物理模型设计

物理模型需要确定数据的存储结构、索引策略、数据存放位置及存储分配等,主要目的是提高性能和更好地管理存储数据。

4.数据ETL

ETL包括抽取、转换、装载。其中,抽取是将数据从各种原始存放系统(如各种帐套数据和Excel文件)中读取;转换是按照预先设计好的规则将数据转换,使数据格式统一;装载则是将转换好的数据导入高校数据仓库。

(二)基于OLAP技术的财务分析模型实现

OLAP技术(联机分析处理技术)以数据仓库为基础,针对某个特定的主题进行联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给使用者。OLAP技术的一个重要特点是通过多维交互的方式对数据进行处理,与多维数据组织的数据仓库相互结合、补充,这些多维分析操作可以使用户从不同的维度和角度来分析数据,其中主要方法包括切片、切块、钻取和旋转。

而对于已经建立并装载完成了高校数据仓库的,可以在此基础上建立OLAP系统。首先对OLAP的多维数据结构进行设计,包括维度和多维数据集的设计,然后创建维度和多维数据集,可以采用Analysis Service做分析服务器,最后利用SSRS展示查询数据。高校财务预警正是运用OLAP技术实现各监控指标的多维综合评价,达到对高校财务数据的实时分析。

例如,通过对高校财务部门的调查研究,发现其需要了解高校不同时间、不同院系的科研收入、教学成果以及偿债能力等,那么信息使用者可以在选择范围内的维度和量度来进行有意义的组合,还可以从其他不同的角度来了解高校的财务状况。通过报表展示,可以选择对不同维度上涉及到的数量进行分析,并找到有价值的信息。高校可以选择“时间”、“各级院”、“偿债能力”组成一个三维的偿债能力立方体,以表示在不同的时间,各个二级院校的偿债能力如何。具体如图3。

OLAP对于数据的即时处理和分析充分体现出财务分析的时效性和真实性,实现了商业智能技术与财务分析的融合。OLAP通过多维的方式对数据进行了分析、查询和定制报表。维是人们观察数据的特定角度,多维分析方式符合思维模式,减少了混淆并且降低了出现错误的可能性,它能使用户多侧面、多角度地观察数据库中的数据。OLAP可以通过切片、切块、钻取及旋转等操作来分析数据仓库中的财务数据,以对高校的财务数据进行更透彻形象地分析。

(三)基于数据挖掘技术的财务预警模型的实现

对于已经存在的财务信息,可以利用OLAP技术从不同的维度由高校数据仓库中获取,但是高校数据仓库数据中潜在的、隐藏的关系和信息很难得到充分的体现,以确定高校的财务发展趋势。因此需要利用数据挖掘技术对它们进行深度的挖掘,构建高校财务危机预警模型。

数据挖掘技术提供了多种财务预警计算方法,如神经网络算法、逻辑回归算法、聚类分析算法、决策树和关联规则等,在前文已建立数据仓库的基础上,可以根据财务预警的具体需要选择适当的算法构建财务预警模型,分析数据挖掘的结果。具体说,将已经准备好的数据分离到定型数据集中,并生成挖掘模型,通过创建预测查询,运用测试数据集验证模型的准确性,以确定是否是性能最佳的模型。当模型确定以后,进行财务预警分析。

鉴于高校财务问题与一般企业的财务问题有着本质的区别,高校财务数据并不如上市公司一样公开,数据量不丰富,导致成熟的企业财务预警模型很难适用于高校,所以本文认为数据挖掘方法中的灰色关联计算方法更适合高校财务预警。运用灰色关联的数据挖掘技术进行财务预警相对于传统的财务分析方法能够消除数据的噪声,将非标准的数据标准化,在应对高校面临的外部环境多变的形势下,运用该项技术是必要的。具体做法是首先将数据从数据仓库中提取出来,然后对数据进行处理,如无量纲化,将处理后的数据带入灰色关联模型,得出结果并进行分析。具体步骤如图4。

四、结论

对于高校的财务预警问题,需要一个动态的监控系统来进行实时监控,而商业智能技术能够促进这一设想的实现。运用商业智能来构建高校财务预警系统可以将潜在的影响高校正常运行的各种财务状况实时反映出来。数据仓库技术能够使高校的数据进行自动的更新存储,OLAP技术能够对高校现有的财务数据进行多维的分析,同时应用数据挖掘技术建立财务预警模型,实现了对高校财务进行动态的监控。

【参考文献】

[1] 田隆.基于财务数据中心的商业智能平台设计与实现[D].北京:北京信息控制研究所硕士学位论文,2010.

[2] 陈俊.财务商业智能系统的研究及其实现[D].中国航天第二研究院硕士学位论文,2008.

[3] 丁博.基于商业智能的A央企财务分析系统研究[D].北京:北京交通大学硕士学位论文,2012.

篇11

关键词:高校教育教学;数据挖掘技术;运用

一、数据挖掘概述

所谓的数据挖掘,具体指的就是在海量且模糊随机数据当中提取出隐含其中,同时具有潜在价值的信息与知识过程。将数据挖掘技术应用在教育教学当中,可以对海量数据予以深入挖掘与分析,进而获得数据当中所隐含的潜在信息内容,更好地为高校教育教学管理人员决策提供有力支持[1]。

二、高校教育教学管理中的数据挖掘技术应用

2.1在教学质量提升方面的应用

高等院校为了更好地提高教学管理的质量,教务管理部门会在学期期末测评学员领导与任课教师的教学思想、态度以及教学方法等,并且根据最终的评分结果来明确教师的教学质量。然而,受评价人员对标准理解以及把握程度的影响,学生评价仍存在随意性特征。

在这种情况下,导致评分结果很难对教学效果进行真实地反映,因而也影响了教学质量的评估。

但是,将数据挖掘技术应用在教学质量评估方面,通过对关联规则算法的合理运用,可以将教学质量评价当中的不同指标权重系数进行设定,并通过Apriori的算法来扫描数据集,在数据挖掘的作用下,获取学历、年龄以及职称三者之间存在的联系,同样也可以获得教学质量和方法的关系[2]。

为此,高校教务管理部门就可以将获得的规律应用在教学管理实践当中,合理地设置督学小组并制定出听课制度,将教学课堂教学的质量真实且客观地反映出来,实现高校教学水平的全面提升。

2.2课程体系结构的有效完善

高等院校教育体系当中的专业建设作用十分重要,所以,必须要具备高质量的课程体系结构设置。在对学生成绩数据库以及毕业生去向数据库等多种数据信息进行数据挖掘以后,可以通过对关联分析与序列模式的分析和探究,获得数据与数据间存在的相关性。

其中,课程间的关系和先后顺序亦或是课程和课程体系结构之间的关系等等。在此基础上,保证学习高级课程前事先学习先行课程。以计算机专业《数据结构》为例,在教学中将《C语言》作为重要的先行课程,以保证学生在学习《数据结构》内容的时候可以具备良好语言基础,更深入地理解并灵活地应用数据结构当中的算法。

而在完成《数据结构》学习以后,应根据学生就业走向和市场的实际需求来确定是否安排《JAVA语言程序设计》课程教学。这样一来,学生的学习成绩实现了有效地提高,更利于学生未来就业。除此之外,对内容重复的课程进行有效地压缩,将落后的课程内容适当地删除,与专业特点相结合。

由此可见,将数据挖掘技术应用在高校教学中,对于专业建设以及课程改革决策具有积极的作用。

三、网络教学中的数据挖掘技术应用

在网络教学中应用数据挖掘技术,可以从Web文件以及Web活动当中选择出用户较为感兴趣的有价值模式以及信息,这就是所谓的Web挖掘[3]。因为接受教育对象在多个方面都存在差异,具体表现在个人学习目标、学习能力与知识基础的差异等。为此,网络教学也必须要能够适应个性化的学习需求。可以把不同用户学习状况与轨迹详细记录并存放至数据库当中,通过对WEB挖掘技术的合理运用,在序列模式挖掘的作用下合理地分类文档,以保证学生信息检索速度的提高。

另外,也可以根据学生访问浏览的数据挖掘并分析,针对访问的数据展开聚类分析,以保证更好地了解学生感兴趣的内容,并为其推送相关内容。与此同时,可以在相关联的页面当中合理地设置超链接,对网站结构予以有效地改善,确保页面间的链接与用户访问的习惯更吻合。

结束语:

总而言之,在高校教育教学中合理地运用数据挖掘技术可以在大量数据信息当中处理并提取出更具价值的信息内容,促进高等院校教育教学管理工作的正常开展,特别是评估与决策方面,数据挖掘技术的作用更为明显。

除此之外,该技术也可以应用在网络教学当中,使得网络教学资源配置更加合理,在教育教学中充分发挥自身的效用。上文针对数据挖掘技术在高校教育教学中的实际应用展开了相关性地研究和分析,主要的目的就是为了更好地帮助高校进行决策,为学生提供更为理想的学习环境,在提高学生学习兴趣的基础上,增强高校教育教学的质量与效率。

参考文献