欢迎来到速发表网,咨询电话:400-838-9661

关于我们 登录/注册 购物车(0)

期刊 科普 SCI期刊 投稿技巧 学术 出书

首页 > 优秀范文 > 数据挖掘总结

数据挖掘总结样例十一篇

时间:2023-03-14 15:21:21

数据挖掘总结

数据挖掘总结例1

中图分类号:F426.471 文献标志码:A 文章编号:1673-291X(2017)06-0051-03

引言

汽车产业是国民经济的重要产业,因其产业链长、辐射面宽、科技含量高、产业带动能力显著等产业特点,是世界各国家和地区发展的重点产业。本文深入分析和探讨数据挖掘技术在汽车销售中的应用,对于提高汽车营销绩效,促进汽车销售行业发展具有重要的理论意义和实践意义。

一、我国汽车产业发展的现状分析

1.汽车产业总量分析。汽产业因其产业链长、辐射面宽、科技含量高、产业带动能力显著等产业特点,是世界各国家和地区发展的重点产业。美国、德国、日本等世界产业强国在发展汽车产业的过程中,不断实现了经济效益的提升,也带动了整个工业发展水平的提高。

上图显示了1999―2011年间我国汽车生产总量的趋势。从图中可以看出,我国汽车产业呈持续发展态势,汽车生产总量由1999年的183.2万辆增长到2011年的1 841.64万辆。

2.汽车产业销量比重分析。从销量比重角度分析,2000年,我国汽车销量为207万辆,占同期世界汽车总销量5 759万辆的3.59%;2011年,我国汽车销量为1 842万辆,占同期世界汽车总销量8 006万辆的23%。

3.汽车产业经济效益分析。2001―2010年期内,我国汽车工业总产值由2001年的4 433.2亿元提升到2010年的30 248.6亿元。汽车工业总产值占全国工业总产值的比重维持在4%~5%的水平,汽车工业总产值占机械工业总产值的比重维持在20%左右的水平。

二、数据挖掘及其对汽车销售的影响分析

数据挖掘(Data Mining),是以计算机为主要工具,以海量数据为分析基础,综合运用聚类、机器学习、分类、模式识别、专家系统等方法,发现隐藏在海量数据中的信息,以及数据之间的关联规则,从而形成知识发现的基本过程。在经济管理领域,以市场营销为例,以大数据为基础,通过数据挖掘技术的应用,能够发现消费者的消费偏好、消费模式,从而可以在消费者消费偏好和消费模式等信息的基础上进行消费者分类,并根据消费者分类进行产品开发,向消费者提供给个性化和定制化的产品或产品组合,进行实现经济效益。数据挖掘方法对于汽车销售工作的价值主要体现在,通过数据挖掘能够实现企业市场定位、实现消费群体定位和实现营销策略制定等方面。

1.通过数据挖掘实现企业市场定位。目前,汽车产品作为大宗商品其产品价格区间较宽,市场上既有几万元的车型,也有数百万的产品,每种价格区间的汽车产品对应不同的消费者群体和市场竞争。因此,合理定位汽车产品并制定有针对性的营销策略,对于汽车企业发展具有重要意义。应用数据挖掘中的聚类技术,能够以车型价格为特征指标进行汽车销售的市场定位分析,从而为企业制定产品价格决策和新车型产品开发决策提供依据。

2.通过数据挖掘实现消费群体定位。对于汽车销售而言,消费者的受教育水平、收入水平、购车方式等都是汽车销售过程进行产品定价和制定销售策略的重要信息,特别是在消费需求个性化特征日益明显的现实背景下,准确识别用户群体并提供个性化产品和服务对于汽车企业培育客户忠诚度具有重要意义。应用数据挖掘中的分类技术,通过消费者收入水平、消费方式等特征指标实现消费者分类,进行形成各类型消费者群体的消费行为特征。

3.通过数据挖掘实现营销策略制定。随着论坛、博客、微博、微信、电商平台、点评网等媒介在PC端和移动端的创新和发展,消费者的消费过程和消费体验信息不断增长,这些信息涵盖着商家信息、个人信息、行业资讯、汽车驾乘体验、汽车产品浏览记录、成交记录、汽车价格动态等等海量信息,应用数据挖掘中的关联规则提取技术,能够建立消费者特征指标与消费频次、消费产品价格之间的关联规则,从而为制定营销策略提供依据。

三、汽车销售行业中数据挖掘系统设计

建立汽车销售行业数据挖掘模块化系统,是辅助汽车销售决策者通过数据、模型和方法,以人机交互方式进行半结构化决策或非结构化决策的计算机应用系统,为决策者通过分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源和分析工具,以提高汽车销售的水平和质量。

1.案例库。对于汽车销售工作而言,在实践中能够积累大量关于消费者的信息,包括消费者学历、收入、工作性质、购车方式等,这些基础数据信息对于进行汽车销售的数据挖掘工作具有较高的借鉴意义,也是后续开展数据挖掘工作的基础。因此,应建立汽车销售案例库,对汽车销售信息进行存储、检索、处理、维护等方面的内容,以有效支持模型库、知识库和方法库的运行。

2.模型库。模型库系统能够灵活地完成模型的存储和管理功能,是汽车销售行业数据挖掘模块化系统的核心,在模型库中应综合集成数据分类、聚类、因子分析、关联分析、决策树分析以及数据可视化等数据挖掘算法,从而提高汽车销售行业数据挖掘的质量和效率。

3.推理机。进行汽车行业销售数据挖掘的价值在于通过数据挖掘形成关于消费者行为的关联规则以及关于消费者偏好等方面的信息,推理机是一种重要的基于知识的问题求解和学习方法,能够以数据、模型等为基础,实现知识获取、知识集成和知识服务等功能。

四、数据挖掘在汽车销售中的应用

利用数据挖掘的方法可以形成关于消费者行为偏好的信息,而这些信息可能成为扩大消费者群体的重要基础。汽车行业销售过程中应用数据挖掘方法,可以利用数据挖掘结果进行消费者群体分类管理,利用数据挖掘结果进行消费者消费偏好提取,利用数据挖掘结果进行消费者个性偏好推送,以及根据汽车营销数据进行数据挖掘模块再优化。

1.利用数据挖掘结果进行消费者群体分类管理。随着中国汽车市场渐入稳步发展轨道、汽车后市场的逐步兴盛以及汽车营销人对于数字化营销决策的日渐渴望,对客户信息的深度分析和应用将成为新常态。利用汽车销售数据挖掘结果,可以对消费者群体进行分类,例如可以将消费者划分为保有客户、增值客户、摇摆客户、流失客户等,从而为加强客户关系管理提供依据。

2.利用数据挖掘结果进行消费者消费偏好提取。网络的交互性特征以及消费者在通过互联网风险消费体现的行为特征形成了关于汽车价格、质量、功能、服务等方面的数据信息,特别是随着各种论坛、微博、微信、电商平台等信息分享渠道的开拓,消费者消费体验的渠道更广,通过数据挖掘中的分词、聚类、情感分析等方法能够了解消费者的消费行为、价值趣向、消费需求和质量等需求,从而进行产品创新和价值提升。

3.利用数据挖掘结果进行消费者个性偏好推送。利用数据挖掘的方法可以形成关于消费者行为偏好的信息,基于这些重要信息,汽车销售过程中可以根据消费者偏好向其推送与其偏好相符的产品价格、质量、服务等信息,在推动方式方面,可以综合领用微博、微信、电子邮件以及客户回访等形式进行产品推送。

4.根据汽车营销数据进行数据挖掘模块再优化。进行数据挖掘工作的价值在于提取关于消费者行为特征的关联规则,进而向消费者提供使其满意的产品和服务。然而,受消费者水平、产品功能、市场结构等各种因素的影响,消费者群体的行为特征也在不断发生变化。因此,汽车行业销售中的数据挖掘工作不是一成不变的,而是必须汽车营销数据为基础,不断对数据挖掘算法和数据挖掘模块进行丰富和优化,从而使建立在数据挖掘工作基础上的关于消费者行为特征的关联规则能够更好地服务于汽车营销绩效的提升。

结论和展望

本文以数据挖掘方法在汽车销售行业中的应用问题为研究对象,通过分析,认为数据挖掘方法对于汽车销售工作的价值主要体现在,通过数据挖掘能够实现企业市场定位、实现消费群体定位和实现营销策略制定等方面。提出了基于案例库、模型库和推理机的汽车营销数据挖掘系统架构设计,进而提出了利用数据挖掘结果进行消费者群体分类管理、利用数据挖掘结果进行消费者消费偏好提取、利用数据挖掘结果进行消费者个性偏好推送,以及根据汽车营销数据进行数据挖掘模块再优化。后续研究中,针对汽车行业的数据挖掘软件开发将是本文进一步的研究方向。

参考文献:

[1] 赵炎,姚芳.创新网络动态演化过程中企业结盟的影响因素研究――基于中国汽车行业创新联盟的分析[J].研究与发展管理,

2014,(1):70-77.

[2] 胡其颖.解读德国“国家电动交通工具发展计划”以及对我国新能源汽车政策的借鉴[J].可再生能源,2010,(5):150-153.

[3] n题组.上海国资引领战略性新兴产业跃迁式升级的架构创新路径研究――以新能源汽车产业为例[J].上海行政学院学报,2012,

数据挖掘总结例2

中图分类号TP392 文献标识码A 文章编号 1674-6708(2012)72-0203-02

0 引言

计算机网络技术的普及给人们的生活带来了翻天覆地的变化,同时在网络上产生了大量杂乱无章的数据。而应用Globus Tookit 4.0(简称GT4)技术构建网格平台,建立一个实用的基于网格的数据挖掘系统,为人们从分布的网络资源中寻找有价值的信息提供了新的技术支持。网格技术可以使分散在不同地理位置闲散计算资源实现共享,应用GT4的核心开发工具包(Java Web Service Core)和数据挖掘技术来处理分散的数据信息,管理网格平台中的资源就像对一台计算机操作一样,操作网格资源就像使用浏览器浏览网页一样方便。

1 系统结构设计

系统的结构设计在整个软件工程中比较重要,是根据用户的需求而设计的,它是整个数据挖掘系统的基础。该平台的体系结构具有如下特点:第一,实现了网格平台下数据资源的整合和管理;第二,能够处理本地和远程计算机上的数据,实现串行/并行的数据挖掘;第三,系统节点间相互协作,增加和删除节点都比较容易,系统具有可维护性。

1.1 系统的实现目标

利用日趋成熟GT4网格管理技术和数据挖掘技术来建立一个实用的分布式数据挖掘应用系统。当代社会的主要特征:数字化、信息化、网络化。网络基础设施日趋完善,软件、硬件资源配置合理稳定。利用现成的网络资源来建立一个网格开发平台具有一定的可行性。

1.2 系统模块划分依据

基于GT4数据挖掘系统的数据源是分布式数据源,分布式数据源是指在物理上分布而逻辑上集中的数据源系统。分布式数据源存储特点具有:

1)物理分布性,数据分散存储在网络中的多个节点上;

2)逻辑全局性,物理上分散存储的在各个节点的数据逻辑上是一个全局数据源;

3)节点自治性,各个节点的数据由本地用户管理,具有自治处理能力;

在该系统中,处在这个网格中的每台计算机就是这个网格的一个节点,称之为网格节点。在众多的节点中,要有一个网格节点来控制和管理其他的节点,这个节点就叫做网格中心控制节点,决策支持都是由网格中心控制节点完成的。如果要完成某个数据挖掘任务,则可以由空闲的网格节点先按挖掘需求来完成本节点的挖掘任务,再由网格中心控制节点来汇总每个节点的数据挖掘情况。局部网格节点管理的信息具有局限性,涉及的范围较小,主要完成单个节点数据的管理,对局部的数据挖掘结果进行汇总分析,但是这些局部节点的数据与全局节点的数据又是有一定关联的。

根据以上的分析可知,网格平台下的数据挖掘任务由全局数据挖掘与局部数据挖掘共同完成,基于GT4的数据挖掘系统主要包括以下几个模块:用户接口、资源注册、全局数据挖掘、局部数据挖掘。

1.3 系统模块的功能及接口设计

本系统是建立在Java_WS_Core分布式计算体系之上的,网格中的每台计算机都是一个独立的网格节点,并且它是作为独立的Web Service注册和的。每个节点都具有良好的独立性、可操作性和可移植性。为更好的完成系统的功能,将系统划分为四个模块,具体模块功能及接口设计如下:

1)用户接口模块:该模块实现用户和网格系统资源间的交互,是系统的窗口,它是一个管理注册资源、全局数据挖掘资源和局部数据挖掘资源的图形界面,是其他三个模块之间的纽带,为了用户操作方便,用户界面采用图形界面的Web方式,这样就可以用浏览器来和查找己有的服务,并且为用户和查找服务提供统一的接口。

2)资源注册中心模块:网格系统中的空闲的局部Web Service资源在这里进行注册,由全局控制节点在资源注册中心及时的增加和删除局部Web Service资源。

局部Web Service资源使用WSDL规范定义,主要完成对数据挖掘服务的提供者、数据挖掘的特定信息进行描述。数据挖掘服务的提供者的主要描述信息包括作为网格节点计算机的主机型号、硬盘大小、内存容量、所安装的操作系统、CPU和内存利用率等信息,并将其到资源注册库中。数据挖掘的特定信息描述主要包括数据挖掘算法实例地址、数据分配实例地址、数据挖掘状态、挖掘本地文件目录等信息。

数据挖掘总结例3

一 、数据挖掘

随着数据库技术的广泛使用,以及计算技术和计算机性能与网络的迅速发展,人们面临着一个困难的问题,即如何从海量的数据中提取出有价值的信息。查询功能远不能满足人们的需要,数据挖掘应运而生。有人将数据挖掘定义为一个从数据及数据库中抽取隐含的,先前未知的并有潜在价值的信息的过程。但有人认为数据挖掘,即数据库中的知识发现,是从大数据集中快速高效地发现令人感兴趣的规则,数据挖掘是数据库研究的新领域,所挖掘的知识能够用于信息、管理、查询处理、决策支持和过程控制等等。

数据挖掘(DataMining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。随着计算机网络的发展和普遍使用,数据挖掘成为迫切需要研究的重要

课题。

数据挖掘涉及多个学科方向,主要包括:数据库、统计学和人工智能等。数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用等几方面进行分类。按数据库类型分类:关系数据挖掘、模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。按数据挖掘对象分类:文本数据挖掘、多媒体数据挖掘、Web数据挖掘。按数据挖掘的任务有:关联分析、时序模式、聚类、分类、偏差检测、预测等。按数据挖掘方法和技术分类:归纳学习类、仿生物技术类、公式发现类、统计分析类、模糊数学类、可视化技术类。

二、数据挖掘的主要任务

(一)数据总结

数据总结目的是对数据进行浓缩,给出它的总体综合描述。通过对数据的总结,数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。

(二)分类

分类的主要功能是学会一个分类函数或分类模型(也常常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中。即:分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些组。这样我们就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。

(三)关联分析

数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。这种关联关系有简单关联和时序关联两种。关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数,,即使知道也是不确定的,因此关联分析生成的规则带有置信度,置信度级别度量了关联规则的强度。

(四)聚类

当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类分析。聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。

统计方法中的聚类分析是实现聚类的一种手段,它主要研究基于几何距离的聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。

三、数据挖据的应用

数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广泛的使用价值。现在已经应用数据挖掘技术的领域都是信息量大、环境复杂、需要知识帮助进行管理和决策的领域。下面介绍一些目前比较活跃的应用方向:

(一)在金融数据分析中的应用

多数银行和金融机构都提供了丰富多样的储蓄,信用,投资,保险等服务。他们产生的金融数据通常比较完整、可靠,这对系统化的数据分析和数据挖掘相当有利。在具体的应用中,采用多维数据分析来分析这些数据的一般特性,观察金融市场的变化趋势;通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付预测和客户信用分析;利用分类和聚集的方法对用户群体进行识别和目标市场分析;使用数据可视化、链接分析、分类、聚类分析、孤立点分析、序列模式分析等工具侦破洗黑钱和其他金融犯罪行为。

(二)在电力业的应用

在电力行业中,数据挖掘技术主要用于指导设备更新、业绩评估、指导电力企业的建设规划、指导电力的生产和购买、指导电力的调度等。数据挖掘在电力企业的其它方面也有巨大的用处,比如说指导项目管理、安全管理、资源管理、投资组合管理、活动分析、销售预测、收入预测、需求预测、理赔分析等。

(三)在零售业中的应用

零售业是数据挖掘的主要应用领域,这是因为零售业积累了大量的销售数据,如顾客购买史记录、货物进出、消费与服务记录以及流行的电子商务等等都为数据挖掘提供了丰富的数据资源。零售数据挖掘有助于划分顾客群体,使用交互式询问技术、分类技术和预测技术,更精确地挑选潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋势,进行关联分析,以便更好地进行货架摆设;改进服务质量,获得更好的顾客忠诚度和满意程度;提高货品的销量比率,设计更好的货品运输与分销策略,减少商业成本;寻找描述性的模式,以便更好地进行市场分析等等。

(四)在医学上的应用

近年来,生物医学研究有了迅猛地发展,从新药的开发到癌症治疗的突破,到通过大规模序列模式和基因功能的发现,进行人类基因的识别与研究。在人类基因研究领域具有挑战性的问题是从中找出导致各种疾病的特定基因序列模式。由于数据挖掘中已经有许多有意义的序列模式分析和相似检索技术,因此数据挖掘成为DNA分析中的强有力工具。基因序列的相关分析,遗传研究中的路径分析等。近期DNA分析的研究成果已经促成了对许多疾病和残疾基因成因的发现,以及对疾病诊断、预防和治疗的新药物、新方法的发现。

(五)在高校和科研单位以及其他领域的应用

主要是用于海量信息数据的抽取,提供给教研和科研人员有价值的数据。比如在数字图书馆方面可以引入数据挖掘技术。同时还可以应用的电子商务等等众多领域。

参考文献

数据挖掘总结例4

中图分类号:TN 文献标识码:A 文章编号:1009-914X(2015)23-0208-01

一 概述

客户决定企业命运。企业关注重点从产品逐步转换到客户,逐渐形成客户为中心的客户关系管理理念。客户关系管理是信息技术和商业发展过程中得出的理论体系,客户管理需要客户的支持。客户关系管理是企业利用信息技术和企业生产销售相结的产物。客户关系管理核心价值就是实现客户价值。客户关系管理利用计算机技术,实现市场信息化、销售自动化过程、对客户分析的全过程。客户关系管理可以使企业及时了解客户实际情况,增强客户对企业归属感和信任感。它是一种全新的管理客户模式。数据挖掘在客户关系管理研究与实践,大大促进客户价值实现。数据挖掘对客户挖掘结果会给企业带来指导意见,决定企业未来发展方向。

联通的客户关系管理系统是基于客户战略的,它为企业传递的是一种新的客户服务理念,是联通客户需求的风向标,它直接影响联通如何认识客户以及如何对待客户, 也直接影响联通公司的客户服务形象。通过数据挖掘系统与客户管理系统的结合,可以有效的实现对客户消费模式和客户市场推广的分析,实现对客户的动态防欺诈、流失分析及竞争对手分析。正确有效的运用数据挖掘意义重大。

二 数据挖掘的步骤

1.理解数据和数据的来源,进行数据收集

大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从做起。数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。数据收集是数据挖掘的首要步骤。

2.整合与检查数据

收集到的数据必须是有用的,避免可能存在自身的不一致性,或者有缺失数据的存在等,因此数据的整理是必须的。同时,通过数据整理,可以对数据做简单的泛化处理,从而在原始数据的基础上得到更为丰富的数据信息,进而便于下一步数据挖掘的顺利进行。

3.利建立模型和假设

主要采用时序算法、聚类算法、关联算法等,根据采集数据建立模型。

4.模型评估

模型建立完毕后,需要验证模型的正确性,并进行调整。应该利用未参与建模的数据对模型进行检验。这样做的原因是按照使用建模的数据进行检验,由于模型就是按照这些数据建立的,检验结果自然会很好。但是一旦运用到实际数据中,就会产生很大的偏差。检验的方法是对已知客户状态的数据利用模型进行预测,并将所得到的模型预测值,和实际的客户状态相比较,预测正确值最多的模型就是最优模型。不断重复进行数据挖掘一评估过程,多次的循环反复,以达到预期的效果。

5.决策分析

数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。

三.数据挖掘在联通客户管理业务中的作用

1 数据总结

数据总结目的是对大量的数据进行浓缩,将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。是数据挖掘的基本作用。用统计学中的方法计算出数据库的各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量,或者通过利用统计图形工具,对数据制作直方图、饼状图等,是最简单的数据总结方法。另一种广泛使用的数据总结方法是联机分析处理,是对用户当前及历史数据进行分析、辅助领导决策,主要通过多维数据的查询、旋转、钻取和切片等关键技术对数据进行分析和报表。

2 关联分析

数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。

3 分类

分析数据的各种属性,一个分类函数或分类模型(也常常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中,并预测新数据将属于哪一个组。

4 聚类

聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。

四.数据挖掘技术在联通客户管理管理方面的应用

1.客户市场推广分析

通过优惠策略预测仿真的方法,利用数据挖掘技术实现优惠策略的仿真。根据数据挖掘模型,进行模拟计费和模拟出账,其仿真结果可以揭示优惠策略中存在的问题,并进行相应的调整优化,以达到优惠促销活动的收益最大化。

2.客户消费模式分析

客户分类是客户数据分析基础,数据挖据对客户分类使用聚类和分类。通过分类可以发现不同客户群体的习惯和规律,找到客户价值点,准确预测客户消费方向。客户分类让市场营销活动更有目的性,提高市场营销效率,企业合理配置企业资源。客户分类结果实现客户利益最大化。如固话及移动话费行为分析,是对客户历年来长话、市话、信息台的大量详单数据以及客户档案资料等相关数据进行关联分析,增值业务话费分析,结合客户的分类,可以从消费能力、消费习惯、消费周期等诸方面对客户的话费行为进行分析和预测,从而为联通全业务运营商的相关经营决策提供依据。

3.客户流失分析

这是根据已有的客户流失数据,建立客户属性、服务属性、客户消费情况等数据与客户流失概率相关联的数学模型,找出这些数据之间的关系,给出明确的数学公式,并根据此模型来监控客户流失的可能性。如果客户流失的可能性过高,可通过促销等手段来提高客户忠诚

度,防止客户流失的发生,这就彻底改变了以往电信运营商在成功获得客户以后无法监控客户流失、无法有效实现客户关怀等状况。

4.对客户欠费进行分析和动态防欺诈

通过数据挖掘,总结现存的各种骗费及其欠费行为的内在规律,并建立一套防欺诈和防欠费行为的规则库,当客户的话费行为与该库中规则吻合时,系统可以提示运营商相关部门采取措施,从而降低运营商的损失风险。

5.竞争对手分析

数据挖掘总结例5

中图分类号:G25 文献标识码:A 文章编号:1674-098X(2014)11(a)-0193-01

在现代科技带动下,图书馆也向信息化、自动化与数字化的方向迈进。数据挖掘就是在这个时代应运而生的,如今,它已经在金融业、销售业、建筑业等行业取得了许多成功,为这些领域的更快更好发展立下了汗马功劳。目前,互联网上的数字图书馆数量与日俱增,因此数字图书馆的数据挖掘技术就具有很重要的意义。数据挖掘技术在数字图书馆中的应用,将为数字图书馆在图书资源组织管理、服务质量的提升与服务方式的扩展等方面提供有力的技术支持。

1 数据挖掘概述

数据挖掘这个技术是近几年来从计算机科学研究中发展出来的一个分支学科。具体是指从海量数据中提取或挖掘出隐藏的信息。所有信息载体或信息存储上都可以使用数据挖掘技术。数据挖掘的整个过程是由准备数据、数据采集、显示结果与解释分三个部分组成的。整个采集过程是对数据的循环精练过程,离不开人为的操作。数据挖掘技术大大降低了从大型数据库中挖掘出有用信息的难度,采集人员并不需要有很强的数据分析和数据统计的能力。数据挖掘与知识挖掘既存在一定联系,同时又有一些差别。通常认为数据挖掘是知识挖掘过程的一个基本过程,它采用特定算法把数据从数据库中采集出来的模式,最后再经过系统解释与翻译功能把这种模式变换成用户能够理解的信息。另外,数据挖掘的过程是随机发生的,用户预先不能知道结果;信息检索的初衷是帮助用户从大量数据中挖掘出满足其查询条件的信息,而数据挖掘是把文档内隐藏的知识提取出来。这两个系统是相辅相成的。因此可以利用数据挖掘的研究结果来提高信息检索的效率与准确度,优化检索结果的显示,使信息检索系统更优良、更全面。

2 数字图书馆的定义

如今对掘数字图书馆的定义有很多,总体概括起来,数字图书馆就是依靠计算机互联网络、信息检索技术、图书分类技术、管理等技术,把图书整理、保存、保护、数字信息收集与使用等功能融于一体的综合智能数字信息管理与服务中心,这里包含了计算机网络、人工智能、数据库、图书情报学等最新技术。数字图书馆是基于本着尽最大可能满足用户的所有需要,方便用户使用的宗旨,向用户提供能够满足特定需求的优质服务,同时它又能够培养用户个性,引导用户的需求,这种方式大大促进的现代图书馆的发展。促进人类文明的进步。如今国内外数字图书馆的数量显著增加,对信息服务系统的研究也越来越深入,信息服务的应用也更加广泛。

3 数据挖的功能特性

(1)聚类。聚类就是把所有数据个体根据它们所具有的相同特点归纳在一起,形成一组具有特定属性的数据群组,同种类聚类就是把同一种类的数据放在一起,不同类聚类则是把不同种类的数据放在一起。,这样就能反映出同种事物的共同属性与不同事物间的差异属性。通过这种方式,数据库中的数据就会被划分成许多有特定属性的子集。

(2)关联分析。它反映了各数据单元间关联的信息,如果一组数据多项属性都存在关联,那么其中某一项的属性就可根据其他一些属性来判断分析。

(3)概念描述。概念描述就是对某类对象的本质进行探讨分析,并总结这类对象的相关特点,概念描述有区别描述与特征描述两种,前者描述不同类对象间的差别,后者则是描述某类对象的相同特征,最后形成一个类的特征性描述,并且只涉及这类对象中全部对象的共同特性。

(4)预测趋势与行为。数据挖掘系统能够以时间为依据,从过去或当前的大型数据库中自动挖掘未知信息来预测以后的信息。

(5)偏差检测。数据库中的数据也会发生错误,从数据库中检测这些错误是非常重要的,因为错误中也包括许多隐藏的信息。

4 数据挖掘在数字图书馆中的应用

数字图书馆旨在将不同区域不同属性的数字信息资源进行整合从而达到用户共享的效果。它主要是一种通过数字技术将信息进行整合处理从而使得用户方便浏览。根据处理对象的属性差异,可以把数字图书馆数据挖掘基本分为三类:结构挖掘、内容挖掘与用户使用记录挖掘。结构挖掘是从web文档中结构下手,除文档中的超链接结构,更对文档内部结构以及目录路径结构进行挖掘。内容挖掘即对web文档中的内容信息进行挖掘。而用户使用记录挖掘则是对于一些服务器上的用户注册信息购买记录等数据进行挖掘。

4.1 进行结构挖掘

对数字图书馆等结构挖掘主要是通过网页的链接和组织结构从而能够发现图书馆页面的结构模式并且对此进行分类和聚类并加以分析,这样可以使得更好的对网络建设提供指导以及方便通过超链接等方式从而分析各学术未来发展。

4.2 进行内容挖掘

内容挖掘主要包含如下几点,首先是组织文献数据。通过对数字图书馆内文件的组织分类,将其分为若干个组,充分区分好各个组所涉及的内容。这样就可以大大缩短用户搜索所需时间,用更短的时间找到更准确的内容。第二是对特征的自动提取和描述。可以由一个内容分析器来从中分析并且提取充相关的内容特征,用户采取提取特征后才能更加准确快速的实现信息定位。其三是自动采集整理专题信息。这主要是通过对图书管内的海量信息进行了解,并且能够从中挖掘到一些有规律的信息反映给用户,从而使得用户无需浏览大量无用信息,能够自动捕捉提取概要信息。

4.3 进行用户使用记录挖掘

由数字图书馆的海量访问信息中归纳出图书馆用户的访问规律信息,运用关联性法则与聚类法则,将不同类型用户需求进行分类总结,提供针对服务,从而提高浏览速度优化用户体验。同时还应当鼓励用户建立自己的Web站点从而更好的了解到使用数字图书用户的了解意向,更能由此推析出未来发展趋势,进而研究出其行为规律。

5 结语

通过将数据挖掘技术引入数字图书馆这一举措,能够大大提高数字图书馆的信息资源量,优化图书馆的信息服务的质量,用户可以更方便、更多的获取想要的知识,同时图书馆的业务范围也将得到大幅度扩展,为图书馆带来巨大的经济与社会效益,达到双赢的效果。但数据挖掘终究是一种新兴的智能科技产物,它的发展还是有很多挑战与难题需要面对。如何将数据挖掘系统更好的应用到数字图书馆中还需要进一步的探讨与研究。

参考文献

数据挖掘总结例6

0引言

近几年,随着互联网技术的发展和对人们工作生活的不断渗透,随着移动互联、物联网、云计算、智慧工程等新兴信息技术的出现和普及,数据在人们的生活中呈爆炸式增长,人们开始进入大数据时代。由于海量数据中记录了企业的发展、运营以及人们生活和行为的点点滴滴,所以,挖掘海量数据背后存在的模式、规律和趋势,并结合各行各业进行创新应用,已经成为这个时代的重要课题。我国电子商务经过近20年的发展和数据累积,已经从用户为王、销售为王进入到数据为王的阶段,如何针对用户消费行为的分析,提升电子商务的运营效率,促进精准营销的开展,增加客户黏性,从而实现电子商务的智能化发展,是当前电子商务发展的重中之重。因此,在大数据背景下,为适应行业发展需求,国内外很多高校,尤其是应用型本科院校,在电子商务专业本科生中陆续开设大数据分析与挖掘系列的课程,其中作为大数据研究与应用的重要支撑技术的数据挖掘,是其中一门重要课程。

1电子商务专业开设数据挖掘课程的必要性

1.1行业发展的必然要求

进入大数据时代,“互联网+”技术与传统行业深度融合,电子商务数据已覆盖了从用户、商家、第三方、物流等一系列商务环节。因此,充分利用大数据,有效分析和挖掘大数据的价值和规律,已成为推动电子商务深化发展的重要引擎。首先,数据挖掘技术是电子商务智能化的基础。由于电子商务的活动从开始就具备了信息电子化的先天优势,所以,用户在电子商务网站上发生的所有行为信息都被日志记录,包括用户对产品的搜索、浏览、在购物车加入或取出商品、收藏产品、对商品的讨论、评价、分享等。对这些用户行为信息进行收集和分析,可以挖掘用户的兴趣特征和潜在需求,实现对用户的个性化推荐。其次,数据挖掘技术支撑电子商务的精细化营销的实现。通过网络爬虫收集用户在消费过程种对商品的兴趣、偏好、评价等数据,并进行分析挖掘,可以更好地对用户进行细分,针对性地制定营销策略,更准确地把握用户态度和对产品的情感倾向,及时控制营销中的不良影响,从而提升用户体验和用户黏性。第三,数据挖掘技术推动电商物流的优化。通过对电商物流数据的分析和挖掘,可以预测市场需求变化的规律,帮助企业合理地进行库存管理和控制,优化配送路线,进行物流中心选址策略分析等。可见,对于电子商务专业大学生开设数据挖掘课程是行业发展的必然需求。

1.2专业人才培养的迫切需求

电子商务是利用信息和通信技术,通过Internet在个人、组织和企业之间进行商务活动和处理商务关系的一种活动。随着云计算、物联网及移动互联等新兴信息技术的迅速发展,大量传感器和监控设备不间断的数据采集和行业数据的持续积累,使大数据成为时代的鲜明特点。教育部电子商务专业教学指导委员会王伟军教授等人对138个电子商务专业本科人才的市场招聘需求进行研究发现,网络营销与数据分析是当前电子商务专业的主要能力需求,而目前我国开设电子商务专业的高校中开设数据挖掘及其相关课程的只有14所。因此,该类别人才缺口目前较为严重,市场需求量较大。为了适应时展需求,高校在人才培养时既要注重电子商务运营管理能力的培养,同时更要注意商务数据分析与挖掘能力培养。培养同时具备这两种能力,并且可以将两种能力有效结合起来的应用型人才,是当前高校电子商务专业发展的趋势和方向。总之,在当前的电子商务活动中,商务管理是核心,数据分析与挖掘是手段。在大数据背景下,要提升电子商务的管理效率,实现电子商务的智能化发展,必须应用好数据挖掘这把利器。因此,在电子商务专业开设数据挖掘课程,是行业发展的必然要求,也是专业发展的迫切要求。

2电子商务专业数据挖掘课程教学思路设计

数据挖掘是一门交叉学科,涉及统计学、数据库、机器学习、高性能计算等多门学科相关内容,要求学生具有较为扎实的基础知识。由于课程难度较大,早期高校都把该课程作为研究生的专业课程。为适应市场需求和行业发展,近年来,也有些高校将此课作为本科生高年级选修课开设。从该课程的传统教学上来看,由于学生理论基础不够扎实,课程教学又多侧重算法的分析与实现,导致该课程存在教学难度大、理论教学过多、学习兴趣难以提高等问题。考虑到传统教学的问题以及电子商务专业培养应用型本科人才的实际情况,笔者认为该课程在教学过程中应“轻算法,重应用”,以启发学生数据思维为主,以理解算法思路为主(忽略细节实现),以合理构建数据挖掘模型、正确解读数据挖掘结果为主。在组织教学时,采用基于场景的启发式教学方式。该课程在讲授每个数据挖掘方法时,都通过一个电子商务问题进行导入;通过本节所授方法,形成解决问题的思路;最后通过专门数据挖掘软件进行方法的应用,通过对挖掘结果的解读分析,为导入问题的决策分析提供依据。通过这种由浅入深,由易到难的方式,引起学生学习兴趣,激发学生主动思考,真正成为课堂的主体。实践环节是学生理论联系实际的关键步骤,选用合适的数据挖掘软件工具非常重要,对于电子商务专业的学生,数据挖掘重在问题的建模和方法的应用,所以,该课程选择的数据挖掘工具是IBM公司的SPSSModeler。SPSSModeler拥有丰富的数据挖掘算法,本课程涉及到的分类、聚类、关联分析、时序分析、社会网络分析挖掘等主要数据挖掘功能均可实现,而且其操作简单易用,分析结果直观易懂,可以使用户方便快捷地实现数据挖掘。学生通过对算法基本思路的了解,针对实验问题设计数据挖掘方案,并通过数据挖掘软件进行算法的应用和结果的分析,理论和时间的顺利衔接,进一步加深学生对数据挖掘方法的认识和理解。

3电子商务专业数据挖掘课程教学内容设计

数据挖掘课程主要讲解数据挖掘的基本概念、主要方法和技术、应用情况及发展趋势,目的在于启发学生的数据思维,提升学生数据分析与挖掘的能力,深入理解电子商务数据在电子商务中的重要地位和作用,实现商务管理和数据挖掘的有机结合。由于数据挖掘课程理论性和应用性均较强,反映在教学要求上,既要重视理论学习,又要重视实践环节。具体来说,就是一方面通过理论教学使学生对理论内容有较深入的理解和领悟;另一方面结合实践教学,鼓励学生多动手,多思考,综合运用所学知识分析和解决实际问题。

3.1理论教学设计

针对大数据时代的数据特点和应用特点,在数据挖掘课程的理论教学设计时,其内容不仅包括传统的基础性的分类、聚类、关联分析、时序分析等数据挖掘方法,还注重根据电子商务行业特点进行知识的拓展介绍,比如在将关联分析的时候,除了传统的购物篮分析,还增加了序列模式分析内容;比如在结合社会化电子商务的发展,对社会网络分析、文本挖掘等前沿数据挖掘知识也进行了一定的拓展介绍。这些拓展内容,不但丰富了学生的知识体系,也为部分学生的课下深度扩展指明了方向。我校电子商务专业的数据挖掘课程总学时为48学时,其中理论教学32学时,主要内容及其学时分配如表1所示。表1数据挖掘课程理论教学安排序号章节标题内容提要学时1数据挖掘概述数据挖掘基本概念与功能;基本流程与步骤;基本方法与应用;拓展:数据库,数据仓库与数据挖掘的关系22数据预处理数据清洗;数据的集成与转换23分类分析决策树分类;贝叶斯分类;分类特点及结果分析64聚类分析K-means聚类;两步聚类;聚类特点与结果分析65关联分析频繁项集;关联规则挖掘;关联分析效果评价;拓展:序列模式分析86时序分析移动平均模型;指数平滑模型;拓展:ARIMA模型67数据挖掘发展趋势社会网络分析;文本挖掘;Web挖掘2理论教学在组织时,基本上以“课堂引例-问题分析-算法思路讲解-课后练习”的方式展开。通过实例分析,给学生介绍各种算法的基本思想和相关概念,引起学生学习兴趣。在讲授算法时,通过具体的简单数据演算实例来分析数据挖掘的过程和结果,使学生在实际案例中明白数据挖掘算法在处理数据过程中的作用和意义。虽然该课程开设在电子商务专业的第六学期,但是,由于数据挖掘课程本身需要多个学科的基础知识,在目前的大学课程体系内,难以在有限的时间内开设全部先修课程。因此,在理论讲解时,对涉及到学生比较生疏的知识点,应根据学生的知识水平,予以补充说明。例如,在讲决策树分类时,对于信息论中信息熵基本概念和计算方法,可以结合实际数据集合,进行讲解和计算。

3.2实验教学设计

数据挖掘是一门紧密结合实际应用的课程,具有较强的实践性。实践教学环节中,首先教师讲解实验步骤,然后安排学生进行实验,并对实验结果做详细分析与评价。每个实验要求学生完成以下几方面的内容:(1)根据实验问题设计数据挖掘方案和实施流程;(2)进行数据预处理,并构建数据挖掘模型;(3)解读数据挖掘结果,并联系实验问题进行具体分析;(4)实验拓展与总结。在实验拓展和总结部分,可以设计一些开放性的题目,比如在进行关联分析时,可以设计这样的问题“如果支持度阈值设置时降低十个百分点,频繁项集会有哪些变化?关联规则的准确性和适用性会有哪些方面的变化?”。在实验环境下,学生可以通过对比实验,比较容易得到结果,而在总结这些变化规律时,又可以强化和巩固对关联规则、频繁项集、支持度、置信度等这些概念和指标意义的理解,从而更好的应用在以后的工作实践中。结合电子商务活动特点以及数据挖掘在电子商务中的应用,该课程的实验是16学时。在实验设计时,共设计了五个单人实验和一个综合性多人实验.由于使用数据挖掘技术处理实际问题时,很多时候需要综合运用一些数据挖掘方法,其设计方案不止一种,分析结果也不一定完全一致。为激发学生的主观能动性,本课程在最后需要每个小组共同完成一个综合性的数据挖掘作业。研究表明,对于本科生来说,指导教师给出一些具体的题目,如大学生消费状况预测、校园共享单车满意度分析等,这些热点问题更容易激发学生的学习兴趣。综合作业从数据挖掘方案的设计、数据采集、数据预处理、数据建模、结果分析以及报告撰写全部由小组成员协作完成,通过这样一个完整的分析问题、解决问题的过程,不但可以锻炼学生综合应用知识的能力,也可以锻炼学生的沟通写作能力。在综合性作业完成的过程中,教师需要给予一定的指导,例如教师可以介绍问卷星等网络调查平台或网络爬虫等工具帮助学生进行原始数据的采集;通过对数据挖掘方案的点评,帮助学生更合理的选取数据分析指标,设计数据挖掘方案;通过报告撰写指导,帮助学生规范化的总结实验分析结果。

4结论

大数据时代的电子商务活动中,对电子商务人才的数据挖掘和分析能力非常迫切,在电子商务专业中开设数据挖掘课程是行业发展和专业发展的必然要求。在电子商务专业开设数据挖掘课程既有别于研究生也有别于计算机等理工科专业,“轻算法,重应用”,以提升学生主动学习兴趣为导向,采用基于场景的启发式教学方法更合适。本文从教学思路、教学方法、教学内容等方面进行了思考和探索,经课程开设两年来的教学实践证明,学生在学习上的主观能动性得到了一定的体现,理论和实践相结合的能力得到了锻炼。激发学生学习兴趣,培养学生的主动性思维,是当前教学中的重要课题,在电商行业不断发展的过程中,如何更好的将最新行业问题融入教学过程,实现理论和实践的有机结合,需要我们进一步深入思考和探索。

参考文献

[1]冯然,陈欣.论数据分析类课程在电子商务专业设置中的重要性[J].河南教育,2015,(2).

[2]黄岚.数据挖掘课程实践教学资源库建设[J].计算机教育,2014,(12).

[3]薛薇.基于SPSSModeler的数据挖掘(2版)[M].中国人民大学出版社,2014.

[4]李海林.大数据环境下的数据挖掘课程教学探索[J].计算机时代,2014,(2).

数据挖掘总结例7

[中图分类号]P209[文献标志码]A[文章编号]2096-0603(2017)29-0033-01

Web现已成为一个巨大的知识库、信息库,Web信息检索通过搜索引擎返回给用户成千上万个检索到的网页,但是满足用户检索要求的网页却凤毛麟角,用户无法在第一时间得到满足要求的有价值信息。因此,Web信息检索的精度不能为客户提供准而精的检索信息,需要检索精度更高的数据挖掘技术。

所谓数据挖掘(DataMining)就是从海量的原始数据中提取信息和知识的过程,这些信息和知识隐含在原始数据中,事先未知,但是对用户来说是很有用的。

一般的数据挖掘对象是结构化数据,而Web数据挖掘的对象是非结构化数据,在现有数据挖掘研究成果的基础上,运用Web数据挖掘技术,可以提高信息检索的精准率和有效率,Web信息检索将会达到向一个新的高度。

一、Web数据挖掘技术概述

Web数据挖掘是一项综合技术,是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴涵的未知的有潜在应用价值的模式的提取[1]。按挖掘对象来分类,基于Web的数据挖掘分为3大类:基于Web内容的挖掘(WebContentMining)、基于WEB结构的挖掘(WebStructureMining)、基于WEB使用的挖掘(WebUsageMining)。

(一)基于Web内容的挖掘

基于Web内容的挖掘,是在Web文档以及相应的Web文档描述中获取知识。目前,WWW信息资源是网络信息资源的主要组成部分,用户直接从网上抓取这些资源,并为之建立索引,从而实现查询服务,而那些被隐藏起来的数据,用户无法进行有效的检索,这就迫使我们把这些被隐藏的内容(比如数据库系统中的数据,由用户的提问而动态生成的结果等)挖掘出来。此外,Web的信息内容是由文本、音频、视频、图片等非结构化的数据,因此基于Web内容的挖掘也是一种针对多媒体数据的挖掘[2]。

(二)基于Web结构的挖掘

基于Web结构的挖掘,主要挖掘Web潜在的链接结构模式,是从网页上的相互链接和万维网的整体结构中发现知识的过程。这种模式主要采用网页归类技术,在众多的网页中获得不同网页间的信息,比如相似度及关联度。Web结构挖掘主要是帮助用户找到所需要信息的权威站點,同时也会对Web信息检索结果的排序产生影响。

(三)基于Web使用的挖掘

基于Web使用的挖掘,也可以称之为WebLogMining,Web日志挖掘,用户在进行网络访问后,会留下一些重要的第二手数据,它们是Web使用挖掘的主要对象,从而分析用户的网络行为提供依据。

二、Web数据挖掘在Web信息检索中的应用

(一)对Web信息源进行挖掘,形成信息源知识库

对Web信息源内容的挖掘,主要是针对中多媒体数据等Web信息源的内容的特征进行挖掘,统计方法、机器学习、神经网络、人工智能是最常使用的方法,通过抽取、分类、聚类网页内容的特征,形成信息源知识库。

对Web信息源结构的挖掘,主要通过相关算法对Web页面的超链接关系、URL地址结构的进行挖掘,在Web的组织结构和链接关系中发现知识。

(二)对Web结构进行挖掘,形成权威网页

搜索引擎的作用主要有两个,一是搜索与主题相关的内容,二是筛选高水平的相关网页,就是我们所说的权威网页。第二个作用尤其重要,因为用户更希望他们最需要的信息能在最短的时间内呈现在他们面前,而不是浪费大量的精力和时间从大量的检索结果中找寻最需要的信息,采用Web结构挖掘的一些经典算法就能很好地识别出权威网页。

(三)对用户的访问模式进行分析,为用户提供更加人性化的服务

用户在进行信息检索时,会在网站上留下许多信息,比如检索的时间、检索词以及浏览了哪些检索结果等。基于Web使用的挖掘可以对其进行分析,采用各种算法对这些日志展开挖掘,从而延伸出更有价值的内容,形成用户知识模型,并对用户潜在相同的检索行为模式进行归纳总结,对这些模式进行系统的研究,对搜索引擎的检索效果进行反馈,从而改进搜索引擎,让检索结果更加智能化,使单个用户感觉使用Web信息检索更高效。

总之,随着互联网的发展,数据挖掘的一个主要应用领域就是Web数据挖掘,与Web信息检索有着密切的关系,但是又比Web信息检索有着更高的技术层次,可以使基于Web的信息检索发展到一个更高的水平。

作者:屈慧洁

数据挖掘总结例8

中图分类号:TP391 文献标识码:A 文章编号:1007-9599 (2013) 01-0055-02

计算机等级考试已运行多年,日积月累,数据越来越多,形成海量数据。这些数据是否还有意义呢?能否挖掘出些规则、知识反馈到学校教学中,促进教育发展?

1 数据挖掘技术

数据挖掘是从大量的、不完整的、有噪音的、模糊的、随机的数据中提取出隐含在其中的,事前不知道的,但又是潜在的有用的信息和知识的过程,致力于数据分析和理解。其处理对象是大量的日常业务数据,目的是为了从这些数据中抽取一些有价值的知识或信息,提高信息利用率,原始数据是形成知识的源泉。数据挖掘包括数据描述、聚类、分类、预测、孤立点分析、关联规则等多方面。其中数据描述又称为数据总结,目的是对数据进行浓缩,给出它总体的综合性描述,实现对原始数据的总体把握。常用数据描述方法是统计学的传统方法,如计算机数据项的总和、均值、所在比例、方差等基本描述统计量,或是绘制直方图、折线图等统计图形。数据分类是指研究已分类资料的特征,分析对象属性,据此建立一个分类函数或是分类模型,然后运用该函数或模型计算总结出据特征,将其他未经分类或新的数据分派到不同的组中,计算结果通常简化为及格离散值,常用来对资料做筛选工作。

2 数据挖掘在计算机等级考试中的应用

大量的计算机等级考试数据,结构完好,数据全面,但是目前这些数据没充分利用起来,每次的数据都各自成为一个信息孤岛。为改变这种局势,打通信息孤岛的局面,把数据挖掘技术应用到计算机等级考试数据中,挖掘出潜在的、有意义的规则或知识。

2.1 数据对象。在计算机等级考试中,涉及的数据繁多,如报名数据,成绩数据,考点数据等等。本文需要挖掘的对象是学生的成绩,成绩数据表包含如下字段,准考证号,姓名,民族、性别、出生年月日、身份证号、身份证号等,如表1。

从表中可以看出,成绩有笔试客观成绩、笔试主观成绩、笔试成绩,上机成绩和总成绩,其中笔试客观成绩和笔试主观成绩都是百分制,笔试成绩、上机成绩和总成绩都是等第数据,笔试成绩由笔试客观成绩和笔试主观成绩组成,总成绩由笔试成绩和上机成绩组成。

2.2 数据预处理。本次挖掘的数据为我校多年形成的全国计算等级考试和省计算机等级考试的成绩数据。在实际的数据挖掘过程中,还必须对这些数据进行一系列预处理工作,转为适合的可用的数据。数据预处理方法很多:如数据抽取,数据清理,数据转换等。

2.2.1 数据抽取。首先分别从两个考试数据中抽取出需要的成绩数据,具体信息包括笔试客观成绩、笔试主管成绩、笔试总成绩,上机成绩和总成绩。

2.2.2 数据清理。挖掘的原始数据可能不完整,如某些记录表中有些字段的值为空,对这样的记录要做相应处理,可以将这些字段为空的值补全,或赋最常见的值,或根据数值的分布情况赋其他值等处理。

在全国计算机等级考试的数据中有少许社会考生数据,直接做删掉处理,因为我们研究的目的之一为了反馈给我校的教学,促进教学改革和发展。

2.2.3 数据转换数据转换将数据变成统一的格式,以适合数据挖掘。如关联规则Apriori算法中在处里类似分数值之类的数据时,需要转换为等第形式的成绩,因此对前面处里的数据进行如下转化,优秀——100~90,良好——89~80,及格——79~60,不及格——59~0,如表2

3.1 结果分析。由挖掘结果进一步分析,在总成绩未通过的记录中,因为笔试未通过的人数为466人,占未通过人数的7%,因上机成绩未通过的人数为1078,占未通过人数的16.19%,二者合计占总成绩未通过的23.19%,这比较发现:因上机成绩未通过的学生比因笔试成绩未通过的多,且近四分之一都是因为笔试或者上机成绩未通过。

总成绩通过记录中,总成绩分为三档:及格、良好和优秀,大致比例24:5:1。可见通过的学生中绝大部分都仅仅是及格而已。具体为及格人数达到2418人,占通过人数的79.58%,占总报名人数的24.94%;良好人数为512人,占通过人数的16.85%,占总报名人数的5.28%,优秀人数为108人,分别占通过人数的3.55%,占总报名人数的1.11%。由此可见,获得优良成绩的人数太少。

在总成绩为及格的记录中,笔试和上机成绩为均及格的1127人,占此部分的46.61%,另外笔试成绩为及格,上机成绩为优良的929人,占成绩为及格一档人数的38.42%,上机成绩为及格,笔试为优良的仅362人,占成

绩为及格一档人数的14.97%,这说明上机考试只要会做就容易取得好成绩。

总成绩为良好的512人,优秀的108人,分别占通过人数的的16.85%和3.55%,占总报名人数的5.28%和1.11%,二者合计仅20.41%和6.40%。

3.2 建议。通过上面的结果分析发现:首先整个计算机等级考试的通过率太低,其次因笔试或上机成绩未通过的大约占1/4,且因上机未通过的大约是因笔试未通过的3倍;再次取得优良成绩的人数太少。因此建议:

第一、计算机的相关任课教师反思自己的教学方式方法以及相应内容。计算机等级考试是国家教育司或省教育厅推出的一种考试,具有至高权威性、科学性和公平性,通过率(通过的人数与报名人数的百分比)在一定程度上表现了一个学校的计算机教育教学水平。

第二、学校相关职能部门应该制定相关政策及制度,加强学生积极报考和备考教育,降低缺考,提高通过率。在我们考试组织工作中,发现缺考现象较重,尤其是省计算机等级考试。

第三、相关计算机教师应加强上机课程的指导。因为挖掘结果表明因上机成绩未通过的人数大约是因笔试成绩未通过的3倍,足以说明需要大大加强上机课程指导。

第四、加强学生课后动手能力学习。在通过的学生中,取得上机成绩优良的人数远远多于笔试成绩优良的人数,因为上机考试的题型大多都是程序题,只要能调试运行出正确结果就容易取得好成绩。

4 结束语

计算机等级考试一般都由笔试考试和上机考试组成,笔试考试主要考察学生理论水平,上机考试主要考察学生运用知识的动手能力。因此不仅要把理论知识学好,还要加强课堂和课后上机操作练习,才能获得好成绩,取得计算机等级证书。

计算机等级考试的成绩好坏涉及到方方面面,上述分析到的仅仅是少许,成绩数据中潜在的可能还有很多,需要更加科学的方法分析。

参考文献:

[1]聂永红.计算机等级考试信息的数据挖掘分析[J].微计算机信息,2008年底24卷第2~3期.

[2]王永生.数据挖掘在考试系统中的应用[J].2005年北京工业大学工程硕士学位论文.

数据挖掘总结例9

图1基于数据挖掘的信息系统规划

目前,中国的中小企业的信息系统存在四种状态:

一、没有信息系统。有相当比例的小企业目前还没有信息系统,但已经认识到管理信息系统的重要,正在规划中。首先实施什么信息系统,如何实施,实施费用和效果等是他们最为关心的问题。

二、有信息系统,信息系统不完整。有很多中小企业目前已经实施了一些管理信息系统,如财务管理、库存管理等。但数据的完整性和一致性差,如缺少客户业务交易的信息、产品销售历史记录等,不能通过信息系统生成完整的报表,需要人工录入一些数据。如何有效利用现有的系统,根据业务发展需要,下一步需要实施什么信息系统,如何生成完整的电子报表等是他们最为关心的问题。

三、信息系统齐全,数据质量差。不少中小企业目前具备了较为完整的信息系统,如ERP、DRP、POS、SCM、CRM等,已经实现网上数据传输和报表自动生成。但不同系统来自不同的供应商,异构数据库之间的集成难度大,使得各系统形成信息孤岛。企业反映“凭证满天飞,报表一大堆;一家一个数,责任互相推;决策无依据,老总难指挥”,数据质量问题已经成为影响信息系统发挥作用,提供决策支持的瓶颈。如何充分利用这些管理信息系统,从信息化负债变为利润,为高层领导决策和业务的提升带来价值等是他们最为关心的问题。

四、信息系统齐全,数据质量较好。少数的中小企业达到了这个阶段,并已经用数据仓库OLAP等对数据进行初步分析。但这些分析侧重历史数据的展示,对未来业务、决策的指导方面有待于提高。如何实现决策科学化,实现数据增值等是他们最为关心的问题。

总体来看,中小企业人才缺乏,资金有限,迫于市场激烈竞争的压力,往往追求短期效益。很多企业没有听说过数据挖掘,听说过数据挖掘的企业对实施数据挖掘这样投资大,技术含量高,实施周期偏长,涉及面广的项目缺乏信心。

图2 基于数据挖掘的信息系统完善

针对中小企业的现状,我们设计了如下的解决方案:

一、对没有信息系统的中小企业,做基于数据挖掘的信息系统规划。

基于数据挖掘的信息系统规划分5个步骤:

1、 根据企业战略和竞争环境,确定决策支持的商业目标;

2、 根据商业目标确定需要哪些数据,形成数据地图;

3、 根据挖掘的商业目标和数据地图进行信息系统规划,确定实施的软件及其实施顺序等;

4、 实施规划好的信息系统,积累数据;

5、 数据积累达到数据挖掘的要求时,实施数据挖掘项目,得到挖掘结论用于决策。

这样可以减少信息化过程中的弯路,使信息化在短期内即可为企业高层的决策提供支持,同时不断完善信息系统,进入良性循环。

二、对信息系统不完整的企业,从数据挖掘的需要出发,做信息系统的完善。

基于数据挖掘的信息系统完善分5个步骤:

1、 根据企业战略和竞争环境,确定决策支持的商业目标;

2、 根据商业目标确定需要哪些数据,形成数据地图;

3、 根据挖掘的商业目标和数据地图判断现有信息系统是否能够满足数据挖掘的需要,如果不能,确定要增加的软件系统及其实施顺序等;

4、 实施补充的信息系统,积累数据;

5、 数据积累达到数据挖掘的要求时,实施数据挖掘项目,得到挖掘结论并用于决策。

这样可以根据企业决策的需要,高效率地完善信息系统,时间短,见效快。

图3数据挖掘咨询提高数据质量

三、对信息系统齐全,数据质量差的企业,通过数据挖掘咨询提高数据质量。

从数据挖掘的角度发现现状数据和目标数据之间的差距,提供数据挖掘咨询(包括进行挖掘目标、数据质量分析,从数据挖掘角度提出改进建议等),采取调整数据结构、存储方式、汇总方式、保留时间等,使数据的完整性和准确性提高,逐步提高整体的数据质量,缩小数据质量的差距。循环进行挖掘试验,采取改进措施,差距逐渐减小,高质量的数据逐渐替换低质量的数据,使数据质量逐步提高,在某一时刻量变引起质变,由数据挖掘咨询、试验阶段进入数据挖掘项目正式实施阶段,一旦数据挖掘的结论为业务决策带来价值,公司管理层、业务人员就会更加重视信息系统数据的质量,也会采取一些促进信息化建设的措施,如增加投入,加强管理,重视数据分析等,这样对数据的需求增加,会促使更多的数据集成,新数据集成后又会发现质量问题,进入下一循环的数据挖掘咨询、项目实施。这种螺旋上升式的循环实施,不但实现了不可挖掘数据到可挖掘数据的转换,还驱使企业信息化程度和质量的整体提升。

四、对信息系统齐全,数据质量较好的企业,直接实施数据挖掘项目。

中小企业的数据挖掘项目可以采用专一功能的数据挖掘软件,同时建立知识平台,人机结合,不断积累知识。

另外,对业务范围较广,企业自身数据不足的,可以挖掘网络信息,得到供应商、客户群、竞争环境等的知识。实践证明,数据挖掘对中小企业同样具有深远的意义。当然,受各种条件限制,中小企业在实施数据挖掘项目的过程中,还会遇到一些问题,如软件集成和更新费用高、人员维护能力差,以及挖掘网络资料的技术要求较高等,MCLP数据挖掘软件是一种操作简单、成本较低的挖掘工具,该软件该软件采用以线性规划为基础的多目标决策法,给定一组类别和一组评价变量,用一些相关的边界变量去区别类别。最简单的多目标描述为既求分类重叠的最小化又求类别之间距离的最大化,其结果为最满意解。

数据挖掘总结例10

数据挖掘(DataMining[1])是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘可粗略地理解为三部分:数据准备(DataPreparation)、数据挖掘,以及结果的解释评估(InterpretationandEvaluation)。将数据挖掘技术应用到医学信息数据库中,可以发现其中的医学诊断规则和模式,从而辅助医生进行疾病诊断,实现临床决策支持的效果。

1.2数据挖掘的功能[2-6]

1.2.1关联分析

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律,就称为关联。关联可分为简单关联、时序关联、因果关联。

1.2.2分类

分类就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一。

1.2.3聚类

数据库中的记录可被化分为一系列有意义的子集,即聚类。

1.2.4概念描述

对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述,这种描述就称为概念描述。

1.2.5预测

数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。

1.2.6异常检测

一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型,那些不符合大多数数据对象所构成的规律的数据对象就被称为异常数据。

1.3数据挖掘的过程

数据挖掘过程[7-9]是在设计者的主动参与下进行的知识发现过程,是在积累了大量的数据后,从中识别出有效的、新颖的、潜在的、最终可以理解并加以有目的运用的知识。一般分为以下步骤:问题定义:清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。数据准备:①数据理解---将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。②数据的选择及简化—是根据用户的需要从原始数据库中抽取的一组数据。③数据的预处理--研究数据的质量,为进一步的分析做准备。数据挖掘:对所得到的经过转换的数据进行挖掘。结果分析:解释并评估结果。知识的优化:将分析所得到的知识集成到业务信息系统的组织结构中去。

2医院信息系统中数据挖掘的研究

2.1医疗数据挖掘主要分类

2.1.1从数据挖掘的处理过程、功能模型、算法研究,可以将医用数据挖掘按功能模型和挖掘对象两个方面进行如下分类[10-14]。

2.1.1.1按照功能模型分类:常用的数据挖掘技术可以分成统计分析类、知识发现类、和其他类型的数据挖掘技术三大类。①统计分析类:统计是数据搜集和描述数学的一个分支。在医疗数据挖掘中的应用如:聚类分析方法可以对DNA分析、医学影像数据自动分析、多生理参数监护数据分析、中医诊断和方剂的研究、疾病危险因素分析等。②知识发现类:知识发现是用一种间接的方式从数据中抽取信息的一种技术,而这些信息是隐含的、未知的,并且具有潜在应用价值。其中可分为:a.关联规则型知识挖掘技术,是医用数据挖掘的一种主要形式。b.神经网络型知识挖掘技术。c.遗传算法型知识挖掘技术。d.粗糙集型知识挖掘技术。如关联分析可以用来分析预测手术术后和药物治疗的效果,可以对某种疾病的相关发病因素进行分析以指导患者如何预防该疾病;可以对带病DNA和健康组织的DNA基因序列进行比较,以识别出两类基因的差别,从而得出致病因素;可以对患者的生理参数进行分析,分析各种生理参数之间的关系进而得出有意义预防与治疗方案等。e.机器学习类,归纳学习方法又可分为决策树、规则归纳等。如决策树用于前庭区与头晕有关的疾病诊断规则的提取。③其他类型:除以上陈述的数据挖掘技术外,近年来,随着各种数据处理工具、先进的数据库技术与因特网技术的迅速发展,还出现了一些其他数据挖掘技术。如文本挖掘技术、Web挖掘技术、分类分析技术、地理信息系统与空间数据挖掘技术以及分布式数据挖掘技术等。

2.1.1.2按照挖掘对象分类:按照不同的数据类型,数据挖掘研究在时间序列数据、空间数据、文本数据、多媒体数据等方面展开。①时间序列数据(TimeSeriesData)是与时间有关的一系列数据。对时间序列数据的挖掘主要是发现序列中事物出现的周期和规律,以及不同时间序列间的同步关系。如应用时间序列预测方法可以对医院药品进、销、存产生的数据进行统计分析。②序列(Sequential)模式序列模式与关联模式相仿,其目的也是为了挖掘数据之间的联系,但是序列模式分析的侧重点在于分析数据之间的前因后果。如:对医院门诊和住院患者量进行预测,可以分析某种疾病发病率的变化趋势,病死率预测等。③文本数据(TextData)就是我们一般的文字,如报刊杂志、设备维护手册、故障描述等的内容。④多媒体数据(MultimediaData)是随着多媒体技术而日益涌现的声音、图形、图像、超文本等数据。应用领域例如针对大量CT、MR图像的存储和查询问题而兴起的基于内容的图像问题。由于与传统的文本数据不同,因此必须采用新的挖掘手段来发现内容和形式间的内在联系。

2.1.2按应用层面可医院数据挖掘可分为诊疗信息挖掘和管理信息挖掘。诊疗应用如:中山大学肿瘤防治中心的研究人员通过肿瘤分子信息和数据挖掘方法可以预测早期非小细胞肺癌5年内是否死亡,这一预测的总正确率达87.2%,该技术一旦成熟,今后每个肺癌患者开刀做完手术后,可借此预测其5年存活情况,而且检测费用远比国外的基因检测便宜;上海同济大学附属医院分析糖尿病患者肌肉组织和脂肪含量与骨密度之间的联系,得出高肌肉和高脂肪含量可以降低患者髋骨骨折的危险性;第四军医大利用数据库和数据挖掘技术建立了恶性血液病数据库分析系统等。管理应用如:北京协和医院开展数据挖掘在临床医疗管理上的研究,为医院业务管理等提供支撑,并辅助领导决策;广州南方医院采用数据挖掘查询系统查询医生有否开大处方,患者是否花了不该花的医药费,且患者有望提前治愈出院。

2.2医疗数据挖掘的应用研究

2.2.1诊疗信息挖掘

诊疗信息挖掘主要目的是通过患者信息分析,提供有参考作用的医疗方案。①建立患者随访信息库。②临床疾病分析、辅助诊断:如:a.判别分析:用于心脏疾病的分类;用于阑尾炎4种不同类型的判别。b.人工神系统网络:用于颅内星形胶质细胞瘤良、恶性的影像诊断;用于肺内孤立结节的影像鉴别诊断。c.决策树:糖尿病分类规则建立;前庭区与头晕有关的疾病诊断规则的提取。

2.2.2管理信息挖掘

2.2.2.1财务管理[15,16]

①患者费用构成分析:患者费用由药品、治疗、检查、手术、化验等组成。利用数据挖掘技术可以分析医院、科室乃至各个病区专科内的患者费用构成,从而能有针对性地控制费用比例,探究医疗费用项目结构的合理性,使医院管理者有针对性的控制医疗费用。②同期费用对比分析:利用数据挖掘技术可以按不同的时间对各个科室或各个病区同期的各种费用进行对比分析,并以各种专业报表、视图的形式反映给医院管理者,分析变化趋势及可能原因。③成本效益分析:利用数据挖掘技术可以把各个不同系统如物资设备系统、财务系统等的数据汇总到数据仓库,然后对医院的成本效益情况进行全面分析,以便能真正把握医院的经营状况,提高医院的经济效益。例如:对医院资金运转情况作财务分析,了解医院财务状况和资金流向,分析医院运营风险,利用数据挖掘中的环基比和定基比技术分析医院财务资金的增长速度,并用曲线拟合来预测未来的资金需求量,为管理者决策和促进资源的有效配置提供依据。④医保费用构成分析:利用医院业务数据结合医保中心返还数据对医保分科的定额结算进行分析,指导医院各科室合理、高效的利用医保资源,在医保定额下提供更好的医疗服务。

2.2.2.2医疗质量管理[17-19]

①单病种分析:以ICDlO疾病分类为标准,利用数据挖掘技术对单病种进行分析,包括住院费用、住院天数、转归、病情、治疗方案等方面,为医疗质量管理提供依据,使医生能够及时总结经验,找出最佳治疗手段,既缩短了患者的就诊住院时间,减轻了患者的负担,同时提高了医疗工作效率,增加了医院经济效益。②手术室感染管理:a.手术室无菌物品及一次性用品智能备库系统;b.总结消毒灭菌工作与消毒效果的规律;c.预测术后切口感染合理安排手术并防止抗生素的滥用;d.利用HIS中知识解决消毒灭菌难点并杜绝差错;e.对参观手术人员和进修生实习生的管理;f.对手术室消毒灭菌和医院感染常规工作动态监测。③药学管理:a.备药量预测:用时间序列预测方法,对HIS中现有的药品用量信息进行计算模拟,得出药品消耗模型。b.制剂最佳批生产量预测:在分析医院制剂历年用量及近期消耗趋势下,得出该制剂效期内用量,并通过计算得出该制剂的最佳批生产量预测模型。c.治疗药物监测:对药物监测(TDM)历史数据分析、提取、加工、整合,更深层次挖掘(或发现)一些新知识,如开展药物群体药动学研究、药物浓度影响因素相关度分析等,为临床提供更多有价值的资料,实现给药个体化、提高药物疗效、降低药物毒副反应等。d.抗生素合理应用自动监控:对HIS中相关信息进行提取、分析、挖掘,对抗生素的用量、耐药性、联合用药、疗程、围手术期用药、预防用药、用药途径及治疗效果等指标实行自动监控,从而实时、有效地监测抗生素使用情况。

2.2.2.3医院经营目标管理[20]

①患者构成分析:运用数据挖掘技术中的秩和比法对医院门诊和住院患者的地区分布、性别分布、身份分布、职业分布、年龄分布等方面进行分析,从而得到不同类型患者的经济状况、需求的主要医疗服务类型等信息,了解患者差异对医院收益的影响,从而能够有针对性的采取措施来提高服务质量,增加门诊量和住院量。②患者流动情况分析:该功能可以分析门诊患者从挂号到取药再到离开医院的时间分布以及住院患者从入院到出院各个就医环节的时间分布。分析出患者的就医瓶颈,掌握影响患者诊疗效率的因素,以便能针对这些因素采取措施来帮助医院管理者进行业务流程的更新和改进,提高患者的就诊效率。

2.2.2.4经营决策管理[21]

①患者就诊时间分析:由于患者的入院季节性较强,可以通过分析每月、每季度的门诊人次、住院人次、床位周转率,通过时间维度分析,建立灰色预测模型,来预测下一时期的门诊和住院人次。根据预测信息,医院管理者可以提出有针对性的措施,确定最优的服务项目时间表,从而作出终止或开拓某种医疗服务项目的决定,实现对人力资源、医疗设施、医疗设备的适当配置。②医疗工作量影响分析:科学合理地评价医疗工作量,找出影响医疗工作量变化的主要因素,是进行医疗工作量影响分析的目的。例如:医院收治患者数是医院工作量的重要指标之一,直接影响医院的经济效益和社会效益。利用数据挖掘技术中的灰色关联分析方法对医院收治患者数的影响因素进行分析:病床周转次数、住院患者手术人次、年收治患者人数、平均开放病床数和年平均医生人数与年收治患者数关联程度等。

2.2.2.5医院资源管理

①科室综合评价分析:利用数据挖掘技术对医院各科室进行综合评价分析,选出代表性强、独立性好,能反映科室工作效率、治疗质量、经济效益、综合管理等的多项指标进行综合评价分析,找到科室的薄弱环节,并采取相应的措施,以提高科室的综合水平。②医疗设备绩效预测分析:从HIS中的患者信息中提取病种、数量、诊疗类别等信息后与医疗设备使用信息相关联,利用数据挖掘技术对所得到的信息进行深层次的数据挖掘,构建数据挖掘模型,利用已建立的数据挖掘模型,在医疗设备购置前对其绩效进行预测,使医院领导的决策更为准确、科学;在医疗设备投入使用后,对其绩效进行准确评价,提高医疗设备的完好率和使用率。通过进一步的数据挖掘,实现对医疗设备从购置前的可行性论证到淘汰报废的全程决策支持,使医疗设备的全寿命期都纳入管理者的统筹管理之中,较好地解决医疗设备效益、代价、风险等互相制约的管理难题,充分发挥医疗设备的社会效益和经济效益。因此本研究具有明确的推广应用前景及重大应用意义。

2.3医疗数据挖掘的热点及前景

数据挖掘总结例11

为了提高医学上的工作效率,慢慢的引入了计算机,到目前为止,计算机已经在医学中得到了广泛的应用。医学上为了对医学数据分析系统化,理论化。也慢慢的出现了一个新的系统,医学信息系统。这个医学信息系统大大的促进了医学数据的数字化程度,为以后的医学数据分析带了极大地方便。但是与此同时也带了麻烦,要知道医学数据是非常庞大的,要想提高办事效率,就必须在短时间内得到与这些数据相关的有价值的信息。因此我们把数据挖掘应用到了医学数据分析上,让医生能在短时间在庞大的医学信息系统中获得最有价值的信息对医学数据作出分析,这样不但提高了医生的工作效率,而且还让医生的判断更加准确。所以说数据挖掘在医学数据分析中的应用是十分重要的。

一、 数据挖掘的概念和基本操作流程

数据挖掘技术是一项全新的技术,它是近年来数据库技术和人工智能技术飞速发展的产物。数据挖掘是帮助人们从数量庞大的,不健全的,乱七八糟的数据中找到人们需要的,能够对人们产生价值的信息。因此数据挖掘存在隐蔽性,所有我们也可以说,数据挖掘也是一个潜在有价值信息的过程。数据挖掘它具备了自动化的优点,它能根绝人们的需要自动的对人们的需求进行分析和总结,然后帮助决策者做出合理的决定。

它的基本过程:数据挖掘一般可以氛围三个阶段。数据的集成,数据的选择和数据的转换可以划分为一个部分,成为数据预处理阶段,数据的预处理阶段的效果将直接影响着数据挖掘质量的好坏。模式的发现是中间阶段,是运用数据挖掘算法从数据库中提取有效模式的阶段,最后一个阶段是后续处理阶段,它包括了模式的评估和知识的表示两个部分,后续处理阶段通过已经制定好的标准识别出有用的知识。

二、 医学数据的特点

根绝医学信息系统数据自身的局限性,我们可以对医学数据的特点作出以下总结:

(一) 隐私性

因为医学自身的局限性,导致了临床上产生的医学数据有的会牵扯到病人的隐私,如果这些隐私不经过患者的允许被公众了,就会在一定程度上对患者造成侵扰。这就要求数据挖掘者在工作的时候一定要保护好医学数据的安全性和机密性。

(二) 多态性

医学数据包含的东西很多,但不仅仅是文字,图像,其中会有很多的声音,信号等,这是其他信息所不具有的,医学信息的多属性模式给数据挖掘带了很大的麻烦。

(三) 不全面性

因为在医学上疾病多种多样,再加上案例的局限性就让医学信息系统不能全部的反应出任何一种病的信息。同时再加上记录本身的局限性,很多医学数据不能得到很好地记录,所以导致了医学信息的不全面性。

(四) 时域性

医学数据中存在很多的时间函数,有的是延迟,有的是提前,有的是波形的时间函数。同时,还有一些静态的数据,尽管这些静态的记录不具有时序性,但是这部分医疗记录在记录的时候一定要详细到某一时刻。

(五) 重复性

正如我们前面所提到的,医学数据的数量是庞大的,它具有相似性,不同的疾病有时候会采用相同的医疗手段,这样就会有很多的相同的医学数据被记录到医学信息系统中,这样会给以后数据的查找带来不便。

三、 数据挖掘在医学数据分析应用的举例

(一) 医学图像处理上

在疾病诊断的工具中,有很多方法,数据挖掘就是其中应用比较广泛方法之一。也是数据挖掘在医学数据处理应用最重要的一个方面。数据挖掘在医学图像上的应用主要是从图像上发现之间的关联,变化,然后总结出规律。提高医生的决策效率,同时也提高决策的准确度。

在数据挖掘算法中,应用最广的就是决策树算法,它是一种归纳推理算法,它通过逼近离散值函数来对噪声数据处理然后分析出表达式的方法来实现的。在这种方法中,表达式被称为决策树,也正是如此才被叫做决策树算法的。

下面我们就谈一下决策树算法的特点:一方面,种方法便于理解,因为从事教务处管理的老师并不了解数据挖掘相关的知识,而决策树算法非常形象的通过树形结构表示最后的分类结果。它符合人们认识事物的一般规律;一方面决策树算法的计算量小,复杂程度小,这样就能提高工作人员的效率吗,能在短时间内解决更多的问题;最后一方面,决策树算法能够主次分明的表达出重点,属性的重要程度能被一眼看出来。

(二) 在辅助医疗上

医学诊断是一个复杂的过程,它需要按照一定的程序进行。医生通过多种途径搜集和待诊断疾病的相关知识,然后构建诊断网络,而这些病例数据被存放在医学信息系统中,所以从医学信息系统中提出有价值的诊断规则成为了现阶段研究的重点。在数据挖掘技术的帮助下,通过数据挖掘中的正常训练集模型所筛选出有价值的诊断规则。获得有效的知识。

(三) 其他方面

数据挖掘在医学数据的处理上应用广泛,上面我们仅仅介绍了应用的几点,没介绍的也很多。比如在医疗政策数据方面上,在医疗保健数据方面上,在医疗资源数据方面上,在新药品和新的数据方面上等等都有很广泛的应用。

结语

虽然数据挖掘早医疗数据分析上已经得到了很广泛的应用,但是在多年的应用中逐渐出现了这样或那样的问题,影响着数据挖掘在医疗数据分析上的再突破和再发展。所有说,数据挖掘在医学数据分析上还具有很大的发展空间,这就要求我们随着医学理论的健全和发展,不断地对数据挖掘在医学数据分析应用上进行创新,进一步的实践探索,经过我们的努力,相信数据挖掘将会在疾病的诊断治疗医学科研和教学中产生巨大的效益。

参考文献

[1]龚著琳,陈瑛,苏懿,刘雅琴,徐立钧.数据挖掘在生物医学数据分析中的应用[J].上海交通大学学报(医学版).2011(11).

[2]朱远平,陈伟,李建彬,陈剑鸿,许树欣,鲁春元.构建web服务的医学数据挖掘演示系统[J].数理医药学杂志.2012(04).