期刊 科普 SCI期刊 投稿技巧 学术 出书 购物车

首页 > 优秀范文 > 数据挖掘论文

数据挖掘论文样例十一篇

时间:2022-12-20 18:09:05

序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇数据挖掘论文范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!

数据挖掘论文

篇1

2模糊集理论的引入

在讨论实际问题的时候,需要判定模糊概念涵义,如判断某个数据在模糊集的定义和归属,这时就需要普通集合与模糊集合可依某种法则相互转换。模糊理论中的截集是模糊集合和普通集合之间相互转换的一座桥梁。

3基于事务间数值型关联规则的数据挖掘算法

假设有一就业数据库,先通过数据整理,将原始数据记录值区间[0,10]偏置10个单位。由此就得到了经过偏置后的数据库记录。再依滑动窗口方法,设maxspan=1(该值可以依实际情况的需要来定),就可将偏置后的数据库数据整理转化为扩展事务数据库。再把扩展事务数据库记录通过隶属度函数转化为对应的隶属度。

篇2

二、石家庄地区制药企业专利数据挖掘

本文对石家庄地区制药企业的专利数据进行挖掘分析,挖掘对象是华北制药集团公司、石家庄制药集团有限公司、石家庄神威药业股份有限公司、石家庄四药股份、河北以岭药业股份有限公司、石家庄市华曙制药集团、河北医科大学制药厂、河北圣雪大成制药有限责任公司等地址在石家庄且具有一定代表性的药企,希望通过这些药企数据能够找到石家庄地区制药领域的核心组成,并能为药企更好地发展提供有力的信息支持。IPC号是目前权威的专利技术主题的标识编码之一,基本包含了各行各业的专利信息,是一个庞大的专利信息体系。目前国内外很多分析方法及技术大部分是基于专利的IPC分类号来分析专利技术主题的,此分析方法有一定的参考价值和科学性,而且对于具有大量专利信息的分析具有很好的总结概括效果。本文以专利全部IPC号为分析对象,并且构建IPC号之间的关联规则,在最大程度上揭示隐含的专利技术关联性,从而为石家庄地区制药企业专利技术的发展提供参考。

1.数据准备。数据来源的准确与否是数据分析与挖掘的基础,是数据分析与挖掘的根本。本文所使用的石家庄地区制药领域专利数据由万方数据公司提供,以制药企业地址为石家庄为检索条件,搜索出了包括从1985—2014年间石家庄地区制药领域专利644条,分别分布在A、B、C、D、E、F、G、H八个大部。对专利数据库中的644条专利进行筛选,根据“分类号”字段限制,它涉及专利信息的分类,有些IPC所涉及的范围与石家庄地区制药领域没有联系或联系很小,不宜保留。根据“申请人(专利权人)”字段的限制,剔除与石家庄地区制药不相关或制药企业地址不在石家庄地区的专利。最后筛选出590条最符合该领域特点的专利。由于IPC号在几乎所有现存数据库中均是以一个字段存储一个专利的所有IPC分类号的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每个专利一般都有好几个分类号,而每个企业又研究大量的专利,所以在进行专利分析之前,需要对专利IPC号进行数据整理。由于过于细致的IPC分类号并不利于专利主题的分析与揭示,所以本文中采用专利小类分析,就是取IPC号的前4位。并将申请人与其对应的多条IPC号进行拆分,拆分后的数据项有773条,即显示每个申请人对应的一条IPC分类号。

2.数据挖掘。本文数据挖掘过程将采用Excel和SQLsever2005软件,首先对所得到的数据导入SQLserver2005进行挖掘,利用SQLserver2005可以直接进行IPC号的关联规则挖掘,然后对专利信息进行分析。

3.数据挖掘结果与分析。基于关联规则制作依赖关系网络图,可以更加直观地看到各个IPC号之间的关联和依赖状态。

(1)以A61K、C12N、C12P、C07D、C07C为中心的核心专利技术群。这些专利的IPC分类号是关键部分药物组成的各种化合物即药物主要成分的重要聚集组。A61K(医用、牙科用等的配置品)是项集次数最多的,即支持度较高的,C12P(发酵或使用酶的方法合成目标化合物或组合物或从外消旋混合物中分离旋光异构体)、C12N(微生物或酶;其组合物)、C07D(杂环环合物,例如邻氯苄星青霉素的合成)、C07C(无环和碳环化合物)通过专利相关知识我们已经知道这些都是药物的合成成分,即土霉素、链霉素、青霉素等多种抗生素和维生素的主要成分组成,是制药领域的核心。这也是和石家庄地区制药企业的核心领域相符合的。另外这些专利主题的相互关联、依赖说明了石家庄地区制药企业在该领域具有很好的布局网络,在研发数量上也占有一定优势,所以说是石家庄地区制药企业的主要研究领域。

(2)以B65G、C12M为中心的辅助设备专利技术群。药品的生产离不开设备的支持,所以设备方面的专利也能体现制药企业的技术水平。在图1中也能体现出来,专利间有着很强的依赖性和关联性,在核心专利周边有B65G(运输或贮存装置,例如装载或倾斜用输送机、车间输送机系统、气动管道输送机)、C12M(酶学或微生物学装置),这些是制药的辅助技术手段,与中心专利是相互联系的,也是制药过程中必不可少的,在这些方面的提高有利于制药核心领域的发展。先进药品的研制离不开先进制药设备支持,所以设备水平的提高也是关键的。如图3所示,石家庄地区制药企业在这一方面的技术依赖网络也已经形成,说明在此技术领域也已经拥有较强实力。但与中心主要专利相比,辅助设备专利技术还是需要不断提高的。

篇3

主要采用关联规则与频次分析相结合的数据挖掘方法,关联规则旨在提示处方中存在的两个或两个以上腧穴之间的配伍形式,频次分析能够提供针灸治疗某一疾病选用的腧穴及其频繁程度。罗玲等在全面采集古代针灸治疗中风文献基础上,重点进行了选穴的经络症状关联分析,发现针刺治疗中风半身不遂使用腧穴频次最多的为曲池、肩等手阳明经穴;肩、曲池、足三里、百会、风池配伍是最常用处方;多选用足少阳经和手足阳明经穴位。针刺治疗中风不省人事使用腧穴频次最多的为督脉百会穴、心包经中冲穴;风池、百会、曲池配伍或大椎、百会、风池配伍是最常用处方;经脉多选用督脉和足少阳、手阳明等阳经穴位。以上表明针灸治疗中风遵循了辨证循经取穴的处方规律。何冬凤等在全面采集现代针灸治疗心绞痛临床文献基础上,重点进行了选穴的经络部位关联分析。结果发现,心绞痛选穴分布在心包经、膀胱经、任脉、心经最多;选穴主要分布在上肢部、背部、胸部,上肢部用穴中近90%分布于心包经和心经,背部用穴近95%分布于膀胱经,胸部用穴全分布于任脉和心经。以上表明针灸治疗心绞痛遵循了辨位循经取穴的处方规律。数据挖掘结果证实了古代、现代取穴规律和特点与针灸临床理论的一般规律和特点是基本相符的。经络辨证提示了经穴效应的循经性,特定穴的选用提示了经气会聚状态是腧穴发挥效应特异性的关键。

1.2腧穴运用规律的研究

1)神经系统疾病:赵凌等收录了从先秦至清末的偏头痛针灸专著,采用多层关联规则挖掘算法,计算腧穴项集的支持度和置信度,发现手足少阳经脉的穴位丝竹空、风池、率谷、颔厌、头临泣出现频次最高,偏头痛处方配伍中以合谷一风池出现的频次最高,少阳经的交会穴选用最多。杨洁等发现针灸治疗贝尔面瘫中,手足阳明经穴选用最多,重视局部穴位,配合远端选穴,地仓穴为使用频次最多经穴,交会穴、五输穴、下合穴等特定穴运用广泛。吴粮葶等挖掘针灸治疗中风后遗症的现代文献,表明针灸治疗中风后遗症选穴以循经为基础,首选阳经腧穴,分布主要在四肢,阳明经与少阳经的配伍关系最为常用,特定穴为选穴的主体,特别重视交会穴及肘膝关节以下的特定穴。李旗等挖掘出针刺治疗格林巴利综合征所选腧穴以足三里、合谷、曲池、阳陵泉、外关、三阴交使用频率最高,经络则以手足阳明经最为常用。CongMen等以不同针刺手法刺激小鼠足三里,构筑神经元混沌放电的复杂网络来刻画神经元放电时间序列的时变特性。

2)消化系统疾病:任玉兰等通过多维、多层的关联规则分析针刺治疗功能性消化不良的古文献,发现足三里、中脘、脾俞、胃俞、内关是治疗FD最常用的主要腧穴,足三里与中脘相配是最主要穴位组配方式;取穴以循经为基础,主要集中在任脉、膀胱经、脾胃经上;所选腧穴以特定穴为主体,遵循局部与远端取穴相结合原则。张勇等以古文献中治疗鼓胀的经穴为原始数据,运用频数统计及关联规则算法,统计出古代治疗鼓胀最常用经穴为足三里、水分、气海等,通过2次priori关联结果,最终确认组穴1(复溜,中风)和组穴2(复溜,脾俞)在临床应用中具有强关联性。郑华斌等发现在治疗肠易激综合征中,特定穴的使用广泛,其中以足三里为最,其次为天枢、上巨虚、中脘等,脏腑辨证取穴为针刺治疗肠易激综合征的重要原则,以足阳明胃经的足三里和天枢为主。

3)心血管系统疾病:何冬凤等收集从先秦至清末有关胸痹的文献,挖掘结果为历代针灸治疗胸痹以心包经选用频次最高,阴经使用最为频繁,特定穴的选用占有绝对优势,如五输穴原穴络穴等,体现了循经取穴原则。高丽美通过频次分析及关联规则算法挖掘现代穴位贴敷治疗心绞痛文献,结果表明心俞、膻中、内关、厥阴俞使用频次最多,腧穴选用以特定穴为主,俞募配伍使用最多。腧穴分部以胸腹部、背部腧穴为主;以足太阳膀胱经、任脉、手厥阴心包经选用频次较高。

4)其他系统疾病:王洪彬等借鉴文献计量学及数据挖掘的相关方法,对针灸治疗更年期综合征的常用腧穴及经络进行描述性统计。发现现代治疗女性更年期综合征所选取的穴位中以三阴交、肾俞、关元、足三里使用频率最高,膀胱经、任脉、脾经腧穴应用最为广泛。王静等发现源于149篇文献的186条数据元素组成的阿片类药依赖针灸治疗数据库中,用穴频次居于前五的经穴足三里、三阴交、内关、合谷和神门构成了穴—穴,症—穴,研究对象—穴,—穴和戒毒分期—穴等关联规则中的穴位主体。

1.3刺灸方法的应用规律研究

贾春生等提出建立刺灸法文献数据库并设计文献数据应用平台,在此基础上分析数据资料,建立刺灸法数据挖掘模型。此后,各学者运用数据挖掘方法对穴位注射、火针、穴位敷贴、穴位埋线、刺络放血等刺灸法进行了特异性规律及特点的研究。刺灸法挖掘技术的应用中,频次分析最为常用,能够提供各类刺灸法治疗不同疾病的频繁程度,筛选其治疗的优势病种。张选平等发现穴位埋线疗法主要优势病种是内科的胃脘痛、肥胖病、痫证、哮喘、腹痛、面瘫、便秘;外科的腰腿痛;皮肤科的牛皮癣和五官科的重睑术。刘新等总结出放血针具共涉及9种,以三棱针使用频次最高,将放血量人为分为6个等级,其中放血量为少许(少于0.1mL)的出现频次最高,为401次。许晓康等发现水针疗法在内科疾病治疗中出现频次最高,其次为外科疾病,相对于其他疾病,呃逆出现频次最高。

1.4腧穴疾病谱的研究

吴粮葶等通过规范病症、腧穴名称,统计中风后遗症所属病症的针灸病症谱及总结针灸治疗中风后遗症的腧穴谱,结果显示针灸病症谱分布呈偏向性,腧穴谱遍布十四经脉,首选阳经腧穴,常用腧穴以阳明少阳经穴为主。邢晶晶等通过文献比例、疾病比例对内关及其常见配伍的针刺病谱进行分析,总结出内关针刺病谱主要分布于脾胃系和心系;单穴内关针刺病谱中冠心病文献比例最高;内关配伍足三里针刺病谱中呃逆文献比例最高;内关配伍三阴交针刺病谱中焦虑抑郁文献比例较高。黄宗雄等通过对清代及清以前昆仑穴相关文献的整理,挖掘得出:昆仑单穴主治病证33种,筛选出2种优势病证;配伍主治病证45种,筛选出19种优势病证及其高频配伍处方。陈文修等统计出百会单穴主治病证73种,筛选出22种优势病证;配伍主治病证106种,筛选出21种优势病证及其高频配伍处方。

1.5名老中医经验挖掘

张华等对田从豁教授临床病历资料进行整理,发现田从豁教授临床应用穴方共19个,阴交、肓俞、水分配伍使用频次最多。陈裕收集当代名中医针灸治疗偏头痛医案247篇,总结出临床与肝阳上亢型关联密切的是足少阳胆经,血瘀阻络型是手少阳三焦经,风邪上扰型是足太阳膀胱经,气血不足型是足阳明胃经。并且,根据关联规则挖掘提出的基本配穴规律与中医经络理论相契合。

1.6针灸临床决策支持系统构建

针灸临床决策支持系统对于实现针灸临床决策模式的转变有重大意义,基于数据挖掘方法,各学者在此方向进行了有益的探索。任玉兰等提出建立疾病症状、证候症状关系的样本数据库、概率数学模型;再通过遗传算法进行针灸治疗最优方案的选择,构建具有人工智能特征的针灸临床循证诊疗决策辅助支持平台。王佑林等利用复杂网络的K核心思想并改进来寻找针灸治疗疾病所用穴位的主穴信息,使其更好地适应中医决策系统并提供支持。李云松等发现在决策系统中,使用一元字串和二元字串的特征更适合腧穴处方的自动生成,提出了一种基于K近邻方法的腧穴处方自动生成算法,通过分析病历库中与目标现病史最相似K条病历的穴位配方,来自动给出患者针灸治疗的推荐方案。胡绿慧等提出使用Weka平台进行编程,分析穴位的支持度与置信度,找出适用于针灸临床方案决策研究的最好方法,用以指导临床医生的方案决策。

2分析与展望

2.1数据挖掘结果能够与传统的中医学理论相契

合并提供新知《席弘赋》云:“凡欲行针须审穴。”可见临证选穴及配伍的重要性。查阅近几年针灸数据挖掘的结果,不难发现,针灸处方的配伍仍大量选用“原络配穴”“俞募配穴”“八脉交会配穴”“合募配穴”“远近配穴”等传统配穴方法,遵循着“循经取穴”的规则,体现了“经脉所过,主治所及”“腧穴所在,主治所及”的规律。数据挖掘在验证传统的中医学理论的同时,还能在海量的文献中发掘出新知,如赵凌等挖掘偏头痛文献时即发现古代针灸治疗该病多采用同名经的配穴方法,发生疾病时即可在相联系的手足同名经的相应部位针刺;赵华等挖掘田从豁教授治疗痹症经验的结果提示上肢疼痛与寒凝、血瘀相关,风寒痹阻与下肢发凉相关。这些新的治疗方法、不易发现的疾病、证候、症状之间的联系,通过数据挖掘为临床提供了新的思路与治疗模式。

2.2数据挖掘在针灸领域存在的不足及展望

篇4

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

参考文献:

篇5

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

篇6

(1)传统电网能量流由电网单方向流向客户,智能配电网的能量流可双向流动。

(2)传统电网信息流传输慢,信息不完整,存在较多信息孤岛,智能配电网可以实现信息全面集成,高速双向对等通信,支持分布式处理。

(3)传统电网的业务流程局限于部门内部,智能配电网的业务流程贯穿多个部门,支持互动业务流程,全局角度的优化决策。因此,涵盖电源、电网、用户的全流程,贯穿电网规划、设计、建设、运行维护、技术改造、退役的全过程,最终形成电力流、信息流、业务流的高度融合和一体化,将成为智能配电网发展、研究、建设的重点。

智能配电网的信息化建设已经全面开始,但我们仍然不能忽略存在的问题。

(1)对配网信息化的认识和定位不清楚,应用主体不明确,导致后期的应用具体的受益者少或不明显。

(2)对配电信息化系统缺乏统一细致的规划,存在“盲人摸象”的现象,提不出完整而准确的需求。

(3)容易套用调度自动化的建设思路,过分强调实时应用,而没有针对配电信息量大面广的特点,忽视了对其它系统的相关数据利用和整合,造成配电系统的信息缺口很大,模型不完整,后期的应用无法实用化。

(4)配电自动化涉及供电企业内部的生产管理环节较多,因此存在管理体制对自动化基于实时历史数据库开展配电网数据挖掘的应用与研究文/杨劭炜邱佳杰叶伟宝当前全球能源开发利用正呈现多元化、清洁化的发展趋势,我国经济快速发展,用电需求急速增加,而煤炭、风能、水能、太阳能等传统与新能源资源的分布与消费呈逆向分布,因此,国家电网公司在2009年5月21日,提出了建设“坚强智能电网”的发展战略,并分三个阶段逐步实现。国家电网“十二五”电网智能规划中明确了“电网发展方式的转变”是这一期间的核心,而作为“两个薄弱点”之一的“配电网”将是重点需要解决的。本文以配电网为切入点,引入数据挖掘技术,围绕最能体现配网管理水平的各类业务,既提高了传统配电网业务的执行效率,又能发挥信息技术强大的智能决策优势。摘要系统的不适应,或者说是自动化系统对不同的管理体制的适应性不强。造成工作职责界定不清楚,运行管理工作跟不上,系统应用和数据维护工作很薄弱。另外,根据国网“十二五”规划,国家电网公司明确要制定实施农电发展战略,大力加强农网建设。本项目正是以县公司这样的基层供电公司为研究对象,综合考虑配电网业务的复杂性,及县公司覆盖城网和农网的特点,力图在建立一个有效配电网数据挖掘与分析模型的基础上,依托先进的技术手段,提高在县公司对智能配电网的认识和管理水平,并在可能的情况下,将研究成果在浙江省范围内的县级供电企业进行推广。

2项目建设目标

实现对配调图形数据的智能化管理与各业务环节的正常流转;研究无线数据通信节点的接入及组网管理方式,接入包括可能的3G、GPRS、WIFI、RJ45、RS485、RS232等,基于星型、树型等网络结构,管理并维护多个节点,对数据进行预处理;应用有源电子标签的电子标识系统来定位现场配网设备,解决管理人员在日常巡检和维护中,突发状况时的准确定位及地理环境变迁后的配网设备查找;为移动终端上各类信息(地理背景、电力网架、电力用户信息,配网设备台帐等)提供图形化的展示和管理;实现以文件或接口的方式导入电网拓扑、电力用户信息、设备台帐信息等。项目主要研究内容:

(1)工作任务生成与流转方式的研究。提出工作任务的概念,将其作为系统中业务流转的唯一单元。设计并实现其具体流转方式。

(2)无线数据网络的研究。分析以无线数据网作为整个系统的通讯核心的技术可行性。研究无线数据通信节点的接入及组网管理方式,接入包括可能的3G、GPRS、WIFI、RJ45、RS485、RS232等,基于星型、树型等网络结构,管理并维护多个节点,对数据进行预处理。

(3)有源电子标签的研究与应用。研究使用有源电子标签的电子标识系统来定位现场配网设备的技术可行性,以解决管理人员在日常巡检和维护中,对突发状况时的准确定位及地理环境变迁后的配网设备查找。

(4)移动终端上配网信息可视化展现的研究。为移动终端上各类信息(地理背景、电力网架、电力用户信息,配网设备台帐等)提供图形化的展示和管理。

(5)与相关系统数据接口的研究与实现。研究电网拓扑、电力用户信息、设备台帐信息等数据的载入方式及其技术可行性。涉及系统包括:GIS,PMS,营销系统等。

3项目技术方案详情

3.1系统架构

(1)总体要求及架构。系统将采用面向服务架构(SOA),遵循IEC61970标准接口和CIM数据标准,集成SCADA、市公司数据交换总线(IEB)、电力营销、气象网站、负控管理等相关系统,采用数据仓库技术,有效解决多源头复杂数据的采集、海量数据之上进行快速准确科学的数据分析的难题,贴近国内供电企业电网运行工况和负荷分析预测人员及电网规划人员日常工作所需的基于省公司实时历史数据库开展配电网数据挖掘系统。

(2)技术路线。①基于IEC、CIM等标准,建立资源中心,通过IEB企业总线接收来自PMS、ACADA、电力营销、用电采集、气象系统等的多维数据;②采用C/A/S三层架构,保证平台的稳定性和时效性;③部署上满足大范围推广应用;

3.2集成框架

基于省公司实时历史数据库开展配电网数据挖掘平台集成了SCADA、市公司数据交换总线(IEB)、电力营销、气象网站、负控管理等相关系统。集成框架如图1所示。

4硬件架构

平台应用采用单独的应用服务器独立部署,需要配置相应的软硬件环境。应用服务器通过F5实现均衡负载,当用户增加,已有服务器性能影响用户体验时,通过增加应用服务器的方式提升系统整体性能。

5软件架构

基于省公司实时历史数据库开展配电网数据挖掘平台将提供6大业务分析功能及3个基础管理功能,共约40个分析子功能项,满足各级负荷分析预测人员的日常工作所要。

篇7

1.1领域本体对特定专业领域中的概念及之间关系的描述,即为领域本体,它是对一个应用领域的描述,具体来说,分为本体知识库和领域本体模式两种成分,进而描述特定的领域知识和信息,即为领域本体模式,此外,模式描述了应用领域的知识构成或静态信息。而所谓的顾客价值需求领域本体,描述的是逻辑关系、描述的对象是顾客价值需求目标概念机需求行为概念,明确则是指概念及约束是显式的定义,基于其具有计算机刻度的特点,构成了形式化,研究目的将领域体原语定义的具体情况如下:定义一:顾客价值需求领域本体的概念构成,Concerpts={Concerpts1,Concerpts2,Concerpts3},式中,顾客机制需求特性概念用Concerpts1表示,顾客的价值需求决策行为概念用Concerpts2表示,如环境约束分析、方略设计、实施等;顾客的基本特征概念则用Concerpts3表示。定义二:顾客价值需求领域本体形式化为三元组:ODomain={Concerpts,Relations,Instances},式中,领域概念的集合用Concerpts表示,领域概念间的关系集合用Relations表示,而ODomain为领域本体,本体实例的集合则用Instances表示,形成三元组。定义三:顾客价值需求领域本体的关系集合表示的是概念集合中各个概念之间的关系,具体数来,表现为n维笛卡尔积的子集。关系集合中存在5种关系,有Part-of:某个概念是另一个概念的属性。Means-end:不同需求概念之间因果解构关系。Subclass-of:概念之间的继承关系。Drive-adjust:不同需求概念之间因果解构关系。Attibute-of:某个概念是另一一个概念属性。也就是行为感知影响目标调整,且目标驱动行为,二者关系密切。定义四:领域模式在应用域的实例,即顾客价值需求领域本体的实例。如“大学生的移动产品需求”本体、“政府顾客的移动产品需求”本体等。

1.2任务本体对特定任务或行为求解方法的描述即为任务本体,对其的设计,应当以顾客需求管理领域决策信息及问题的需求为基础,有文献指出,顾客吸引、识别、保持及发展,为顾客生命周期管理涉及到的4个管理主题,如表1所示,也包括了上述主题的决策分析问题。综合数据挖掘的任务来看,其囊括了一个或多个挖掘子任务、挖掘算法等,结合本次研究,实施了对该领域的任务本体原语定义的设计,如下:OTaske=(Taskea,Inputsa,Methodsa,Outputsa)上式中,挖掘任务本体用OTaske表示;α管理主题下Taskea挖掘任务的输出变量用Inputsa表示,如兴趣参量、聚类变量、规则前、后件变量;α管理主题下的挖掘任务用Taskea,如顾客细分以及需求特征描述等;挖掘结果输出表达形式或格式用Outputsa表示,如聚类中心、“类”聚类变量均值、“类”样本数等;挖掘方法用Methodsa表示,如K-means聚类。另外,α∈(识别顾客,吸引、保留和发展顾客)共同构成了任务本体。

2对本体下顾客需求数据挖掘过程的改进

结合现实发展中的相关问题,在本体的顾客需求数据挖掘过程的改进方面,主要体现了挖掘目和任务、方法的选择及确定及数据源转化、约束参数的选择等。这种方式下,对目标的搜索范围进行了有效的缩小,进而在此基础上提高了挖掘质量和效率,如图1所示。

2.1支持管理决策的挖掘任务首先要进行的是对数据挖掘任务和目标的确定,基于操作中验证或探索可支持实际管理决策的信息结构,具有较大的价值,其知识内容包括了规则、规律、模式及关系等,结合文中研究主题,依据顾客需求相应决策问题来进行具体数据挖掘任务的设置,在对挖掘任务和目标的完善方面,有效地结合了领域知识的本体模型。在对应概念及关系语义匹配方面,根据该领域需求目标、行为信息的本体模型来进行,继而确定本次数据挖掘任务。

2.2挖掘数据空间及预处理在具体的实施过程中,以数据挖掘任务和领域本体模型为基础,指导完成数据集成、选择以及预处理3个环节,这便是挖掘数据空间及预处理,细分有以下内容:(1)提取、归并处理多数据库运行环境中顾客数据,以及遗漏和洗清脏数据等;(2)基于数据来进行数据的选择方面的需求,应依据数据挖掘任务需要分析的数据来实施,进而有效减少了不相关或冗余的属性,也得到了符合约束的数据挖掘有限数据基,实现了数据挖掘搜索效率的有效提高,使得相关属性或遗漏等现象得到了有效避免;(3)基于顾客“需求行为”领域本体的概念语义即为预处理,旨在检查转载的数据,确保其合法性,并及时修正其中的错误,预处理其中的异常数据。

2.3挖掘方法算法及执行流程依据本次研究的需要,在具体的执行过程中,设定先明确数据挖掘的任务和目的,详细可分为验证性、探索性挖两种,前者由用户事先给定假设,继而在挖掘中发现蕴含的某些规则或规律,对所做的假设进行验证;其次,对操作过程中的挖掘方法和算法进行确定,而挖掘方法和感兴趣参数的设置则要根据挖掘任务来进行,如表1所示;最后,确定挖掘结果的表达方式,一般有神经网络、树结构以及规则(模板)等[6]。

2.4评价挖掘结果作为整个实施过程的最后一个环节,对于挖掘结果的评价和诠释,对于整个操作过程具有十分重要的意义,在具体的评价过程中,不能有违背领域本体知识的行为,并要及时参与领域本体的概念关系,且还要采取相应的方法来提高综合评价的有效性,如置信度、支持度以及兴趣度等等,在必要的情况下,实施方应当反馈调整参数或约束等,继而形成对用户感兴趣知识的重新挖掘,对其进行完善,基于本体用严格的逻辑语言表述过程中产生的新知识,需及时在实践过程中的检验与完善,使得整个过程具有较高的可信度,收到良好的执行效益。

篇8

2采用可视化图形操作分析技术

可视化分析技术能够整合各式不同的数据来源或数据仓储系统,利用MicrosoftSQLServerAnalysisServices构建多维结构数据库(Cube),而后存取、分析商业数据,通过鼠标的拖、拉、点、选,操作各种维度与量值,迅速产生各式的分析图表与统计结果。可视化的图形操作能为用户迅速提供决策报表与在线分析处理(OLAP)等重要分析功能。运用专业工具所提供的报表(Reports)、实时查询(AD-HocQuery)、联机分析处理(OLAP)等重要商业智能的强大分析功能,使医院获得最全面、迅速的数据洞悉能力。具体功能如下:

(1)表定制及报表的整合,在报表灵活性和报表开发易用性等方面具有突出的优势,其报表是通过图形界面下的鼠标拖拽操作来直观的完成的,无须编写任何脚本或者代码,即可实现复杂格式的报表。

篇9

二、数据挖掘技术在财务分析中的应用

财务分析的主要目的是改善经营管理,提高企业的经济效益,其主要目的是保证会计信息资料的正确可靠性,以保证企业财产的安全性、完整性。比如某生态园林企业需要投入大量资金完善生产基础设施,并保证现场作业的有序,如有必要还要投资于企业产品周边附属产业的发展,因此财务决策的重要性不言而喻,而在财务决策中应用数据挖掘技术十分必要。财务分析中应用数据挖掘的基本流程包括问题识别、数据准备、数据开采及结果表达与解释等四个步骤,图1可将财务分析数据挖掘的过程直观的表达出来:

(一)问题识别

典型的财务决策包括投资决策、筹资决策、成本决策、销售决策等,企业要进行财务分析前必须识别决策问题,明确需要达到的决策目标等,再将决策目标转换为数据挖掘的目标,最后进行准确的数据定义。如企业需要投资企业产品周边附属产业,则需要利用数据挖掘技术明确以下问题:

(1)企业经营中可随时支配的资金额度,需要财务人员建立数据库模型,将可用于投资的资金情况准确、详细的计算出来;

(2)编制投资方案,即与本企业实际情况相结合,考虑具体投资计划,并对投资方案的可操作性进行分析,比如上述园林生态企业需要投资进口园林机械的项目,就需要在投资前对该项目的大小做出合理评估,了解该品牌园林机械在国际市场的占有份额、品质、成本及销售价格等信息;

(3)投资收益分析,投资的主要目的是获得更高收益,因此在数据挖掘过程中,问题识别时必须做出可靠的收益预算。

(二)数据准备

在完成问题识别后,需要根据不同的需求、从相关数据库信息中选择适用的数据信息,即进行数据准备,该过程需要收集大量与企业财务分析相关的数据信息,以保证数据挖掘的真实性、客观性,比如花卉市场分布信息、装饰装潢市场信息、园林设计与市场销售等信息。通常情况下,数据准备又可分为数据集成、数据选择及数据预处理等三个步骤,其中数据集成是把多数据库运行环境中的数据进行合并处理,去除信息噪声,剔除虚假数据;而数据选择则是分辨需要分析的数据集合,进一步缩小数据处理的范围,提高数据质量,从而保证数据挖掘的有效性;数据预处理的主要目的是解决数据挖掘工具局限性的问题。

(三)数据挖掘

当上述准备工作完成后即可进行深入的数据挖掘处理,挖掘过程中需要注意,必须以财务分析核心思想为指导,明确数据挖掘的目的性,数据挖掘的主要内容包括:选择合适的挖掘工具、具体的挖掘操作及证实发现的知识等,其中选择合适的挖掘工具至关重要,限于篇幅此处对神经网络及决策树两种方法进行简单介绍。神经网络是以自学习数学模型为基础的,利用该方法可以很容易的解决具有上百个参数的问题,为高复杂度的问题提供一种相对简单的方法;视经网络既可以表现为有指导的学习,也可以是无指导聚类,不过输入神经网络中的值均为数值型的。实际应用中通常采用该方法进行财务预警分析。决策树法是现阶段应用最广泛的归纳推理算法之一,其提供了一种展示在何种条件下会获得对应值的规则的方法,是一种简单的知识表示方法,在数据挖掘过程中,决策树法主要用于数据挖掘的分类。

(四)结果表达

结果表达即是在处理数据库信息的基础上客观的表达出数据挖掘的结果,以为企业财务分析提供可靠依据。可以说结果表达是数据挖掘的成果展示,其所表达的是最有价值的信息,如结果表达所提供的信息达不到决策的要求,则可重复挖掘过程,直至决策者满意为止。

篇10

1.2分类。它能将数据库中的数据项,映射到给定类别中的一个。分类[3]定义了一种从属性到类别的映射关系,给定样本的属性值,根据已知的模式将其划分到特定的类中。

1.3聚类分析。聚类是根据一定的规则,按照相似性把样本归成若干类别。在对样本合理划分后,对不同的类进行描述。聚类通常用于将客户细分成不同的客户群,如有相同爱好的客户群。

1.4时间序列。按照时间的顺序把随机事件变化发展的过错记录下来就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。

1.5孤立点分析。孤立点在数学上是指坐标满足曲线方程,但并不落在曲线上的点。它也可以被看作是在数据集合中与大多数数据特征不一致的数据。对孤立点进行分析极有可能发现重要的隐藏信息。

1.6遗传算法。它是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法;是一个以适应度为目标函数,对种群个体施加遗传操作,实现群体结构重组,经迭代而达到总体优化的过程。目前,将数据挖掘技术应用于烟草行业的研究逐步受到重视。欧阳秀君,刘文在《数据挖掘技术在烟草CRM中的应用》一文中[4],主要探讨如何将数据挖掘中的关联规则、聚类、分类方法应用于烟草CRM中。康江峰,陈辉[5]将基于数据挖掘的技术应用于对烟草精准营销策略的研究。王辛盟[6]采用数据挖掘技术,利用SPSS统计软件,以某烟草配送中心的订单数据和客户资料数据为数据源,用聚类的方法对客户群进行细分。郑阳洋、刘希玉[7]采用基于多层次关联规则挖掘技术,对2007年山东省内某地级市卷烟商业企业的销售数据进行分析,得到“消费者在购买品名为红河(软甲)的客户中,有57%会同时购买类名为八喜的卷烟”的规则。但以上对于烟草行业的数据挖掘研究的方法主要集中在关联规则、聚类分析和分类三种方法上,在接下来的研究中,我将探讨如何将更多的数据挖掘方法应用于烟草行业的数据分析上。

2数据挖掘技术在烟草行业中的应用

2.1聚类分析在卷烟销售中的应用为了便于日常卷烟销售及统计,通常根据卷烟的属性对进卷烟行分类,常见的卷烟分类方法如下:一是按照价位段划分,5元以下、5-10元、10元以上等;二是按照利润贡献度,分为一类烟、二类烟、三类烟、四类烟和五类烟;三是按照卷烟品牌划分,泰山系列、黄鹤楼系列、七匹狼系列等;四是按照产地划分,鲁产烟、沪产烟、外产烟等;五是按照焦油含量划分,低焦油卷烟和高焦油卷烟。以上就卷烟的某一单一属性对卷烟类别进行区分,极大的方便卷烟的销售管理工作,然而,消费者在选择卷烟时,往往会考虑多方面的属性,因此单一属性的卷烟分类无法解释消费者偏好。因此需要引入基于多属性的卷烟分类方法,由于卷烟规格多且本身具有多重属性,基于主观判别分类方法难以满足分类要求,需借助统计学的方法对卷烟进行科学分类。聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程,同一类别的样本表现出较高的相似性。因此,可将聚类分析用于解决上述卷烟分类问题,根据多属性相似程度将卷烟分成几个类别,消费者在同一类别中的香烟偏好无显著差异,即同一类别中的香烟具有较高的替代效应。在实际销售过程中,当某一牌号的卷烟断货、紧俏时,可推荐此牌号所在类别的其它牌号的卷烟给消费者作为有效替代。

2.2时间序列用于卷烟销售趋势预测卷烟销售市场季节性特别显著,主要表现为两个方面:一是市场以节假日为节点,节前卷烟销售迅猛,节后消费趋于平淡;二是夏季是旅游市场的旺盛,旅游业带动外来人口流动增加,卷烟销售量也随同增加。同时,卷烟市场也受经济、人口结构等方面因素影响,使得卷烟销售量存在明显的非线性特征,波动范围比较大,传统线性预测模型难以准确预测。为了提高卷烟销售预测精度,建立一个基于时间序列、能够精确预测卷烟销售量的模型已经成为一种必然趋势。时间序列由四个影响成分所组成,分别是长期趋势、循环变动、季节变动、不规则变动。这四个影响成分与卷烟销售市场的变动规律相吻合。通过建立卷烟销售时间序列模型,对以往销售的历史数据进行分析,能够有效地预测未来卷烟销售市场的走势和发展规律,更好地掌握卷烟市场的供需关系。在此基础上,做好备货工作,设立合理库存,实现有效的货源供应。通过对区域市场变化趋势的预测并结合客户实时经营状况,能够对客户的需求总量做出相适应的预测,确保做好客户的合理定量工作,保障不同零售客户需求。预测结果还可为制定公平合理的货源投放政策提供依据,使得各类货源能够投放至有相应销售能力的客户手中,更好的满足消费者的需求。

2.3孤立点分析用于烟草专卖执法数据挖掘中的孤立点分析方法可以通过计算数据点之间的距离,稠密度等来模拟用户之间的属性差异,由此找到那些属性特征与正常点差异非常大的用户数据点。人们普遍认为孤立点的存在极有可能是度量或执行错误所导致的,因其不符合数据的一般模型,所以在研究普遍现象时,人们总是试图使孤立点的影响最小化,而尽可能排除它们。然而,孤立点可能隐藏着比一般的数据更有价值的信息。近些年来,孤立点挖掘作为一个重要的研究课题,已被广泛用于信用卡诈骗监测、市场内部交易侦测、工业设备故障探测等领域。在已建立的烟草分销数据库中储存着大量客户订单信息,这些订单信息包含多个维度,如用户ID、商品编号、订购数量、需求数量、同一品牌订货间隔等等。可利用孤立点挖掘算法对客户订单数据进行分析,建立客户评估监测模型,找到以下“孤立点”:订单金额高的,敏感牌号订购量大的,敏感牌号订购频繁的,以往订购敏感牌号频率低但最近一段时间频繁订购的,按照商圈不具备高端敏感牌号销路的却频繁订购等等。这类订单“异常”的客户,或者称为“孤立点”,可以被认为是存在相当大的“违规”可能性,我们的专卖执法人员应该对这一类的零售户采取进一步的跟踪调查。孤立点数据分析,势必成为专卖执法的又一利器。

2.4遗传算法用于车辆配送线路优化卷烟商业企业的销售收益主要来自于订单,销售成本主要产生在物流配送的环节。所以,在假设销售量不变的情况下,如何优化线路配置,降低成本,最大化公司利润,在当前烟草行业面临巨大的挑战和压力下,显得尤为重要。因此,采用科学的、合理的方法来确定配送线路将是车辆优化调度工作的重中之重,是物流系统优化、物流科学化的关键。烟草商业企业已有的线路优化系统中储存有客户商店位置、道路情况等信息,可以在此基础上,利用遗传算法对配送线路问题进行优化。将一系列实际中车辆配送的约束条件,转换成二进制编码(染色体)并随机产生初始种群,通过模拟达尔文的遗传选择和自然淘汰的生物进化过程,并借助于自然遗传学的遗传算子进行组合交叉和变异,逐代演化产生出越来越好的近似解,末代种群中的最优个体经过解码,可以作为最终问题的近似最优解,用以实现对车辆的优化调度,即合理地进行配货优化、货物配装优化,特别是配送路线优化。从而达到提高里程利用率,降低行驶费用,减少车辆空驶里程,增加货运量,节约燃料,降低大修费等,为企业带来更大的经济效益。另外,车辆优化调度在减少废气排放量,降低城市空气污染方面也起到积极作用。

篇11

1.2模糊集理论的应用要点该方法通过模糊集合与模糊推理两种方法,其研究测试的对象是各类不确定性因素,属于传统集合理论的创新。模糊集理论在设备状态监测和故障诊断中的应用,主要包含了两个方面。一方面,是在相关数据概念的形成时,采用不准确和较为模糊的语言变量,根据人们习惯,对设备状态的变化及变量变化状态进行描述。具有较强的直观性,且相关人员在接受该类概念时,也可以更方便的理解接受;另一方面,该方法通过提炼模糊性规则,在建模时模糊化,使得机械设备的控制、预测以及故障诊断等过程拥有更为广阔的空间。

1.3基于实例分析的方案优化及调整该种方法拥有较为简单的思路,在对设备未来运行情况进行预测时,系统会匹配与设备目前情况相似的实际案例,并从以往的解决方法中选出最佳的解决方案,再结合设备实际情况进行相应调整。此类方法的应用范围较广,且得到的计算结果也相对准确,但同时也具有一定缺陷,即无法全面整合以往设备数据及解决规律,缺乏充足的继承性。该方法进行故障诊断的基本理念是,在选红枣解决方法的过程中,利用历史诊断方法成功案例为奠基,进行全面的推理工作,并采用类比和联想法,较为全面的对故障进行诊断。

1.4多种数据挖掘法的联合应用除上述几种数据挖掘技术外,实际工作中还涵盖了以传统数据统计为基础的统计分析方法、人工神经网络元技术、等多种方法,考虑到每一种方法或多或少具有局限性,故为了有效提高各类方法的应用效果,可以将各类方法进行配合使用,代表性的算法组合类型如表1所示。

以遗传算法和模糊集理论的配合采用为例。由于模糊算法,主要是利用了最大隶属原理和阀值原理,故可以按照不同故障的发生原因以及故障征兆的相互联系,在综合考虑的基础上对机械设备故障的可能原因进行全面分析。而该方法在运用的过程中,会对各类故障征兆进行约简化从而得到较为普遍的规律,但是所得到的规律也可能存在不可靠问题。故在实际应用模糊集理论的同时,配合采用遗传算法,通过对模糊集理论所得到的结论及规则进行全面优化,使得诊断的结果更为准确与高效。上述案例方法在涡轮机故障诊断过程中进行应用时,可先建立完善的涡轮机故障集,在此基础上采用模糊集理论对涡轮机故障进行诊断,配合遗传算法对涡轮机故障规律进行优化,使得最终故障诊断结果更为准确。除遗传算法与模糊集理论课进行配合使用外,其他各类方法也可以根据设备实际情况进行搭配,使得最终诊断结果更为准确有效。