时间:2023-06-05 08:44:29
序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇数据分析论文范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!

1.1数据采集系统
大数据时代,大数据有着来源复杂、体量巨大、价值潜伏等特点,这使得大数据分析必然要依托计算机技术予以实现.因此从两个方向上加强数据采集统建设,一是侧重于数据的处理与表示,强调采集、存取、加工和可视化数据的方法;二是研究数据的统计规律,侧重于对微观数据本质特征的提取和模式发现,在两个方向上的协同、均衡推进,以此来保障大数据平台应用的稳健成长和可持续发展.广电的网络和用户是其核心资产,而其中流动的数据(包括用户基础数据、网络数据、网管/日志数据、用户位置数据、终端信息等)是核心数据资产.对于广电运营商来说,最有价值的数据来自基础网络,对于基础网络数据的挖掘和分析是运营商大数据挖掘的最重要方向.因此其数据采集的目标包括机顶盒数据、CRM数据、帐务数据、客服数据、运维数据、媒资数据、GIS数据、财务数据和其他手工录入、表格数据.采集频率要求可以实现实时采集和定时批量采集.采集这类数据带来一个问题就是各类数据杂乱无章,会导致数据质量问题越来越严重,通过引进实时质量监控和清洗技术,建设强大的分布式计算和集群能力,提高数据监控和数据采集性能,利用分布式处理技术,实现数据抽取、数据清洗以及相应的数据质量检查工作,保证采集到高质量的数据,将广电大数据中心建设成一个覆盖广电系统全部数据的存储中心,具备采集各类结构化、非结构化海量数据的处理能力.
1.2数据分析中心
广电企业每时每刻都在产生大量的数据,需要对这些数据归集、提炼,广电企业大数据平台建设的意义在于有效掌握规模庞大的数据信息,对这些数据信息进行智能处理,从中分析和挖掘出有价值的信息.在广电大数据分析中需要对直播节目分析、互动业务分析、互联网流量分析、互联网内容分析、广电客户分析、市场收益分析、智能内容推送和广告分析等,通过这类数据分析,能够实时了解广电运营商的经营状况,提供决策支持.因此采用两种方式分析方法对收集到的数据进行分析处理.一是采用在线分析方法技术,使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的.这些信息是从原始数据直接转换过来的,他们以用户容易理解的方式反映企业的真实情况.在线分析策略是将关系型的或普通的数据进行多维数据存贮,以便于进行分析,从而达到在线分析处理的目的.这种多维数据存储可以被看作一个超立方体,沿着各个维方向存贮数据,它允许分析人员沿事物的轴线方便地分析数据,分析形式一般有切片和切块以及下钻、挖掘等操作.二是数据挖掘是从海量、不完全的、有噪声的数据中挖据出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则.这些规则蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,可以为经营决策、市场策划和金融预测等方面提供依据.
1.3数据应用中心
在大数据分析平台应用过程中,数据本身并不是数据分析和数据挖掘的重点,重点在于如何应用这些技术去解决企业在运营中实际的商业问题.通过对数据分析和挖掘,了解企业运行过程存在问题,预判企业中各类业务发展走向.对数据分析与挖掘结果来说主要有两个方面,一是将分析结果给客户使用,另一个是将分析结果提供给内部用户使用,因此在大数据分析平台设计中,将数据应用划分为三个应用中心:
1)推荐中心
推荐中心面向收视、宽带使用用户,通过分析使用用户的收视、互联网、消费等行为,将使用用户分群,总结群体特征,向不同群体推荐个性化的电视节目、广告和增值应用服务.从而提升用户的使用体验,提升用户的满意度和粘度.
2)决策中心
决策中心面向广电企业内部决策者、管理者、经营分析人员,通过对企业经营数据的KPI、运营监控、经营盘点,使企业决策者掌握企业运营状况及发展趋势;智能报告协助分析人员自动定位经营中的问题;即席查询在预定义的语义层基础上,实现灵活的自定义查询;通过主题分析满足各部门、岗位的多维度分析需求;通过专题分析就某一具体问题进行深入挖掘,辅助专业分析人员的工作;统计报表满足各部门常规统计需求.
3)服务中心
服务中心面向广电的合作伙伴,比如:电视台、广告商、服务和内容提供商、相关政府职能部门等.通过对使用用户收视行为的实时分析,将电视栏目实时收视率提供给电视台,电视台根据收视率进行在线的问卷调查,提高电视台的影响力,帮助其增强栏目的评价体系.为广告商提供精准的广告投放策略,实时准确的广告投放评估,帮助广告商提升广告到达率、准确度和营销效果.为服务和内容提供商的电影、电视和增值应用等产品提升收视率和使用频率,并进行评估,为其提供受众喜好特征,帮助其推出有针对性的产品.通过用户收视数据、节目反馈等信息,将相关舆情向相关政府部门汇报.
1.4系统管理
系统管理是大数据分析平台一个辅助功能模块,主要是为了系统管理员对大数据平台进行有效的监控和管理,提升大数据分析平台性能使用,包含有如下几个模块:权限管理、数据质量管理、元数据管理、调度管理、系统监控等.
2数据应用分析
移动互联网的发展为传统行业带来了新的思考,如何在互联网时代更好地实现以客户为中心的服务理念,借助大数据分析平台、海量的客户非结构化的行为数据和传统的结构化数据,可以有效提升广电个性化、人性化的服务水平.大数据分析平台通过整合广电网络中多个数据源,并按照主题进行划分,在定义主题的过程中,提供广电业务概念的规范定义.数据模型不偏重于面向某个应用,而是站在企业角度统揽全局,提供可扩展的模型设计,偏范式化的设计使平台在最大程度上保持一致和灵活扩展性.依托某广电网络公司业务开展情况,搭建数据分析平台,具有如图2所示的主题结构,共计8大类53小类,从广电网络运营的各个方面进行了数据分析.
2.1直播节目分析主题
直播电视节目作为广电运营模式中一直沿用的产品类型,对于广电用户的影响和广电运营商运营模式起着至关重要的作用.实时直播节目分析,用户可以实时查看每个时间点上每个节目收视率,以此为据来指导产品定制、节目选择、用户推广等方面的商业应用,对直播节目的多维度分析,运营商可深入分析直播节目收视特性及受众影响规律,以指导运营优化,提高节目的收视率和营收.
2.2多媒体业务分析主题
广电行业的双向网络改造不仅将视频点播、通信及娱乐业务成为可能,同时配备增值业务,如广告、支付、股票、游戏、付费节目等服务.可以明显看到哪类业务最受欢迎,哪类业务的增长趋势良好,哪类业务应用下滑得较快,哪类业务不受用户欢迎,从这样的分析结果中,可以为广电网络以后的业务引进中提供指导,避免引进的业务不受用户欢迎,同时也可以预见性的引进一些代表将来趋势性的业务,提前做好业务储备工作.互动业务的互动特性为广电运营商增加客户粘度、制定产品投放策略、获取最大化收益及市场价值提供了前所未有的空间,通过对互动业务的应用分析,可以分析出用户的行为趋势.利用这样的分析结果改善广电业务引进,提高用户的粘度和ARPU值.
2.3互联网应用分析主题
广电作为政府宣传的喉舌,一个主要的特点就是可管可控,相对此而言,互联网网络一个重要特点就是用户各类行为的不可控性.在三网融合的新环境下,广电网络一个重大改变就是引进了互联网业务,同时通过多屏互动技术使广电终端类型日益复杂,如何对广电网络引进的互联网业务和终端进行有效的管控,成为摆在广电网络运营商面前一个重要课题.运营商可以清晰地看到用户在讨论什么、在看什么,以此来分析用户将来可能采取的行为趋势,进而来引导用户舆论与行为,实现对广电网络的可管可控的最终目的.同时广电网络也可以利用互联网数据从如下两方面做了分析,运营流量及应用优化,节省网络带宽,减少运营费,同时用以提高用户体验度,增加用户粘性;充分利用线上、线下同步运营模式,深入挖掘线上讨论内容,为线下运营提供指导.
2.4广电客户分析主题
在三网融合的环境下,广电网络在逐渐摆脱事业单位模式下经营模式,向“市场驱动”、“客户驱动”经营模式的转变,“以客户为中心”的理念和策略不可或缺,而广电网络拥有的客户群和常规用户分析的客户群体有着本质区别,以往分析往往针对个体用户进行分析,广电网络面向的用户通常是以家庭为单位的,这给广电网络用户行为分析带来不可预料的困难.通过针对用户群体不同年龄、不同时间段的收视行为和上网行为分析,可以区分某一时间段内该家庭用户内个人的行为,可以清晰看到各类用户在各个阶段的变化情况,以及这个变化给广电网络运营带来的变化.从用户信息出发,以用户应用行为为主线,深入挖掘用户关系,为广电用户关系管理提供有效基础数据,提高用户满意度、忠诚度,提高广电网络市场运作的主动性.
2.5市场收益分析主题
三网融合后,广电网络作为一个市场主体,需要适应日趋激烈的市场竞争环境,提升广电运营商的企业核心竞争力,应充分利用业务支撑系统产生的大量宝贵的数据资源,建立广电企业收益分析系统,实现对收益数据的智能化加工和处理,为市场运营工作提供及时、准确、科学的决策依据.利用先进的OLAP技术和数据挖掘技术,帮助企业的经营决策层了解企业经营的现状,发现企业运营的优势和劣势,预测未来趋势;帮助细分市场和客户,指导营销、客服部门进行有针对性的营销和高效的客户关系管理;对决策的执行情况和结果进行客观准确的评估,深受用户的青睐.如图7所示的收益分析结果,可以清晰看出企业各类业务在营收中所占比例,可以明确了解哪类业务是企业的优质业务,哪类业务需要进一步加强开拓市场,同时也可以预测哪类业务会有更大的推广空间,为企业持续开展业务提供指导.
2.6智能内容推送主题
深层次挖掘用户潜在的需求,以用户的需求为导向,向用户推送有针对性的内容.广电运营商通过对用户差异性的运营策略,激发用户参与的热情,让用户有持续的良好体验,提升对用户的吸引力和黏着度.信息精准、智能推送的关键在于把握住用户的行为习惯,同时让每一个用户都可以按自己需求方便、快捷地调整、归类相关信息.大数据分析平台基于用户行为收集分析系统,挖掘出用户潜在需求,充分了解了用户的真实意愿,将有助于广电运营商建立以客户为中心的服务理念,提升社会影响力.
2视频监控在烟草行业的发展及应用现状
(1)烟田监控:实现对烟田、育苗大棚内实时监控;
(2)烟叶收购站监控:实现对烟草所有站点烟叶收购全流程监控视频调看、查询、巡视、控制的功能;
(3)生产及公用设施区监控:主要用于监控车间内重要设备、生产线运行、物流线路及环境状况,以及动力中心车间内空调、锅炉等重要设备的运行及环境状况,防止灾害和事故的发生。
(4)烟草物流配送中心监控:对物流配送中心进行实时监控;
3视频大数据分析的技术需求
随着视频监控在烟草行业的大规模应用,视频数据量的增加,每天产生的数据量都是以TB(1000GB)级别计算的,若是利用传统的技术手段对每天的视频进行检索和分析,则需要数小时的时间才能够完成,工作量及工作难度可想而知;而对于更高级别的视频数据,如PB(1000TB)级别的视频数据进行分析和检索时间那就是很多天了。视频检索与分析的效率低下,也是目前视频数据利用效率及数据价值低下的首要原因。为此,如何提高视频数据分析与检索的效率,如何针对PB(1000TB)级别甚至EB(1000PB)级别的海量数据进行分析与检索,提升视频监控数据价值,成为了当前用户的首要需求,也成为了当前视频大数据分析技术的难点及关键点之一。同时,在对视频进行检索与分析的过程中,需要考虑检索结果的准确性。由于视频图像信息为非结构化数据,如何合理有效地对非结构化的数据进行检索分析,优化计算机图像识别算法,是提高视频大数据分析准确性关键所在。再者,当完成视频检索与分析后,如何做好视频数据与非视屏数据的整合与关联工作,是后期视频数据应用时重点考虑的内容。
4视频大数据在烟草行业的应用思考
时下,烟田监控、烟叶收购站监控、生产及公用设施区监控、烟草物流配送中心监控等的视频监控数据较多仅仅用作安防视频使用,还未涉及到与烟草业务的关联;随着视频监控建设的完善及视频大数据技术发展,各类监控视频数据量的增加,考虑到投资回报比,是否可以通过视频大数据分析,将烟草业务与视频监控相关联,在海量的视频监控数据中提取有益于烟草行业发展的变革或新技术呢?
4.1安防业务
基于传统视频监控,安防业务是传统业务之一,通过大数据分析,有效快捷的提取安防所需要的视频片段。同时基于视频行为告警策略,及时告警。
4.2安全生产
结合视频大数据分析,将以往多次生产事故监控视频整合,通过对多次生产安全事故的分析,总结出更为安全可靠的生产规则;再则通过视频监控与生产行为的结合,制定安全生产标准,通过声音报警或警示灯报警等技术,在不符合标准视频监控预定义的安全规则情况时,能够及时报警。通过视频监控分析,提升生产的安全性。如采用彩色网络快球摄像机和彩色固定网络枪式摄像机,彩色网络快球摄像机的预制位设置应优先,根据视频大数据分析后,系统可提供不同故障区域或设备的故障信号,各工艺段或设备的操作运行信号,通过系统集成与生产监控实现联动,平常摄像机对正在操作或运行设备进行监控,一旦某个故障点报警,摄像机立刻自动转动到报警点,监控中心的NVR主机开始录像等。
4.3效率生产
结合视频大数据分析,通过分析各个不同烟站或烟厂中的同一种生产行为,结合对海量数据进行智能分析,提取出价值数据片段,形成元数据信息库,再通过人为加工后期数据,总结形成效率生产有用的价值信息,提供生产借鉴,提高生产效率。
4.4创新生产
通过视频大数据分析,将以往的视频通过轨迹分析,得出以往生产过程中各类生产动作中不必要或者多余的部分,简化或者优化生产规则;通过对给类生产行为的总结,提出合理的建议,为生产提出创新性意见或建议,提高生产率。
2.1数据抽取Agent
数据抽取Agent(DA)主要实现对网上电子数据交换的单证进行监控性或合法性的格式检查,并从不同的单证中自动地抽取出所需的数据项,提交给交互协调Agent,以便进行分析和统计。其对单证格式检查的要求,以及数据抽取的要求统一由交互协调Agent管理。Agent实时监测网上电子交换系统单证的收发,当用户收到或发送单证时,它就会自动提取单证中的数据,根据单证的种类、知识库中处理要求,进行数据处理和存储,并发送给交互协调Agent分析统计或报警。
2.2计算统计Agent
计算统计Agent(TA)主要对抽取出的单证数据按类别、时间、对象等多角度,采用马尔可夫、多元回归、指数等多种方法进行分析统计。因此,需要建立模型库、知识库对不同的单证进行不同要求的处理。计算统计Agent的组织结构图如图1所示。
TA会根据由交互协调Agent设定好的要求,当收到的相应单证数达到一定数目或者是积累了到预定的时间时,自动会进行分析和统计,如销售单处理中的本月单证数目,本月销售额、最大额销售情况、下月的销售量预测、最优库存量等。
2.3交互协调Agent
交互协调Agent(CA)是系统的关键,它既是与用户沟通的桥梁,又是与各Agent交互协调工作的核心,其主要任务是实现问题求解的任务分配、调度和协作交互。为实现CA的交互协调和交互流程的一致,存放CA与其他Agent间的任务请求和分配信息;存放问题求解过程中的协作要求和参数信息;存放其他Agent的处理描述性信息,供CA分配任务时使用。
2.4Agent之间的通信与协作
在系统中,Agent之间的通讯是基于消息的通讯机制,利用消息完成传递服务请求及协调Agent之间的同步。DA和TA根据消息通讯来获取环境信息、任务、结果反馈信息;DA的每一个监控和执行任务以及TA的每一个计算统计任务都可以表示为一个任务提交者CA向承担者DA和TA发送任务消息;监控和数据抽取任务的实施或暂停是由CA向DA发送任务消息,其监控和数据抽取的结果则通过向CA回送消息予以体现;同样,计算统计的实施过程是TA接收到消息后产生状态变化的过程,其计算分析结果通过向CA回送消息予以体现,并由此来实现多Agent间的共享和合作运行。
3网络单证数据数据分析系统
3.1系统结构
网络单证数据数据分析系统是嵌入在原有的网上电子数据交换系统之上,主要由交互协作Agent、数据抽取Agent和计算统计Agent构成,还包括了与原系统的接口。网络单证数据数据分析系统结构图2所示。
从图2可知,CA控制协调DA和TD,以及控制数据接口和人机接口,而DA与数据接口仅有数据传递的连接关系,数据传递与否受CA的控制;数据接口是原网上电子数据交换系统与本系统的数据交换通道,只面向数据共享的要求;人机接口是为用户进行任务设置而设计的,一旦任务设置后,系统可自动按设置值运行,无需外界干预。
3.2EDIDA的工作流程
通过人机接口,由用户向CA进行任务设置;
CA对设置的任务进行分解;
各Agent独立地进行工作,求解相应的问题;
由CA协调DA、TA的在求解中的问题请求,按上述的交互协作流程来完成任务;
CA会按要求的格式传递给设置的服务器,进行记录和提示;
在CA获得TA的统计分析结果后,按要求的传递给设置的服务器进行记录、输出、保存、打印。
CA对整个执行过程记录存储,以优化模型和知识的选择和比较对比;
3.3网上手机订货数据的分析
在原有的网上电子数据交换系统中,有关于商家和供应商间网上手机订单处理。为此,将EDIDA嵌入后进行Motorola手机订单的数据处理,包括订单中订货数量的监控、2007年7月的订货数量的预测。
对订单中订货数量的监控,采用的方法是:订货量大于30部时,产生5秒的告警声并记录该单证号;对于2007年7月订货数量的预测,采用的方法是:选用最小二乘法模型ZXRC、指数加权移动平均模型YDJQ、三项和比例模型SXBL这三个模型来预测2007年7月的订货数量,并由CA根据评选规则来确定最后预测值,预测结果如表1所示。
表中“*”号是指订货量大于30部的报警次数,具体的订货量大于30部各订单号则保存在CA的数据库中。预测结果的最终选定由CA根据知识库中规则来确定,评选的规则有:平均法,即对每个结果进行算术平均,把平均结果作为最后结果。去掉最大和最小法,再对剩下的结果进行算术平均。取中间值法,即最靠近中间的值,若中间值有两个,则取其平均值为最后结果。使用频率最高法,即根据使用成功次数,选择成功最多的模型结果为最终结果。最大原则,即选取最大预测值为最终结果。最小原则,即选取最小预测值为最终结果。
本次预测采用平均法,即预测值=(146+135+151)/3,最终的预测结果为2007年7月Motorola手机的订货量为144部,与当年实际Motorola手机订货量147部非常相近,并给出了季度指数。
4结语
本文采用Agent技术,提出了对网上电子数据交换系统中XML单证的监控和统计分析方法和实现技术,初步探索了Agent在网络监控和预测领域中应用,并结合实际进行了验证。今后的研究将考虑用单个Agent来实现系统的功能,并加入黑匣子技术,面向网上的应用深入开展研究。
参考文献
[1]A.Rao,M.Georgeff.BDIagents:Fromtheorytopractice.[J].InProceedingsoftheFirst
InternationalConferenceonMulti-AgentSystems,1995:312-319.
[2]M.J.Wooldridge,N.R.Jennings.Intelligentagents:Theoryandpractice[J].TheKnowledgeEngineeringReview,1995,10(2):115-152.
[3]张寅生.智能Agent与Agent系统[J].计算机系统应用.1998,(7).
野外人工模拟降雨试验要在前期土壤水分不饱和的状态下进行,因此每次模拟降雨试验只能在同一径流小区进行一次降雨过程。为获取更多的野外模拟降雨产汇流及水土流失对比数据,计划在每个项目区的典型坡度———5°~8°、8°~15°、15°~25°分别建设坡地径流小区。径流小区的布设与等高线垂直,根据相关规范和实际条件,径流小区投影面积一般为60m2,即20m(顺坡投影长度)×3m(宽与等高线平行)。云县石佛山坡耕地水土流失综合治理试点工程水土保持监测项目于2010年12月初完成8°、12°、15°三块坡地小区的建设,2011年6月下旬第一次模拟降雨试验后,为方便对比分析,根据工程进展情况在12°坡地小区旁增设一块梯地小区。
1.2人工模拟降雨系统
此次人工模拟降雨试验采用西安理工大学研制的人工模拟降雨试验系统(图1)。它基于工控组态软件,应用现有的人工模拟降雨试验装置,将试验过程的常用设备和工控软件结合在一起,增加了自动控制环节,通过对控制系统进行改造,解决了手动调节雨强不方便的问题,实现了对不同时段、不同雨强、不同分布的人工模拟降雨系统的手动和自动双控制,采用监控组态系统更好地满足了人工模拟降雨试验的需求。该人工模拟降雨系统可建于自然坡面上,高6m,降雨试验区长20m、宽3m,有效降雨面积60m2。降雨系统布设在降雨装置支架上,喷头选用与天然降雨雨滴谱最为接近的X型下喷式喷头,由4组不同喷嘴孔径组合而成。为兼顾模拟降雨的均匀性与搭建支架的经济性和安全性,将系统在野外难以架设的固定式方钢支架改为钢管脚手架。顶宽超出径流小区宽度方向两边各0.3m,顶端横杆按照水管和喷头分布架设,压力控制装置设4个出水管,每管对应同一喷嘴孔径的喷头,共设置4组24个不同喷嘴孔径喷头,支架内部无任何遮挡。压力控制装置可自动、手动控制出水管的全开、全关或部分开启。本系统可模拟降雨强度变化范围4~200mm/h,降雨雨强最小分辨值1.3mm/h,降雨强度控制精度0.66mm/h,降雨均匀度>0.95。系统采用先进的闭环自动控制理论和技术,是一种应用交流变频调速器控制的人工模拟降雨自动控制设备,以降雨过程的最终实际降雨参数控制和驱动系统的各个降雨部件,克服了从水源到喷头之间诸多环节对降雨的随机影响。实验室测试结果表明,该设备的主要性能指标优于国内外其他人工模拟降雨系统,是进行土壤产汇流和侵蚀规律研究的重要试验设备。
1.3人工模拟降雨雨强
石佛山小流域位于云南省临沧市云县幸福镇幸福村水土保持监测项目区。模拟降雨设计频率及雨强参照幸福雨量站。该站距项目区直线距离2km,1983年建站,有1983—2010年共28年的完整降雨资料,降雨资料质量可靠,能满足设计暴雨频率分析要求。通过幸福雨量站1h短历时暴雨频率计算,石佛山小流域100年一遇1h降雨量为84.8mm,50年一遇1h降雨量为77.0mm,30年一遇1h降雨量为72.1mm。人
工模拟降雨采用100年一遇1h降雨过程。
2人工模拟降雨监测结果
2.1JDZ02型自记雨量器记录结果
人工模拟降雨试验于2011年1月开始,至2012年9月结束,跨2年历时40天,试验时间分别为枯水期两次(第一次、第三次)、主汛期两次(第二次、第四次)。在不同坡度的径流小区分别进行15场次的人工模拟降雨试验。
2.2普通雨量器监测结果
径流小区人工模拟降雨面降雨量采用普通雨量器监测,用算术平均法计算平均面降雨量。用普通雨量器观测的15场次人工模拟降雨面降雨量计算结果见表3。
2.3人工模拟降雨产流产沙量监测
人工模拟降雨雨强采用100年一遇1h降雨雨强。在模拟降雨试验前采用移动墒情监测仪和称重法在各小区距地表10、20、30cm土层剖面处取土样分别测定前期土壤含水率,并取平均值。产流产沙量的监测是在有径流产生时,每5min取1个水样,采用加权平均法计算平均含沙量,并用容积法记录产流量。监测结果。
3试验结果分析
3.1人工模拟降雨试验降雨监测结果分析
云南省人工模拟降雨试验是全国第一次大规模使用人工模拟降雨系统在野外研究土壤产汇流和侵蚀规律的试验。实验室内的环境与野外环境差距较大,在野外试验虽然是按100年一遇的标准进行人工降雨,但是由于受风速、风向影响较大,加之降雨雨滴与实际还有一定差距,所以部分降雨随风飘落到小区之外,落到小区地面的降雨标准也因此降低。考虑到上述情况,试验都选在无风或轻微风和微风的环境下进行。将径流小区内安装的JDZ02型自记雨量器记录的降雨雨强与设计降雨雨强进行相关性分析,相关系数都在0.6以上,说明人工模拟降雨过程与设计降雨过程之间存在强相关。根据统计学原理,使用Brown-Forsythe检验法检验设计降雨过程与12场次JDZ02型自记雨量器记录降雨过程的差异性,在显著性水平α=0.05下检验结果为各组之间差异不显著。对比设计雨量与JDZ02型自记雨量器记录结果,有7场次降雨接近或超过设计雨强,说明在径流小区局部,人工模拟降雨雨强是达到设计要求的。对径流小区12场次面降雨量监测结果进行分析,小区内模拟降雨重现期达到10年一遇以上的有7场,以下的有5场,最高重现期为13年一遇,最低为2年一遇。小区内降雨极不均匀,单个普通雨量器收集的降雨量有的大于设计雨强,有的小于设计雨强,特别是小区两侧降雨量与设计雨量误差最大,达到82.5mm。受风速、风向、试验支架架设高度和植被的影响,用加权平均法计算出径流小区内21只普通雨量器的实测面平均雨量均小于设计雨量,相对误差在-62.7%~-27.0%之间,未达到设计要求。
3.2径流小区产流产沙情况分析
(1)8°径流小区。由表4知,第一次模拟降雨试验,坡地小区土壤含水率接近饱和、植被覆盖率为0,降雨4min后开始产流,历时1h,产流量1.402m3,产沙量15.6kg。第二次试验在主汛期进行,土壤含水率接近饱和,小区内种植玉米,植被覆盖率为100%,降雨2min后开始产流,历时62min,产流2145m3,产沙量10.2kg。第三次试验,小区土壤含水率12.16%,植被为杂草和伐倒的玉米植株,植被覆盖率为70%,降雨9min后开始产流,历时40min,产流量0.064m3,产沙量0.015kg。该次模拟降雨面平均雨量为44.1mm,仅占设计雨量的48.5%,加之前期土壤含水率低,因此产流量和产沙量都较小。第四次试验,小区内种植的玉米已进入成熟期,植株较高,植被覆盖率为100%。试验时为减小风力对人工模拟降雨的影响,将降雨架高度由6m减至4m。降雨27min后开始产流,历时12min,产流量0.082m3,产沙量0.082kg。该次降雨面平均雨量为59.9mm,占到设计雨量的70.6%,但是由于小区前期土壤含水率低,仅为9.04%,故产流量和产沙量都较小。
(2)12°径流小区。第一次试验,由于模拟降雨面平均雨量小(31.6mm),虽然前期土壤含水率高达1503%,但该次降雨条件下该小区未产流。第二次试验,小区前期土壤含水率已接近饱和,植被覆盖率达100%,降雨2min后开始产流,历时58min,产流量1.513m3,产沙量20.9kg。第三次试验,小区前期土壤含水率11.41%、植被覆盖率70%,降雨11min后开始产流,历时42min,产流量0.156m3,产沙量0.044kg。该次模拟降雨面平均雨量较大,占到设计雨量的71.3%,但是由于前期土壤含水率低,故产流量和产沙量都较小。第四次试验,小区植被覆盖率100%,降雨31min后开始产流,产流时间5min,产流量0.010m3,产沙量0.004kg。该次模拟降雨面平均雨量达到50.9mm,占到设计雨量的60.0%,但是受土壤含水率仅为10.59%的影响,产流量和产沙量都较小。
(3)15°径流小区。由表4可知,第一次试验,小区前期土壤含水率为16.05%、植被覆盖率为0,降雨30min后开始产流,历时10min,产流量0.0165m3,产沙量0.133kg。第二次试验,土壤含水率已接近饱和,达20.65%,小区植被覆盖率60%,降雨7min后开始产流,产流53min,产流量0.629m3,产沙量10.6kg。第三次试验在冬季进行,小区植被覆盖率为80%,由于前期土壤含水率低(10.41%)、面平均雨量偏小(43.3mm),因此该次降雨在该小区未产流。第四次试验,小区植被覆盖率100%,人工模拟降雨60min未产流,为检验产流情况,在12:15将人工模拟降雨装置闸门全开,以最大降雨强度连续降雨5min,于降雨64min后开始产流,产流5min,产流量0.022m3,产沙量0.036kg。该次模拟降雨历时65min,面平均雨量达到61.1mm,占到设计雨量的72.1%,受前期土壤含水率(10.74%)较低、植被覆盖率较高影响,该小区产流量和产沙量都较小。(4)梯地径流小区。由表4可知,梯地径流小区第一次试验在主汛期进行,前期土壤含水率为17.46%,植被覆盖率为20%,降雨2min后开始产流,产流48min,产流量1.146m3,产沙量1.93kg。第二次试验在冬季进行,小区前期土壤含水率8.09%,植被覆盖率90%,模拟降雨面平均雨量为58.5mm,由于前期土壤含水率过低,该次降雨在该小区未产流。第三次试验在9月份进行,前期土壤含水率为8.48%,植被覆盖率为100%,模拟降雨面平均雨量为54.1mm。该次试验该小区未产流,其主要原因也是梯地小区前期土壤含水率过低。
4结语
2数据挖掘技术应用于电信用户数据研究
2.1固网用户数据的组成和结构
对于企业来说,大量的用户数据不仅有利于客户关系管理(CRM),同时也是获得用户知识的源泉。从用户知识发现的过程中可以看到,用户数据的质量会对知识发现的结果产生直接的影响,所以用户数据准备也是一项很重要的步骤。从商业系统中提取出高质量的用户数据就成为一项最主要的工作。固网企业的用户数据包括用户基本信息、用户账单信息以及客服信息。数据仓库就是根据这种方式来组织的。
2.2知识发现的方法和过程
用户知识发现概括如下:根据提出的商业目标,分析大量的用户数据,找出隐藏的和未知的规律或者丰富已知的规律,进而提出模型;最后要将数据挖掘和分析的结果转化成有商业意义的方法,然后采取进一步的行动。用户知识发现必须遵循以下几个步骤:商业理解,数据理解,数据准备,分类模型,评估应用。
2.3数据挖掘建立用户分类模型
近年来,“以客户为中心”的电信市场开始强调为不同用户提供个性化服务,其前提条件就是用户分类。这也说明了过去的消费行为也预示了未来的消费倾向。
(1)商业理解
对用户的理解不仅是理解电信市场的开始,也是理解客户关系管理的开始。在电信企业中对用户的理解包括:用户种类,不同类中用户的本质属性区别,用户偏好,不同类别之间的用户如何通信等。
(2)用户数据准备
对用户分类的研究主要是从用户属性中得到用户特征和行为习惯。主要数据来源于用户账单信息,同时也需要从商业系统中得到一些用户的基本属性信息。
(3)用户分类模型
本文使用聚类分析对用户进行细分以建立分类模型。聚类分析是把大量数据点的集合根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组,使得每个类中的数据之间最大限度地相似、而不同类中的数据之间最大限度地不同。
3固网漏话用户数据分析
3.1关于固网漏话用户数据分析的商业理解
通过各种渠道调查,对固网漏话用户数据分析的目标可以概括为以下几点:
(1)对用户通话次数、时间段等分析,找出特征,以此来寻找目标用户;
(2)对用户开通漏话保护业务前后的ARPU值分析比较,分析收益的对比;
(3)对目标用户数据分析,从用户分类的角度来管理,设计针对性的服务,提升用户满意度。
3.2系统用户数据准备
数据准备的过程:明确目标;制定计划;分析变量的获取;数据收集和获取;数据集成。根据当前客户关系管理基本状况和数据挖掘的目的,涉及到的人口属性变量有:性别、年龄、住址、用户职业、婚否、学历、薪资等。用户分类结束之后,再使用描述变量来进行分析说明。本文选用某市电信公司运营支持系统和经营分析系统的数据,从中选取了基本客户基本信息表、客户详细话表、账单及缴费信息表、产品信息表、业务使用清单等原始数据。数据挖掘工具选择SPSSClementine。在使用该工具进行挖掘之前,需要对数据进行清洗:
(1)删掉不满足要求的数据:选择普通的用户;选择状态正常的用户;选择入网时间较长的用户,使数据有完整的用户周期;
(2)去掉异常数据:比如用于测试的号码;
(3)去掉极端值:不具备普遍性的极值容易产生噪声。
3.3固网漏话用户数据分析结果
考虑到不同分类建立的有效性和简便性,以及固话用户和数据源的特点,本文采用常见的K-means算法,其高可靠性、高精准性以及低复杂度使其成为主流的聚类算法。本文选用SPSSClementine作为数据挖掘工具进行K-means聚类分析。获取原始数据并进行预处理之后,选择参与聚类的细分变量,输入簇的个数k,选择k=7,然后点击“聚类”按钮,使用K-means算法对固网漏话用户数据进行聚类。经过正常值选择、极值处理等一系列的数据清洗工作,最后用于研究的记录有251284条。
3.4分析结果和解释
93%的遇忙话务都出现在8∶00~18∶00的工作时段,这说明该时段遇忙话务较多,话务量流失严重,特别需要遇忙话务的解决方法。而这一时间段遇忙话务量最多的就是政企用户,这些话务量流失对政企用户将造成巨大的损失:30000政企用户一个月遇忙话务损失达到260万次,本网超过120万次,每个月预计损失20万;以电信中等发达省份为例:符合条件的政企高端用户约为60万;每年度损失的潜在业务收入为50000万。经过分析,得到该市各地区已开通和未开通漏话保护业务的用户分布,如图4所示。C区属于政务新区,未开通漏话业务的用户较多,而F区属于工业园区,企业较多,很多用户已开通漏话保护业务,但是还有大量用户未开通该业务,所以C区和F区应该作为该业务的重点推广地区。综上分析,固网漏话业务是一个非常有潜力的业务,解决漏话问题是提高用户满意度和忠诚度的重要途径。根据上文的分析,在8∶00~18∶00时间段,用户遇忙话务量非常多,在这段时间内,企业需要更多的漏话接入服务器,而在其他时间段可以减少接入服务器以节约成本。而在不同的地区,用户数量和精准用户的数量也不同,应该选择精准用户较为集中的地区优先推广漏话保护业务。由于精准高端用户带来的收益远远超过普通用户,所以要对经过筛选的精准用户采取针对性措施,比如在C区和F区大力宣传,以各种形式让精准客户看到该业务带来的收益,还可以电话推广为精准用户提供信息。
2煤矿安全生产大数据分析系统
2.1大数据分析的概念大数据分析
是指数据量急剧积累迅速超出主流软件工具和人类思维处理的极限,大数据与传统数据比较起来,有四大特征:数据体量巨大(Volume)、数据类型繁多(Variety)、数据价值密度低(Value)、更新速度快时效高(Velocity)。大数据分析需要全新的数据处理理念和分析工具,洞察发现海量高速增长信息中潜藏的价值[4]。从理念上,大数据分析与传统数据分析有三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。针对大数据,既有的技术架构和分析工具已经无法满足要求,需要全新的数据分析方法和技术,这其中包括:(1)大数据分析可视化方法;(2)大数据挖掘算法;(3)预测性分析能力;(4)语义处理能力;(5)数据质量和数据管理技术。
2.2大数据分析系统的建设
根据大数据处理和分析的理念,煤矿安全大数据分析系统的建设目标包括:数据综合集成、安全知识集成、三维虚拟可视化展示、煤矿安全动态分析诊断。具体建设内容包括:(1)基于物联网/云计算技术的煤矿安全综合数据库。建设煤矿安全大数据分析诊断系统,首先要利用物联网和云计算技术实现全面综合的数据集成,将基础空间和属性数据、在线监测的实时性数据、专业业务系统的事务性数据综合集成起来,构建煤矿安全综合数据库。(2)基于专家系统的煤矿安全专家知识库。针对知识集成的目标,整理规范规程体系中的经验或者理论知识(煤矿安全规程、煤矿作业规程、三违行为知识、隐患界定知识、评估模型、设备操作规程知识、工种操作规程知识),构建煤矿安全动态分析诊断的专家知识库。(3)建设三维虚拟矿井可视化平台。针对信息和知识三维虚拟矿井可视化展示分析,主要的建设内容是基于高精度地质模型理论研究开发三维虚拟矿井平台,实现地层建模、钻孔建模、断层建模、工作面建模和巷道建模等工作。然后,基于三维虚拟矿井平台,实现数据和知识可视化、煤矿安全生产活动可视化、分析和决策过程可视化。(4)研发煤矿安全动态分析系统。针对基于专家知识库的煤矿安全生产分析决策,需要利用煤矿安全综合数据库中的基础数据、实时监测数据以及事务性数据,根据煤矿安全专家知识库进行煤矿安全生产状况评估、推理和演绎,动态分析诊断煤矿安全生产的现状与趋势、预测未来,并针对煤矿应急现象做出科学合理的响应对策。
1.引言
目前发展大数据产业已经上升为国家战略,大数据的价值也得到了社会的广泛认可。众多研究[1-5]表明,大数据不仅为政府治理开辟了新思路,还是企业创新的重要源泉和高校科研的重要支撑。大数据交易平台是整个大数据产业的基础与核心,它使得数据资源可以在不同组织之间流动,从而让单个组织能够获得更多、更全面的数据。这样不仅提高了数据资源的利用效率,更重要的是,当一个组织拥有的数据资源不断丰富和立体化,有助于其通过数据分析发现更多的潜在规律,从而对内提高自身的效率,对外促进整个社会的不断进步。
在现有的大数据交易平台上,数据供应方和需求方各自供需信息,交易双方浏览这些信息,如果发现合适的交易对象,则进行大数据资源的买卖,交易平台只作为信息中介存在。这类大数据交易的本质,其实是单独的大数据资源交易,现有平台可以统称为第一代大数据交易平台。第一代大数据交易平台在供需平衡、数据定价和时效性三个方面都存在较大的不足。本文针对这些不足进行改进,设计了一种全新的第二代大数据交易平台,命名为:融合数据分析服务的大数据交易平台,该平台将数据资源交易与数据分析服务进行深度融合,实现了数据与服务的一体化交易。本研究不仅为当下正在建设的各类大数据交易平台提供有益的借鉴,也丰富了大数据交易的基础理论体系。
2.相关研究
目前大数据交易的相关研究中,比较有代表性的有:
(1)大数据的财产属性和所有权。王玉林等[6]对大数据的财产属性展开研究,认为大数据的法律属性会直接影响大数据产业的发展,而大数据交易实践本身就反映出大数据具有财产属性。但大数据与传统的财产权客体存在较大不同,它符合信息财产的特征,是信息财产权的客体,应受到相关法律的保护。齐爱民等[7]从宏观的角度分析了国家对于其主权范围内数据的所有权,剖析了个人拥有的数据权以及数据的财产权。
(2)大数据的定价问题。刘朝阳[8]对大数据的定价问题展开研究,首先分析了大数据的基本特征、价值特征等定价基础。接着讨论了效用价格论、成本价格论等定价模式。最后分析了大数据的定价策略,并对大数据定价的双向不确定问题进行了详细论述。刘洪玉等[9]认为在大数据交易过程中,由于缺乏足够的历史参考,其数据资源的交易价格很难确定,因此提出一种基于竞标机制的鲁宾斯坦模型,用于大数据交易双方进行讨价还价,以求达成一个交易的均衡价格。翟丽丽等[10]从资产的期权价值角度来评估大数据资源的价值,并指出数据在不断变化和更新,加上数据的非独占性等情况的出现,数据资产的价值可能会下降,最后综合这些因素构建了一个评估模型来计算数据资产的价值。
(3)大数据交易的安全与隐私保护。史宇航[11]认为非法的数据交易会对个人数据等高价值信息的安全造成影响,对非法数据交易的购买方和协助方都应进行处罚。提出应先明确数据的法律属性,再以数据交易所为平台进行交易,并对数据交易所的法律地位进行了分析。殷建立等[12]为应对大数据时代数据采集、交易等过程中的安全问题,综合考虑技术、政策和管理平台等方面的因素,构建了一种个人数据溯源管理体系,该体系可在数据应用时实现个人数据的追踪溯源,从而保护其个人隐私。王忠[13]认为大数据环境下强大的数据需求会导致个人数据的非法交易,为应对这种情况,应该建立个人数据交易许可机制,通过发放交易许可证、拍卖授予等措施实现隐私保护。
(4)大数据交易的发展现状与问题。杨琪等[14]认为我国的大数据交易还处于行业发展的早期,大量数据源未被激活,原因是大数据产业价值链的各个专业环节发展滞后,并且对数据交易中的安全问题和隐私泄露等有较大的担忧。应该对数据产品进行改造,使其更商品化,并且通过政府开放公共数据等措施逐渐消除数据流通中的安全顾虑。唐斯斯等[15]首先分析了我国大数据交易的发展特点、交易类型等现状,接着指出目前大数据交易存在法律法规相对滞后、行业标准不完善、交易平台定位不明确、数据质量不高等问题,最后提出应加快相关法律和标准建设,并推动数据开放,加强交易方式的创新。
除了上述四个主要研究方向以外,李国杰等[16]从理论的角度分析了大数据研究在行业应用和科学研究方面的重要作用,这从客观上反映了大数据流通的必要性。涂永前等[17]认为大数据时代企业管理和运用数据资源的相关成本会成为企业的主要交易成本,这会改变企业的组织结构,并导致企业边界的变化,企业会进行多方向的扩张,这为促进大数据产业发展的相关法律的制定提供了理论支持。总的来看,由于大数据交易本身属于较新的领域,因此相关研究总体上较少,已有研究也大多集中在上述几个研究方向上。实际上,大数据交易平台是实现大数据交易的重要载体,是大数据资源流通转换的主要节点,交易平台本身需要随着整个大数据产业的发展,不断的改进和升级,而现有研究中恰恰缺少对大数据交易平台本身进行创新的研究。由此,本文针对现有大数据交易平台的不足,结合实际设计了一种全新的融合数据分析服务的大数据交易平台,为实践和科研提供借鉴和参考。
3.现有大数据交易平台的不足
大数据本身作为一种新兴事物,当把它作为一种商品进行交易时,其交易平台的设计很自然会参照传统的商品交易模式,即:交易双方先供求信息,再经过讨价还价,达到一个均衡的价格则成交,卖方将大数据资源经过脱敏处理后,交付给买方。目前无论是政府主导的大数据交易所,还是企业或者高校创建的大数据交易平台,都是采用类似的交易模式,这也是第一代大数据交易平台的突出特点。实际上大数据与传统商品有很大的区别,照搬传统商品的交易模式会出现很多问题。本文将从供需平衡、数据定价和时效性三个方面分析现有大数据交易平台的不足。
3.1 数据供需的错配
现有大数据交易平台的第一点不足就是数据供需的错配,即:供应方提供的数据资源往往不是需求方所需要的,而需求方需要的数据在交易平台上找不到,即使有相近的数据资源,也存在很大的数据缺失或冗余,买回去也无法使用。对数据供应方来说,由于无法准确预知数据买方多样性的需求,它只能从自身角度出发,将可以公开的、并且自认为有价值的数据资源放到平台上待售。对需求各异的买方来说,供应方提供的标准数据很难与自己的应用方向精准匹配,这也是目前大数据交易还不够活跃的原因。当然,当供需双方建立初步联系以后,供应方甚至可以为需求方个性化定制大数据资源,但即使这样,供需错配的问题仍然无法解决,原因就在于单个的数据供应方无法提供多维的数据资源,只有多维的数据资源才具有较高的分析价值。
3.2 大数据资源定价困难
大数据资源定价困难是现有大数据交易平台的第二点不足。大数据资源和普通商品不同,普通商品可以直接消费或者作为再加工的原材料,其价值都可以通过最终的消费品价格得到体现。而大数据本身的价值无法直接衡量,需求方购买它的目的是作为数据分析的信息源,但是否能发现潜在的规律还未可知。因此无法在购买前,准确判断出待售数据资源的价值大小。此外,需求方在不确定某大数据资源是否能真正能给组织带来收益情况下,很难给出一个较高的价格,这在客观上会影响数据供应方的交易积极性,加大了供需双方达成交易的难度。
3.3 数据的时效性不强
现有大数据交易平台的第三点不足,就是数据资源的时效性不强。目前很多大数据交易平台上待售的数据资源都以历史数据为主,这是因为数据资源在交易前需要经历脱敏处理,将涉及政府信息安全、企业商业机密和个人隐私等敏感信息进行变换和替代。此外,供应方还需要对原始数据进行初步的清洗,整理成一定的数据格式集中存贮和交付,方便需求方进行数据分析。由于一般的数据供应方并不具备对大数据进行实时脱敏和清洗的能力,只能将采集到的数据资源,经过一段时间的离线处理后,再放到交易平台上,所以只能供应历史数据。随着社会节奏的不断加快,历史数据很可能并不能反映当下的真实情况,越来越多的数据分析都需要用到实时数据作为信息源,这是未来大数据交易必须克服的一个短板。
4.融合数据分析服务的大数据交易平台设计
本文提出将数据分析服务融合到目前的大数据交易中,以此来克服现有交易平台的不足,本节将首先对数据分析服务进行概念界定,再依次介绍平台设计的总体思路和核心模块的设计,具体如下。
4.1 数据分析服务的概念界定
数据分析是指运用各类数据处理模型和信息技术手段,对数据资源进行深度的挖掘,从而发现其中蕴含的规律,作为管理决策的依据。数据分析本身是一种能力,如果一个组织将其数据分析能力提供给其他组织或个人,并收取一定的费用,这就是数据分析服务。在大数据环境下,数据资源不仅体量巨大而且种类多,对数据分析能力的要求不断提高。在这种情况下,只有少数组织具备独立处理大数据的能力,其他的组织比如大量的中小企业,都需要从组织外部寻求专业的数据分析服务,来满足自身的需要。因此,数据分析服务和大数据资源一样存在巨大的市场需求。
4.2 平台设计的总体思路
本文将提出的融合数据分析服务的大数据交易平台,定位为第二代大数据交易平台,它将大数据资源交易与数据分析服务两者进行深度融合,在交易平台上实现数据与服务的一体化交易。大数据交易平台的角色也从原来的数据资源买卖的信息中介,转变为大数据综合服务商。在融合后的大数据交易平台上,数据需求方不再提交数据资源的需求信息,而是直接提出自己的应用方向和想要得到的结果,交易平台再根据需求方的应用方向,反向匹配数据资源和数据分析服务。这个匹配的过程不是单一的数据集或服务的查找,而是对全平台的数据资源进行有效整合,形成高价值的多维数据,再结合复合型的数据分析技术,得到最终的分析结果,最后将分析结果与基础数据一同交付给需求方。交付基础数据的目的,一是方便需求方进行分析结果的对照,为决策提供更精准的参考。二是需求方可以根据基础数据进行衍生挖掘,进一步提高数据的利用效率。平台设计的总体思路绘制成图1。
图1 平台设计的总体思路
4.3 核心模块的设计
融合数据分析服务的大数据交易平台共划分为四大模块,具体如图2所示。
图2 融合数据分析服务的大数据交易平台的主要模块
系统管理模块具体又分为用户管理、系统维护和安全管理。安全管理是系统管理模块的重点,主要包含三个方面的功能:第一,负责整个交易平台的系统安全,通过对交易平台进行实时监控,阻止外部的非法入侵行为,保障平台的正常运行。第二,对数据供应方提交的数据资源进行审核,如果发现是非法数据,则阻止其交易,并及时将有关情况反馈给相关的政府监管部门,由它们进行调查处理。第三,检查所有数据是否经过脱敏处理。如果发现部分数据存在未脱敏或者脱敏不合格的情况,交易平台将负责对该数据资源进行脱敏处理,从而保护数据中的隐私不被泄露。
大数据资源池模块、数据分析服务模块和协同模块是交易平台的三大核心模块,是数据与服务两者融合并实现一体化交易的关键,本文接下来将对这三个核心模块的功能进行详细设计。
4.3.1 大数据资源池模块
大数据资源池模块主要包含三个方面的功能:数据资源格式的整理、数据的多维度整合、大数据资源的云存贮。具体如下。
(1)数据资源格式的整理。由于大数据交易平台上的数据资源来自不同的数据供应方,因此其数据资源的格式会有较大的差异。如果不经过格式整理就直接进行数据分析,很可能会因部分数据无法准确读取,而影响数据处理的效率,严重者还会导致数据分析中断。数据资源格式整理的主要任务是将同一类型数据的格式进行统一,对部分缺失的数据属性进行补充,对错误的数据格式进行修正。
(2)数据的多维度整合。在上文3.1中提到供需错配的一个重要原因,就是单个数据供应方无法提供高价值的多维数据。所谓多维数据是包含用户或者行业多个背景和情境的大数据资源,这些多维数据使用户或行业多个侧面的信息产生了关联,有利于发现深层次的潜在规律。融合数据分析服务的大数据交易平台应该作为数据整合的主体,将单个数据供应方提供的零散的数据资源,进行多维度的整合,当缺少某一个维度的数据时,再向相应的数据供应方进行定向的采集,最后得到相对完整的多维数据,具有很高的分析价值。
(3)大数据资源的云存贮。大数据资源经过格式整理和多维度整合以后,已经可以作为数据分析服务的信息源。下一步就是将这些数据资源进行统一的云存贮,以便数据分析服务调用。以往部分大数据资源由于体量巨大或实时更新的需要,无法上传到交易平台上,或者只提供部分调用接口。融合数据分析服务的大数据交易平台通过建立云存贮中心,将整合后的多维数据进行统一存放和调用,有助于提高数据资源的存取效率。
4.3.2 数据分析服务模块
数据分析服务模块首先根据数据需求方的应用方向,匹配出合适的多维数据资源,再选择相应的数据分析模型分配所需的计算能力,最后将得到的分析结果反馈给需求方。本文将数据分析服务划分为三个大类:基础性分析服务、高级分析服务、深度定制的分析服务。具体如下。
(1)基础性分析服务。基础性分析服务是指那些常规的数据统计,比如:总体中不同对象的占比分析,基于不同属性的关联分析或相关性分析等。这些分析服务耗时较短,分析技术较为简单,只要数据资源本身完备,就可以迅速得到结果。基础性分析服务由大数据交易平台本身来提供,可以面对不同的需求方,实现快速交付。
(2)高级分析服务。高级分析服务是指那些较为复杂的数据分析服务,比如:精准的趋势预测、全面的用户兴趣画像、非结构化的信息挖掘等。这些分析服务需要大量专业的数据处理技术,比如:兴趣建模、视频分析,音频分析、深度语义分析等,必须由大数据交易平台对接第三方的数据分析服务商,由它们来提供高级分析服务。大数据交易平台在同一数据分析领域,应引入多家数据分析服务商,通过动态的竞争,来保证服务的质量。
(3)深度定制的分析服务。大数据分析目前还处在快速发展阶段,很多前瞻性的技术还在试验当中,应该说数据分析技术的发展相对于旺盛的现实需求来说是滞后的。当需要用的某一数据分析技术,在目前的市场上还找不到现成的提供方时,就需要大数据交易平台为其进行深度的定制,交易平台通过多方位的研发能力评估,寻找合适的技术主体来进行专门的技术攻关。
4.3.3 协同模块
协同模块主要包含两个方面的功能:数据分析服务之间的技术协同、交易各方的管理协同。具体如下。
(1)数据分析服务之间的技术协同。在面临较为复杂的数据分析任务时,可能需要用到多个领域的数据分析技术,这时单个的数据分析服务商可能无法独立完成。因为不同的行业领域,都有其行业技术的独特性,需要长时间的专业积累。在这种情况下,就需要多个数据分析服务商相互合作才能完成。数据分析服务之间的技术协同,就是通过一定的技术标准和操作规范,让多个数据分析技术提供方,能够在完成同一任务时,在技术上不冲突,能够相互并行的完成对数据资源的处理,按时按质的交付最终的分析结果。
(2)交易各方的管理协同。在融合数据分析服务的大数据交易平台上,交易的参与者一共有四类,分别是数据资源的供应方、数据分析服务商、需求方和交易平台自身。数据需求方在提交自己的应用方向和预期结果的同时,提交自己的交易预算。交易平台根据需求方提交的应用方向和预期结果,对数据资源和数据分析服务进行反向的选择。如果数据分析任务中只用到了基础性分析服务,则整个交易为平台方、需求方、数据资源供应方的三方交易。如果某数据分析任务,平台自身无法完成,需要用到第三方的数据分析服务商,则整个交易包含了全部四类参与者,是一个四方交易。交易的基本原则是实现参与各方的利益共享。交易各方的具体利益分配如图3所示。
图3 交易各方的利益分配
需求方希望在获得预期结果的同时,其支付的成本在可接受的范围内。交易平台在对数据和服务进行反向匹配后,会出现两种不同的情况:第一种情况是在原交易预算下,可以达到需求方预期的结果,则可成交。第二种情况是,原交易预算较低,在该预算下无法达到需求方要求的结果,这时交易平台会和需求方沟通,提出新的报价,需求方经过考虑后,与平台进行讨价还价,它们在价格上达成一致时才能完成交易。由于交易数据是整合后的多维数据,因此原始数据资源供应方的收益,由平台从总交易价中支付,具体的支付方式可分为平台一次性买断或按次数支付。同一数据资源对于不同的需求者来说,其价值是不一样的,融合数据分析服务的大数据交易平台根据最终的一体化交易成交价,反向对数据资源进行定价,相对于现有的大数据交易平台来说,是一种进步。交易平台的深度参与,会使数据交易的频率加快,原始数据资源供应方会获得更多的收益。数据分析服务商根据具体的数据分析任务,直接参与由平台发起的竞价,达成交易后由平台支付。交易平台本身的收益则是需求方支付额减去其他各方收益的差价。
5.融合数据分析服务的大数据交易平台的优势
本文3.1到3.3中指出现有大数据交易平台存在数据供需错配、大数据资源定价困难、数据的时效性不强三大不足。融合数据分析服务的大数据交易平台作为改进后的第二代大数据交易平台,可以很好地克服上述三点不足。除了这三个方面的优势以外,由于融合后可实现数据与服务的一体化交易,这将扩大交易对象的覆盖范围,提升交易的活力,具体如下。
5.1 直接面向应用,从根本上避免了数据供需的错配
在融合数据分析服务的大数据交易平台上,需求方对交易平台直接提出应用方向和预期结果。交易平台对全平台的数据进行多维度整合,如果缺失某个维度的数据,可以进行定向的采集和补充,最后形成高价值的多维数据。这些多维数据才是真正具有分析价值的数据资源,这是单个数据供应方无法提供的。在得到多维数据后,结合平台自身和第三方数据服务商的分析能力,得到最终的分析结果。交易平台最后交付给需求方的是数据分析结果和基础数据,这种直接面向最终应用的大数据交易方式,从根本上避免了数据供需的错配。
5.2 融合后定价更有根据
在现有的大数据平台上,数据需求方是将数据资源买回去以后自己分析,而在购买数据资源之前,不能预知数据分析效果的好坏,因此无法进行有效的价值判断,这是定价困难的关键点。在融合数据分析服务的大数据交易平台上,需求方不再直接对数据资源付费,而是对最终的数据分析结果付费,并且数据分析结果是根据需求方的要求反向定制的,是符合需求方利益的。需求方可以通过评估预期结果对自身的重要性或收益的改进程度,给出适当的交易预算。交易平台以该预算为参照,对数据和服务进行选择,若出现原预算约束下无法实现预期结果的情况,交易平台再与需求方进行沟通,双方讨价还价后达成交易。这样相对于现有的大数据交易平台来说,融合后定价更有依据。
5.3 融合后可提供实时数据
在融合数据分析服务的大数据交易平台上,数据资源采用云存贮的模式,由平台进行统一管理,这提高了数据资源的安全性。在数据安全有保障的前提下,由交易平台出面和数据资源供应方进行实时数据的对接,将实时数据纳入大数据资源池中。对于单个的数据资源供应方来说,实时的数据脱敏难度太大。但大数据交易平台不一样,它可以利用规模优势,组建强大的计算能力,对大数据资源进行实时的脱敏和清洗,极大地提高了数据资源的时效性。
5.4 融合后将扩大交易对象的覆盖范围,提升交易的活力
融合后可实现数据和服务的一体化交易,让很多自身不具备数据分析能力的组织和个人,也能方便地利用大数据,特别是大量的中小企业,这将大大增加交易对象的覆盖范围。
交易对象的增多会促进交易频率的增长,从而为数据资源供应方带来更多的收益,这样会提升它们参与交易的积极性,鼓励它们供应更多的数据资源,从而提升交易的活力,整个大数据交易行业就形成了正向循环的良好发展态势。
6结语
本文对大数据交易平台本身进行了改进与创新,设计了一种全新的第二代大数据交易平台,即:融合数据分析服务的大数据交易平台。该交易平台可以直接面向需求方的应用方向,实现数据和服务的一体化交易,不仅从根本上避免了数据供需的错配,还使大数据交易的定价更有依据,平台的深度参也让提供实时数据成为可能,这些将从整体上提升大数据交易的效率。融合后数据和服务的一体化交易降低了大数据应用的技术门槛,鼓励更多组织和个人参与,增加了交易活力。未来笔者将继续关注大数据交易平台的创新研究,为实际应用和学术科研提供更多有益的参考。
参考文献
[1]赵强,单炜.大数据政府创新:基于数据流的公共价值创造[J].中国科技论坛,2014(12):23-27.
[2]徐继华,冯启娜,陈贞汝.智慧政府:大数据治国时代的来临[M].北京:中信出版社,2014.
[3]李文莲,夏健明.基于“大数据”的商业模式创新[J].中国工业经济,2013(5):83-95.
[4]侯锡林,李天柱,马佳,等.大数据环境下企业创新机会研究[J].科技进步与对策,2014,31(24):82-86.
[5]张峰,张迪.论大数据时代科研方法新特征及其影响[J].科学学研究,2016,34(2):166-170,202.
[6]王玉林,高富平.大数据的财产属性研究[J]。图书与情报,2016(1):29-35,43.
[7]齐爱民,盘佳.数据权、数据主权的确立与大数据保护的基本原则[J].苏州大学学报:哲学社会科学版,2015(1):64-70.
[8]刘朝阳.大数据定价问题分析[J].图书情报知识,2016(1):57-64.
[9]刘洪玉,张晓玉,侯锡林.基于讨价还价博弈模型的大数据交易价格研究[J].中国冶金教育,2015(6):86-91.
[10]翟丽丽,王佳妮,何晓燕.移动云计算联盟企业数据资产评估方法研究[J].价格理论与实践,2016(2):153-156.
[11]史宇航.个人数据交易的法律规制[J].情报理论与实践,2016,39(5):34-39.
[12]殷建立,王忠.大数据环境下个人数据溯源管理体系研究[J].情报科学,2016,34(2):139-143.
[13]王忠.大数据时代个人数据交易许可机制研究[J].理论月刊,2015(6):131-135.
2电力在线监测过程中异常数据的分析和解读
根据《国家电网报》的报道可以看到,在2014年,在南方某地区电力工作人员通过监测发现辖区内的一个电度表出现了电压不稳的情况,这种情况的出现,就浅析“量价费损”在线监测过程中异常数据分析及处理杨娟国网山东鄄城县供电公司274600说明此电表所管辖的区域内有违规用电户,或者是记电表出现了问题。通过工作人员的连夜分析,发现是记电表的内部芯片出现了问题,正是因为这个问题才导致了整个电力系统的不稳。工作人员将所有记电表的内置芯片全部更换,发现电力系统开始正常运行,芯片更换后,追补到了六千余瓦电量,取得了阶段性内的成功。这就说明,通过监测发现了数据异常后,需要及时的分析才能排除可能,从而“对症下药”。
3如何处理电力监测中的异常问题
随着科技和时代的发展“,量价费损”在线系统在国家电网公司逐步实施使用,此种工具有着不同功能和作用,使用得当可以为企业增加经济效益,如果使用不得当那么就会引起一系列的问题。国家电网公司在2013年上线试点了电力在线监测系统,对多个城市开展全面性的试点监测。主要工作原理是通过第三方平台,对区域内的用电量、电价、电力传输线路等细节进行监测,如果在监测过程中发现了任何异常问题,就自动采用“闭环协调运作”的形式,可以让工作人员在第一时间了解问题,从而解决问题。这个监测工具可以深入到用电系统的方方面面,将以往遗漏的地方全都纳入监测之中。通过监测工具形成了按时汇报,定点处理的营销机制,从根本上为复杂多样的电力系统监测提供了高效优良手段。
3.1“量价费损”在线监测工具的运行机制
此监测工具主要是进行电力预警,将有可能出现的问题以形象直观的方式及时反馈。一般来说,监测工具是使用多种类型的监测盘构成的,不同的监测盘负责监测电力系统的不同方面。监测盘可以通过人工定时的方式自动刷新,没更新一次数据就是一次新的监测。通过监测盘,可以展现出电费、电价、电力使用情况等方方面面的数据,各种数据指标都是各电力工作人员需要着重构建用电系统的依据。其中不同颜色表示风险预警的不同状态,如果是红色,那么就说明电力系统存在高危风险,此时应该特别注意,全力排查有关问题。监测盘的指针如果落到了黄色区域,那就说明高危风险出现的几率增加,此时应该防患于未然,如果指针在绿色区域,就说明一切指标和数据处于一个安全的状态内,所有用电系统一切正常。
3.2“量价费损”监测过程中的问题预测
在电力监测过程中,除了有不同颜色的标注之外,还有弹出窗口作为提醒。这区别于不同的颜色风险区域,可以以更加醒目的方式提醒有关人员,引起全部人员的注意力。在电力监测过程中会发现,电费问题一直是一个难以解决的重要难题。因为用电户繁多,没法及时将电费收回,影响了电力公司的正常运转。而在监测工具中,新增了智能运算这一个过程,可以通过有关程序,计算出有关的电费和电价,从而对相应的用电客户做出提醒,降低电力系统的风险,这种省时省力的方式受到了良好的效果。
3.3“量价费损”在线监测的优点
在线监测工具在用电系统中的广泛应用,使得各大城市可以在宏观上把握各大电网的运行状态。对于供电企业的决策处理水平有了一个很大的提高。供电企业的数据分析摆脱了低效的机制,从而构建了一个全新的用电管理系统。对于广大市民来说,此种监测工具成为了沟通用电户和电力公司的桥梁,在二者之间建立起一个良好的信誉体系,促进了节约用电的意识,规范了用电机制和模式。可以保证日常生活中电费的顺利上缴和回收。此种用电监测工具能在源头上防止不正确的用电行为,保证了供电企业的经济效益。可以确保供电企业的资金合理运转,杜绝了以往用电过多、蓄意浪费等不良行为。如果有蓄意欠费用户,也可以通过监测第一时间发现,从而避免了供电企业的经济损失。根据调查表明,在监测工具使用后,违章用电客户比之前减少了百分之六十,大大增强了电力资源的利用率。
BI商业智能软件一般都会提供若干数据整合、数据查询、分析与评价、数据可视化及数据分享的手段,但是在BI项目的构建与实施过程中,如果不按照一定的应用组织思路、数据分析模式及分析流程使用这些工具或手段,呈现给最终用户的将是独立的工具集和离散的分析内容,BI系统的整体应用效果将大打折扣。同时,最终用户也了解数据分析模式及数据分析流程方面的一些常用理论和方法,以便形成自己的分析内容组织思路,从而有效开展数据决策分析工作。这方面目前已有多种卓有成效的理论及实践体系,本文基于既往经历的典型BI/DW项目实施经验及对BI软件规划研发和实施经验,给出一种BI系统中的数据分析内容及分析流程组织思路。
1.整体应用模式
在商业智能项目(DW/BI项目)中,通过梳理和优化现有的指标、报表体系和分析体系,同时整合主要的业务系统数据(业务核心支撑系统、财务系统、HR系统、手工维护的数据如行业数据、竞争对手数据等),从而建立面向总部和子公司的业务及IT等部门,集中使用、管理和维护的BI商业智能系统,以强化信息共享、业务分析、辅助管理决策工作。
在系统构建思路(系统整体应用模式)方面,面向数据分析的BI商业智能系统构建工作应达到如下目标:
2.数据分析模式
在数据分析的原理及模式方面,BI商业智能系统可采取PDCA管理循环理论的分析问题的模式,PDCA管理循环理论起初应用于质量检查与保障优化领域,后来在精细化管理及数据分析与决策领域卓有成效。
应用在商业智能项目(BI/DW类)中时,PDCA管理循环理论的P、D、C、A四个英文字母所代表的意义如下:
1)P(Plan)——计划
包括方针和目标的确定以及活动计划的制定,包括业务发展目标(goal),中期计划(plan),年度、季度及月度预算等(budget)。
计划环节的内容触发了BI商业智能系统应当具有导入并集成计划与预算等相关数据的能力这一要求,而计划及预算的制定工作,一般则是通过在专项的计划与预算管理系统中进行。也有个别BI厂商基于自定义的填报方案为客户提供计划和预算的下发与上报等管理功能。
2)D(DO)——执行
执行就是具体运作,实现计划中的内容。在BI商业智能系统需要对及时、准确的反应业务的现状提供必要的、充分的手段,包括围绕业务整体状况及各个业务面构建的Dashboard、报表、查询、预警及其他数据分析及可视化手段。
有比较才能明了现状,有参照才能进行比较。因此BI商业智能系统还应该提供来自内部、外部的参照体系,比如计划数据、历史数据、标杆数据、竞争数据等,以便对业务现状的健康程度有足够的参照依据。
3)C(Check)——检查
就是要检查并总结执行计划的结果,分清哪些对了,哪些错了,明确效果,找出问题。
在BI商业智能系统中,应提供相应的对比和评价手段,如各类计划的达成情况分析、标杆分析、综合绩效评价、EVA评价等手段,以便对一个业务周期的效果进行分析与评价。
该部分的分析粒度应有所提高(如沿着时间、人员等维度),分析的范围相应缩窄,结合管理及业务现状有针对性对总体及关键业务环节设立专项检查与评价手段,检查评价的内容一般集中在业务效率及财务表现等方面。
4)A(Action)——处理
对上文Check环节检查的结果进行处理,管理人员通过仔细分析内在原因之后对检车结果认可、否定或调整改进相关参数及结果。并利用有效的结果针对性的开展相关商务政策及管理措施等。
比如,在既往实施的多个经销商网络管理商业智能项目中,Action环节落实为相应销售政策、奖罚措施及总部向各经销商、商的利润返还计划,同时也落实为对下一轮业务目标计划数据的调整。
3.数据分析流程
1引言
本课题来源于中央广播电视大学教务管理系统的后续开发。随着中央电大在开放式教育思想指导下的教学改革的展开,系统业务量急剧猛增,原有的教学管理系统已经逐渐的满足不了应用需求。所以新一代教学管理系统正在开发中,同时由于教育业务本身的连贯性,导致了新旧系统并行的局面出现。但是由于新旧系统间缺少关联和通信以及必要的规范,导致信息“孤岛”现象严重,而旧系统又恰恰是电大不可放弃的重要投资。同时由于各个系统集成度不足,运行业务的数据库和应用程序也是在不同时期部署的,它们来自不同的供应商,使用各不相同的定制技术。从而面临着如何构建一个强壮的、可靠的,将新旧系统中的分散功能组织成可共用的标准服务来满足业务要求的平台,成为我们需要研究的难点。
通过实践我们可以发现,应用程序始终都与数据有关,企业级的服务程序更是如此。今天,企业应用程序开发中有高达70%的时间都是用于访问不同的数据。因此,对企业信息和数据按业务逻辑进行梳理和抽取,形成企业数据的统一表现实体,该实体可以在全企业范围内得到一致性的使用,是迈向面向服务的体系架构的第一步。因此我们提出了主题数据平台的概念。
2主题数据平台结构
主题数据平台结构见图1。主题数据平台由:主题数据服务层、数据处理构件、数据处理管道、适配器构件组成。
图1数据主题平台的设计构架
主题数据服务层:是底层接口与上层应用的中间层,用于屏蔽底层接口,向上提供统一的服务。有两种角色:一种角色是数据中转站,用于保存临时数据,并等数据传输完整之后,进一步对数据进行分析和处理;另一种角色是主题数据服务层角色,用于保存数据处理的最终结果:主题数据。
数据处理构件:是数据处理的基础构件,每一个数据处理构件都封装了一部分相对独立的数据处理逻辑,包括删除不需要的数据、补充缺少的数据、对数据进行简单的四则运算、代码转换和按主题建立新的数据结构等功能。
数据处理管道:是由多个数据处理构件组成,它合理的组合和安排这些数据处理构件,从而完成复杂的数据处理逻辑。
适配器构件:用于实现异构数据库与数据处理管道的无缝连接,从而能够方便的从异构数据库中抽取或插入数据。
3基于局域网的主题数据平台的实现方案
基于局域网的主题数据平台的实现方案见图2。
图2基于局域网的数据主题平台的实现方案
由于局域网有着:网络传输速度快、网络故障率低、即时性强、服务器固定等优点。所以我们采用:DTS技术、Nmake技术、临时库等技术来解决基于局域网的主题数据平台的实现问题。
3.1DTS技术的应用
采用DTS技术可以实现在局域网中从异构的数据库中提取或插入数据,并能对数据进行简单的逻辑操作。它可以把相对独立的数据处理逻辑封装在对应的DTS包中,从而把公用的数据处理逻辑从数据处理业务中提炼了出来,以备复用。并提供了工作流支持,保证了DTS包中数据处理业务的事务性和完整性。
⑴适配器构件
适配器构件只是一个数据处理通道和异构数据源的连接器,它负责从异构数据源中抽取或者插入数据并将数据转移到数据处理通道中。每一个数据源对应一个或多个适配器构件,每个适配器构件包含在对应的DTS包中。整个DTS包中包含一个原数据源、一个目标数据源和一个数据对应转换任务。将整个数据转换逻辑封装为一个构件,有利于适配器构件的复用。
⑵数据处理构件
数据处理构件封装了数据处理逻辑,这些处理逻辑由数据业务驱动,包括删除不需要的数据、从不同的数据来源补齐缺少的数据、对数据进行简单的四则运算、不同信息系统之间的代码转换等功能。数据处理逻辑按其独立性和公用性被封装在不同的DTS包中,增强了数据处理构件的可变性和复用性。DTS包提供了验证机制这既可以保证数据处理逻辑的正确性,又可以保证数据处理逻辑的事务性。DTS包内包含工作流,可以针对不同的情况做出不同的处理,极大地提高了数据处理构件的复用性,并可对业务性错误做出必要的处理。
3.2Nmake技术的应用
Microsoft程序维护实用工具Nmake是一个32位基于说明文件中包含的命令生成项目的工具。NMake具有丰富的选项,可以完成复杂的处理操作,并有树状文件任务处理结构,并且易于编写,结构清晰,对于实现复杂的数据处理业务提供了很大的方便。采用Nmake技术可以有效的将结构松散的、相对独立的数据处理构件聚合起来,从而能够处理复杂的数据处理业务。
数据处理管道
数据处理管道是将数据处理构件有机的组合起来并封装好,对主题数据服务层提供统一的访问接口,从而把数据服务逻辑与数据处理逻辑分割开来。数据处理管道可以极大地提高数据处理构件的复用率,并把复杂的数据处理逻辑从数据处理构件中抽离了出来,当数据处理业务变动的时候不需要修改构件只要按着业务需求,重新组织构件即可解决问题。Nmake可以按着业务需求轻松地把数据处理构件组合起来形成带有业务逻辑关系的数据处理管道,并且Nmake提供了业务流功能,针对不同的业务需求可以提供不同的业务流支持,从而极大的提高业务本身的灵活性。当业务需求变动时,Nmake可以通过重新组合数据处理构件来完成业务,而不需修改或者重新编写数据处理构件,从而提高数据处理构件的可复用性。
4基于互联网的主题数据平台的解决方案
基于互联网的主题数据平台面临的主要问题是如何通过远程数据传输将互联网的异地、异构的数据源中的数据传输到主题数据服务层中。数据一旦进入主题数据平台的主题数据服务层,就可以使用和基于局域网的解决方案相同的技术对数据进行整理。通过远程数据传输将互联网的异构数据传输到主题数据服务层之后的功能与基于局域网的数据转换接口的功能相同。
中央广播电视大学远程开放教育的教务管理系统是一个跨越44个省面向全国的开放式教育体系结构。该系统包含四级平台、五种角色,由于其独特性中央电大教务管理系统基于互联网的主题数据平台的搭建有如下4方面需求:
1)中央电大各个系统之间、中央电大教务管理系统各级平台之间需要能进行灵活的数据交换。
2)每次交换数据的数据量可能达到GB级。
3)部分数据交换有实时性要求,在规定时间内客户端必须收到响应,不能因为数据传输而推迟业务进度。
4)需要在网络状况不稳定的情况下完成数据交换,因为中央电大教务系统是跨越44个省的开放式教育系统,所以中央电大需要同44所省电大交换数据,在这种情况下网络状况不可预知、稳定性难以保证,但传输仍然需要进行。
4.1SOAP协议与Hessian协议的比较
目前,Web服务技术是解决异构平台系统的集成及互操作问题的主流技术[1]。它所基于的XML已经是Internet上交换数据的实际标准,基于通用的进程间通信协议和网络传输协议屏蔽平台的差异,可以将各种异构环境下的通信及调用请求均统一为标准的Web服务格式[3]。
但是由于SOAP协议的结构问题会使封装的数据膨胀数倍。当传输数据量比较小时,问题不是那么明显,但是当进行大数据量传输时就会导致Web服务的传输性能在实际运用中降低了很多。这对于经常有大数据量数据交换的应用系统来说是不适用的。
CauchoTechnology公司制定的HBWSP(HessianBinaryWebServiceProtocol)[2]在这方面的有所突破。Hessian协议和webservice常用的SOAP协议类似,也是将协议报文封装在HTTP封包中,通过HTTP信道进行传输的。因此Hessian协议具有与SOAP协议同样的优点,即传输不受防火墙的限制(防火墙通常不限制HTTP信道)。Hessian协议的优势在于:它把本地格式的数据编码为二进制数据,仅用一个字符作为结构化标记,HBWSP封装后的数据增量明显小于SOAP封装后的数据增量。并且相对于SOAP,Hessian协议的外部数据表示有3个显著的优势:
1)采用简单的结构化标记。简单的结构化标记减少了编码、解码操作对内存的占用量。编码时,只需写少量的数据,就可以标记结构;解码时,只需读少量的数据就可以确定结构。而且,简单的结构化标记减少了编码后的数据增量。
2)采用定长的字节记录值。用定长的字节记录值,解码时,就可以使用位操作从固定长度的位获得值。这样不仅操作简单,而且可以获得较高的性能。
3)采用引用取代重复遇到的对象。使用引用取代重复遇到的对象可以避免对重复对象的编码,而且也减少了编码后的数据量。
因此使用Hessian协议传输数据量比SOAP协议要小得多。实践证明,传输同样的对象Hessian协议传输的数据量比SOAP协议低一个数量级。因此Hessian协议比SOAP协议更适用于分布式应用系统间大数据量的数据交换。
4.2Hessian协议的实现构架
Hessian协议的实现构架如图3所示:为了实现Hessian构架,设计了下列组件:编码组件、解码组件、通信组件、报告故障组件、组件、调用服务过程组件。
图3Hessian协议的实现构架
首先客户端发出本地请求,组件响应请求依据服务接口,生成客户端存根,并调用编码组件对本地请求进行基于HessianBinaryWebServiceProtocol标准的二进制编码。然后调用通信组件将请求发送给服务器端。服务器端通信组件接收到请求后把请求转发给调用服务过程组件,调用服务过程组件会首先调用解码组件,得到过程标识,将过程标识转给服务器端存根,并依据部署文件和客户端的请求加载服务过程的实现类。然后根据过程标识、过程参数调用服务过程。最后调用编码组件将响应结果进行编码并通过通信组件返回给客户端。
当数据传输、通信发生错误的时候就需要启用报告故障组件,它可以以异常的形式,报告发送端、接收端、或者网络连接发生的故障,并把错误记录以日志的方式记录下来保存在文件中,以备日后查阅。
4.3实现结构
针对教务管理系统互联网传输存在的一系列问题,基于互联网的主体数据平台采用基于HBWSP的轻量级跨平台通信技术实现数据交换,如图4所示。在客户端,应用服务器从主题数据服务层中抽取数据,并按着HBWSP的外部数据表示对本地格式数据进行编码。然后通过internet网进行传输,在服务器端,数据交换的服务负责按照HBWSP的外部数据表示对接收到的数据进行解码,然后再对数据进行分析、处理后把数据插入到服务器端的主题数据服务层中。
图4非持久同步方式的数据交换解决方案
该解决方案的主要特点包括:
1)采用了HBWSP的二进制编码方式解决了异地、异构平台系统的通信问题,并使数据交互具有了一定的实时性。
2)由于HBWSP简洁的编码方式以及编码、解码性能高等特点使数据交换具有交换GB级数据的能力。
3)采用了HBWSP的二进制编码方式有助于缩短整个数据交换所需要的时间。其编码性能高的特点,有助于提高编码速度,减少发送方编码本地数据的时间。其解码性能高的特点,可以减少接收方解码、重构本地数据的时间。从而减少了数据交换的响应时间。
4)采用了HBWSP的二进制编码方式和数据分批传送技术有助于充分利用网络状况良好的时段。可以在网络状况良好的时段尽可能多的完成数据交换。
5)采用了断点续传技术,保证了当网络断连或响应超时导致正在进行的数据交换被中断,在故障修复后仍然可以从中断处开始,继续完成上次没有完成的数据交换的能力。断点的粒度可以调节,可以是一条数据,也可以是多条数据。
6)采用了事务保护机制,把每批要传输的数据定义为一个事务,本批要传输的数据的事务完整性不依赖于已经完成的各批数据,本批数据传输发生错误也不会对已经完成的各批数据造成影响。采用这种方法,可以在数据交换过程被中断的情况下保证数据交换事务的完整性。
5总结和展望
本文在SOA理论的基础上提出了一个主题数据平台的概念,力图把异地、异构的数据综合起来,组成一个强壮的、高可靠性的、可共用的标准数据服务平台。从而解决中央电大新旧教学管理系统数据“孤岛”的问题。我们再进一步针对现实环境:局域网和互联网两种情况进行了分析,并给出了实现框架和技术细节。
但是如何在信息暴露的基础上,对业务应用进行进一步的梳理、划分、整合,从而封装成用户可以随意组合、使用的标准服务,从而实现真正的SOA,是需要我们进一步研究的内容。
参考文献
二、数据挖掘技术在财务分析中的应用
财务分析的主要目的是改善经营管理,提高企业的经济效益,其主要目的是保证会计信息资料的正确可靠性,以保证企业财产的安全性、完整性。比如某生态园林企业需要投入大量资金完善生产基础设施,并保证现场作业的有序,如有必要还要投资于企业产品周边附属产业的发展,因此财务决策的重要性不言而喻,而在财务决策中应用数据挖掘技术十分必要。财务分析中应用数据挖掘的基本流程包括问题识别、数据准备、数据开采及结果表达与解释等四个步骤,图1可将财务分析数据挖掘的过程直观的表达出来:
(一)问题识别
典型的财务决策包括投资决策、筹资决策、成本决策、销售决策等,企业要进行财务分析前必须识别决策问题,明确需要达到的决策目标等,再将决策目标转换为数据挖掘的目标,最后进行准确的数据定义。如企业需要投资企业产品周边附属产业,则需要利用数据挖掘技术明确以下问题:
(1)企业经营中可随时支配的资金额度,需要财务人员建立数据库模型,将可用于投资的资金情况准确、详细的计算出来;
(2)编制投资方案,即与本企业实际情况相结合,考虑具体投资计划,并对投资方案的可操作性进行分析,比如上述园林生态企业需要投资进口园林机械的项目,就需要在投资前对该项目的大小做出合理评估,了解该品牌园林机械在国际市场的占有份额、品质、成本及销售价格等信息;
(3)投资收益分析,投资的主要目的是获得更高收益,因此在数据挖掘过程中,问题识别时必须做出可靠的收益预算。
(二)数据准备
在完成问题识别后,需要根据不同的需求、从相关数据库信息中选择适用的数据信息,即进行数据准备,该过程需要收集大量与企业财务分析相关的数据信息,以保证数据挖掘的真实性、客观性,比如花卉市场分布信息、装饰装潢市场信息、园林设计与市场销售等信息。通常情况下,数据准备又可分为数据集成、数据选择及数据预处理等三个步骤,其中数据集成是把多数据库运行环境中的数据进行合并处理,去除信息噪声,剔除虚假数据;而数据选择则是分辨需要分析的数据集合,进一步缩小数据处理的范围,提高数据质量,从而保证数据挖掘的有效性;数据预处理的主要目的是解决数据挖掘工具局限性的问题。
(三)数据挖掘
当上述准备工作完成后即可进行深入的数据挖掘处理,挖掘过程中需要注意,必须以财务分析核心思想为指导,明确数据挖掘的目的性,数据挖掘的主要内容包括:选择合适的挖掘工具、具体的挖掘操作及证实发现的知识等,其中选择合适的挖掘工具至关重要,限于篇幅此处对神经网络及决策树两种方法进行简单介绍。神经网络是以自学习数学模型为基础的,利用该方法可以很容易的解决具有上百个参数的问题,为高复杂度的问题提供一种相对简单的方法;视经网络既可以表现为有指导的学习,也可以是无指导聚类,不过输入神经网络中的值均为数值型的。实际应用中通常采用该方法进行财务预警分析。决策树法是现阶段应用最广泛的归纳推理算法之一,其提供了一种展示在何种条件下会获得对应值的规则的方法,是一种简单的知识表示方法,在数据挖掘过程中,决策树法主要用于数据挖掘的分类。
(四)结果表达
结果表达即是在处理数据库信息的基础上客观的表达出数据挖掘的结果,以为企业财务分析提供可靠依据。可以说结果表达是数据挖掘的成果展示,其所表达的是最有价值的信息,如结果表达所提供的信息达不到决策的要求,则可重复挖掘过程,直至决策者满意为止。