大数据技术样例十一篇

时间：2023-04-11 17:28:49

序论：速发表网结合其深厚的文秘经验，特别为您筛选了11篇大数据技术范文。如果您需要更多原创资料，欢迎随时与我们的客服老师联系，希望您能从中汲取灵感和知识！

大数据技术

篇1

传统的关系数据库，从其创立至现在，长期占据数据库的绝对统治地位。但是，数据挖掘、商业智能和可视化技术的发展，特别是它们处理非结构化数据的能力，动摇了传统数据库的牢固地位。于是善于处理非结构化数据的种种数据库工具大量产生，这其中必须优先提及的便是NoSQL（意为Not Only SQL）及NewSQL（意为New SQL）两大数据库阵营。

现在随着大数据时代的到来，由Carlo Strozzi开创的NoSQL以其技术上的先进性、方便性得到了越来越多的认可。NoSQL改变了数据的定义范围，其“数据类型”可以是文本、图片、影像、网页，也可以是整个文件；NoSQL数据库是非关系式的、数据间的关系更加复杂、多样，类型和相互关系具有多种扩展可能、存储方式也多采用分布式结构。经过十多年的发展，NoSQL取得了成功，采用NoSQL技术的产品也不断增长，目前NoSQL网站上（）已经收集了150余个相关产品，人们也把采用类似NoSQL结构和原理的数据库统称为NoSQL数据库。

最初NoSQL有意排斥关系数据库的ACID规则和SQL特性（后发现其弱点又在一定程度和一定范围内支持数据的一致性要求和SQL特性）。NoSQL坚持分布式领域的CAP理论，CAP的含义为：

Consistency，一致性。数据一致更新，所有节点访问同一份最新的数据副本；

Availability，可用性。对数据更新具备高可用性；

Partition tolerance，分区容错性。能容忍网络分区。

CAP理论主张任何基于网络的数据共享系统，都最多只能拥有以下三条中的两条。而这种“三取二”的法则以及具体理解与执行的争论就一直存在。想同时满足三者，或者过分强化割舍三者之间联系均会破坏数据系统的效率和效果。32岁便获得加州大学伯克利分校终身教授的Eric Brewer提出了BASE理论（Basically Available， Soft state， Eventually consistent；基本可用、软状态、最终一致性），它用一种更注重可用性、更便于理解的方式解释分布式系统的特点。

NewSQL注意到关系数据库的灵活性不足、数据库互锁机制效率低下的特点，同时也意识到NoSQL不支持SQL所带来的不便，它采用了一种近似折中的方案，既支持SQL并保证一定程度的数据一致性，同时也提供NoSQL数据库的非关系数据处理的扩展功能，因而从产生之初便受到业界的喜爱，相关产品不断涌现。NoSQL和NewSQL常见产品及其分类情况如图所示。

2.2 NoSQL及其发展趋势

在NoSQL潮流中，最重要的莫过于Apache基金会的Hadoop。它是一个领导者，是一个典型的分布式文件系统，是一个开源系统。用户可以在不了解分布式底层细节的情况下，借助Hadoop开发分布式程序，它取得了成功，成为分布式数据处理界的巨兽（Hadoop的Logo就是只大象）。现在甚至出来了“无分布不Hadoop”——每个传统的数据库提供商都急切地声明支持Hadoop。关系数据库的传统霸主Oracle公司也将Hadoop集成到自己的NoSQL数据库中，Microsoft、Sybase、IBM也加入了收纳Hadoop功能的竞赛中。

第二位领导者，MongoDB，是一个成功的文档处理型数据库系统，它被称为“非关系式数据库中最像关系式数据库的产品”。MongoDB查询功能强大，特别适合高性能的Web数据处理。

Cassandra是这个领域中的一个另类产品，它兼有键值数据库和列值数据库两者的长处，它的查询功能很优秀。虽然运行Cassandra集群难度较高，但它升级后的分析能力使得很多人感到惊讶。

Redis也是相当好的一个产品。对故障恢复的良好支持以及使用Lua的服务器端脚本语言是明显区别于其他软件之处。使用Lua确实带来了一些震动，因为更多的人喜欢和习惯JavaScript服务器端语言。但是，Lua是一个整洁的语言，它并为Redis开启了潘多拉盒子。

CouchBase在可扩展性和其他潜在因素，使其看起来是一个很好的选择，尽管Facebook以及Zynga面临着关键开发者离开的风波。CouchDB会变得更好抑或相反？只要数据库做得好受众就会欢迎，现在看来，它确实做的很好。

还需要提及的是Riak，在功能性和监控方面它也有了巨大的提升。在稳定性方面，它继续得到大家的赞美：“像巨石一般稳定、可靠且不显眼……”。Riak 数据模块化方面做得很有特色。

篇2

中图分类号：F49 文献标识码：A 文章编号：1007-9416（2015）030-0209-01

近几年，大数据（big data）一词越来越多地被提及，人们用它来描述和定义信息爆炸时代产生的海量数据，并命名与之相关的技术发展与创新。2012 年3 月，奥巴马公布了美国《大数据研究和发展计划》，标志着大数据已经成为国家战略，上升为国家意志。从硅谷到北京，大数据的话题传播迅速。

1 大数据时代

随着计算机技术全面融入社会生活，经过半个多世纪的发展，信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息，而且其增长速度也在加快。最先经历信息爆炸的学科，如天文学和基因学，创造出了“大数据”这个概念。

1.1 大数据时代产生的背景

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡，麦肯锡称：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”大规模生产、分享和应用海量数据的时代之所以能够开启，源于信息科技的进步、互联网与云计算技术和物联网的发展。

（1）信息科技的进步。信息处理、信息存储和信息传递是信息科技的三个主要支撑，存储设备性价比不断提升、网络带宽的持续增加，为大数据的存储和传播提供了物质基础。

（2）互联网与云计算技术。互联网时代，电子商务、社交网络和移动通信产生了大量结构化和非结构化的数据，以云计算为基础的信息存储、分享和挖掘手段，可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来，并随时进行分析与计算。互联网领域的公司最早重视数据资产的价值，他们从大数据中淘金，并且引领着大数据的发展趋势。

（3）物联网的发展。众所周知，物联网时代所创造的数据不是互联网时代所能比拟的，而且物联网的数据是异构的、多样性的、非结构和有噪声的，最显著的特点是是它的高增长率。大数据是物联网中的关键技术，物联网对大数据技术的要求更高，它的发展离不开大数据。

1.2 大数据与数据挖掘

Google、Amazon、Facebook、Twitter，这些称霸全球互联网的企业，它们的成功都具备一个共同的因素，就是收集分析海量的各种类型的数据，并能够快速获取影响未来的信息的能力。“购买了此商品的顾客还购买了这些商品”，这恐怕是世界上最广为人知的一种商品推荐系统了，而创造出这个系统的正是Amazon。Amazon 通过分析商品的购买记录、浏览历史记录等庞大的用户行为历史数据，并与行为模式相似的其他用户的历史数据进行对照，提供出最适合的商品推荐信息。Facebook 可以为用户提供类似“也许你还认识这些人”的提示，这种提示可以准确到令人恐怖的程度，而这正是对庞大的数据进行分析而得到的结果。这种以数据分析为核心的技术就是数据挖掘（data mining）。

从技术角度看，数据挖掘是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。从商业角度来说，数据挖掘是从庞大的数据库中抽取、转换、分析一些潜在规律和价值，从中获取辅助商业决策的关键信息和有用知识。大数据概念的提出，将为数据挖掘技术的发展和应用带来一个很大的机遇。

2 数据挖掘

数据挖掘旨在从大数据中提取隐藏的预测性信息，用便于理解和观察的方式反映给用户，作为决策的依据。

2.1 数据挖掘原理

数据挖掘又称为数据库中的知识发现（Knowledge Diseoveryin Databases，KDD），是一个从数据库或数据仓库中发现并抽取隐含的、明显未知的、具有潜在用处的信息的过程。数据挖掘一般流程主要包括三个阶段：数据准备、数据挖掘、结果解释和评价。在数据挖掘的处理过程中，数据挖掘分析方法是最为关键的。

（1）数据准备。数据准备是从海量数据源得到数据挖掘所用的数据，将数据集成到一起的过程。由于数据收集阶段得到的数据可能有一定的污染，即数据可能存在不一致，或有缺失数据、脏数据的存在，因此需通过数据整理，对数据进行清洗及预处理。

（2）数据挖掘。是数据挖掘中最关键的一步，使用智能的方法提取数据模式，例如决策树、分类和聚类、关联规则和神经网络等。首先决定要提取什么样的模型，然后选取相应的算法参数，分析数据从而得到可能形成知识的模式模型。

（3）结果解释和评价。数据挖掘后的结果需要转换成用户能够理解的规则或模式，并根据其是否对决策问题具有实际意义进行评价。

2.2 数据挖掘技术在营销中的应用

无差别的大众媒体营销已经无法满足零和的市场环境下的竞争要求。精准营销是企业现在及未来的发展方向，在精准营销领域，最常用的数据挖掘分析方法包括分类、聚类和关联三类。

（1）关联规则。挖掘关联规则就是发现存在于大量数据集中的关联性或相关性，例如空间关联挖掘出啤酒与尿布效应；时间关联挖掘出孕婴用品与家居装修关系；时间关联挖掘出调味品、纸巾与化妆品的消费等。

此外，关联规则发现也可用于序列模式发现。序列模式发现的侧重点在于分析数据项集在时间上或序列上的前后（因果）规律，可以看作是一种特定的关联规则。例如顾客在购买了打印机后在一段时间内是否会购买墨盒。

（2）分类分析。分类是假定数据库中的每个对象属于一个预先给定的类，从而将数据库中的数据分配到给定的类中。它属于预测性模型，例如在银行业，事先定义用户的信用状况分为两类：信用好和信用坏，对于一个信用状态未知的用户，如果需要确定其信用度，可以采用“决策树”法构建一个分类模型，决策树方法着眼于从一组无次序、无规则的客户数据库中推理出决策树表现形式的分类规则。决策树的非叶子节点均是客户的一些基本特征，叶子节点是客户分类标识，由根节点至上而下，到每个叶子节点，就生成了一条规则，由该决策树可以得到很多规则，构成了一个规则集合，从而进行数据分析。

（3）聚类分析。聚类是将物理或抽象对象的集合进行分组，然后组成为由类似或相似的对象组成的多个分类的分析过程，其目的就是通过相似的方法来收集数据分类。为品牌找客户，回答品牌“谁来卖”是精准营销首先要解决的问题，科学细分客户是解决这一问题的有效手段。聚类可以将目标客户分成多个类，同一个类中的客户有很大的相似性，表现在购买行为的高度一致，不同类间的客户有很大的相异性，表现在购买行为的截然不同。

3 结语

大数据时代背景下“数据成为资产”，数据挖掘技术作为支撑精准营销的重要手段，将它应用于营销行业的决策中，不仅拓展了数据挖掘技术的应用范围，而且大数据时代的数据挖掘技术可以帮助企业获得突破性回报。

参考文献

[1]维克托・迈尔―舍恩伯格；肯尼思・库克耶.大数据时代：生活、工作与思维的大变革[M].周涛译.杭州：浙江人民出版社，2013.

[2]王伟玲.大数据产业的战略价值研究与思考.技术经济与管理研究[J]，2015（1）.

篇3

中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2016）03-0019-02

1 概述

当前，互联网的发展已经进入到一个全新阶段，互联网的应用已经深入到人们的日常生活中，尤其是移动互联网技术的发展和运用已经日益成熟，传统企业都已经开始自觉地运用移动互联网技术和概念拓展新业务和方向[1]。在此背景下，大数据技术应运而生，针对大数据这一新兴概念，麦肯锡全球研究所曾给出这样的定义：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

2 分布集群数据库

组成分布集群数据库系统的每台计算机可单独放在一个地方，其中每台计算机都可能保存一份数据库的完整拷贝副本，或者是部分副本，每台计算机单元具有自己局部的数据库，位于不同地点。这些计算机之间通过网络进行连接，共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。

在分布式集群系统中，数据库对用户来说是一个逻辑上的数据库整体，数据库的一致性、完整性及安全性都是对这一逻辑整体进行管理控制的。分布集群服务器对共享的数据进行统一的管理，但是非数据库的处理操作可以由客户机来完成。

在分布式集群系统中，通常采用外部链接技术进行数据库的远程控制。组成分布式集群的各计算机之间可以通过网络进行相互通讯，用户可以远程透明地单独访问远程各数据库单元的数据，也可以组合多个数据库的数据以满足多工作组、部门的复杂应用需求。远程数据库链接技术连接了各分散的数据库单元，逻辑的将他们组合为一个整体，从应用视图的角度来看，分布集中数据库系统就是一个整体的数据库服务系统。用户对此系统的单一逻辑的数据库访问请求都被自动分解、自动寻址、自动转换为网络请求，并在相应数据库结点上实现相应的操作请求。

分布集群数据库系统支持混合的网络拓扑结构，并采用混合的网络协议，自动地进行网络协议的转换。在分布集群数据库系统中，在保证海量数据存储的基础上，混合了高可用集群和高可靠集群，提高了数据库系统的可用性和可靠性，满足了现代互联网应用的需求。

物化视图是从一个或几个基表导出的表，同视图相比，它存储了导出表的真实数据。当基表中的数据发生变化时，物化视图所存储的数据将变得陈旧，用户可以通过手动刷新或自动刷新来对数据进行同步。物化视图包括了查询结果的数据对象，是远程数据的本地副本快照。物化视图允许你在本地维护远程数据的副本，但是只能读取这些副本[2]。

3 高可用集群

数据库高可用集群通过缓存交换技术实现，它基于同一份数据文件、但提供了多个数据库实例，即数据库服务进程。高可用性首要确保数据不丢失，数据不丢失是高可靠性的最基本的要求，是必须要保证的；其次是使数据库一直维持在正常的运行状态，确保不停机，以避免给客户造成损失。

在大数据应用环境下，数据库系统的停机分为两类，即计划性停机和非计划性停机。计划性停机一般在数据库管理软件升级、系统维护或者硬件维护的情况下进行，是有计划地安排节点或者系统的停机。非计划性停机是异常突然停机，具有不可预见性，这种情况一般是数据库管理系统缺陷或系统故障或硬件故障等[3]。

高可用集群数据库技术主要包含如下几点：

1）负载均衡技术：支持静态和动态负载均衡技术，实现系统范围内各节点负载均匀，避免出现单一节点或者部分节点负载过重而影响整体性能。

2）全局事务并发控制技术：通过高速缓存复制技术，各节点保持字典数据一致，同时能够看到全局锁和事务视图，使得能够正常实现事务的ACID特性。

3）多节点并发访问文件控制技术：由于多个节点共享同一份数据，控制好各节点对同一份数据的更新操作，避免出现错误的文件读写导致的数据不一致的问题。

4）动态增加和移除节点技术：在高可用集群环境中，能够在不中断服务的情况下，通过增加节点来提升系统性能，同时也能够在节点出现故障时，从集群中自动移除该节点，并且不影响整个集群系统对外提供服务。

4 高可靠集群

一般采用数据复制技术来保证数据库系统的高可靠性，数据复制同时也是一种分担系统访问压力、加快异地访问响应速的技术，数据复制具有物理和逻辑之分。通过将一个服务器实例上的数据变更复制到另外的服务器实例。可以用于解决大、中型应用中出现的因来自不同地域、不同部门、不同类型的数据访问、请求导致数据库服务器超负荷运行、网络阻塞、远程用户的数据响应迟缓的问题。

高可靠集群提供数据库的容灾、数据保护、故障恢复等，实现数据库快速切换与灾难性恢复。在生产数据库的保证"事务一致性"时，使用生产库的物理全备份创建备库，备库能够通过生产库传输过来的归档日志或重做条目自动维护备用数据库。

高可靠集群的数据同步技术有以下优势：

1）数据库自身内置的功能；

2）配置管理较简单，不需要熟悉其他第三方的软件产品。

3）物理Standby数据库支持任何类型的数据对象和数据类型；

4）逻辑Standby数据库处于打开状态，可以在保持数据同步的同时执行查询等操作。

5）在最大保护模式下，可确保数据的零丢失。

5 MPP技术的应用

MPP 架构采用统一的并行操作数据库引擎，将数据分散在不同的数据库节点上，在高速的内部网络环境下，对于海量数据的并发查询可极大地减少 I/O，提高查询效率。MPP 系统工作起来就像是一台单独的计算机，由于采用自动化的并行处理，在分析型数据仓库等 OLAP 应用中，查询性能比传统的单节点数据库大大提高。MPP 系统为新一代数据仓库所需的大规模数据和复杂查询提供了先进的软件级解决方案，具有业界先进的架构和高度的可靠性，能帮助企业管理好数据，使之更好地服务于企业，推动数据依赖型企业的发展。

6 大数据中的应用

基于数据库管理系统，搭建高可用、高可靠的分布集群数据库系统，结构如图 1所示。

在此环境中，高可用集群之间可搭建成主备关系，与任意高可靠集群或任意单机数据库服务器通过外部链接构成逻辑上统一的分布集群数据库系统。对于用户而言，仍然是单一的数据库服务。

单机数据库服务器、高可用集群、高可靠集群都可通过外部链接作为单独节点加入到分布集群数据库系统中，利用数据库系统的分布集群事务机制，既保留了局部数据库的自治特性，又可以作为全局分布集群系统中的一员参与到整个海量数据分析中。

解决了海量规模数据存储的问题后，针对快速的数据流转、多样的数据类型和价值密度低问题，数据库技术还实现了以下功能：

1）物化视图技术和高级复制技术解决分布集群系统中数据流转速度慢的问题。

2）支持面相对象、xml数据类型，满足数据类型多样化的需求。

3）数据挖掘技术，是决策分析技术的一个更高层次，数据挖掘技术采用人工智能的决策分析方法，按照用户既定的业务目标，对数据进行筛选，揭示其中的规律，并进一步将其模型化。

7 结束语

随着计算机技术的发展，数据库管理系统作为处理数据的核心之一，在大数据中的应用不应被忽视。因此，加强数据库新技术的研发，对于各个国家在大数据时代的信息战中都显得尤为重要。

参考文献：

篇4

大数据技术的进步之快，与传统的数据分析相比，就好比是喷汽式飞机与独轮车的差距。如果管理者没有足够的判断力和领导素养，该项新技术所带来的风险可能远远大于收益。

仔细研究塔吉特的“怀孕指标”之后我们发现，领导力在该项目当中发挥的作用远比技术工具来得关键：

以一定的收益风险管理为导向很久以前，早在上

世纪八十年代，塔吉特就通过研究发现，消费者很少会因为商家的广告或者优惠券改变自己的购物习惯，选择不熟悉的品牌。只有当重大事件发生时，比如结婚、搬家或者生小孩，这一规律才会被打破。

没有这项理论做前提，塔吉特的“怀孕指标”项目就毫无意义。

合理的样本和模型很重要建立一个数据模型需

要明确的样本和评估数据，这就需要对客户有足够的洞察。

在塔吉特的案例里，他们使用婴儿用品的购买记录作为样本，以此为基础来建构一个数据模型，分析更大量的数据记录。

理解信息的价值所在需要仔细评估从最理想的数据中能够得到的商业结果，对比数据收集、分析的过程和最终得到的结果，来判断精确的分析是否值得。

例如，在塔吉特，可以根据“怀孕指标”，将准确率为80%的数据和准确率为90%的数据进行对比，以找到投入产出的最佳结合点，形成最优化的数据模型。

篇5

“检察大数据”的概念厘定

“大数据”的生产与运用是一个“人人为我，我为人人”的互通、共享、多赢过程。检察机关在整合应用其他政府机构、企事业单位、社会组织提供的信息数据服务司法办案的同时，也在办案中生产“大数据”。这些数据既可作为检察机关校准后续办案的内部参照系，同时部分数据亦可对外输出服务社会。前者如在刑事检察中整合同类案件形成案例数据库，用以提升公诉量刑精准度，后者以当前检察机关向社会公众提供的行贿犯罪档案查询服务最为典型。显然作为数据运用者，检察机关“大数据”包括检察工作所涉及的一切有用信息数据。其中，相当一部分数据并非检察机关在司法办案中产出的“原生”数据。如职务犯罪侦查办案中反贪部门调用房产、银行、公安行政机关的信息数据库进行初查；相关业务部门在审查、出庭公诉、诉讼监督、参与社会治理等方面运用信息化、数字化新技术等。

“检察大数据”与上述检察机关运用的“大数据”有本质区别。“检察大数据”专指检察机关司法办案大数据，是检察机关在司法办案中的“原生”案件信息数据，其最核心的特征是相关数据是关于检察业务办案的信息数据。目前，在检察司法办案大数据的撷取、管理、应用方面，最高人民检察院推进的“统一业务应用系统”是国家层面“检察大数据”生成的最重要平台；同时各地检察机关亦多有创新，如北京市人民检察院开发应用的“检立方”系统、上海市闵行区人民检察院试运行的“检察官执法办案全程监控考核系统”、浦东新区人民检察院试运行的“综合管理信息平台一期”、湖北省人民检察院研发的“互联网检务办公室”，南京市鼓楼区人民检察院研发的办公办案软件“移动检务通”等。上述系统平台通过案件管理部门案件受理信息输入及办案人员在办案过程中的流程信息输入，生成、存储、管理与检察机关司法办案相关的各项信息数据，并通过对大数据不同子系统数据的深度分析，进而服务领导决策与司法办案。

当前检察工作中的大数据运用

无论是检察机关的“原生”大数据，还是第三方生成的关联大数据，在当前的检察办案与司法管理工作中都有着极为广阔的应用前景。作为检察机关大数据的核心内容，“原生”大数据即“检察大数据”，在辅助检察办案、服务司法管理中发挥着极为重要的作用。

在“检察大数据”辅助检察办案方面，目前较为典型的如贵州省人民检察机关的“大数据司法办案辅助系统”。司法办案辅助系统运用“实体识别”“数学建模”等大数据技术，通过绘制“犯罪构成知识”图谱，建立各罪名案件数学模型的司法办案辅助系统，为办案提供案件信息智能采集、“要素―证据”智能关联和风险预警、证据材料甄别，以及类案推送、量刑建议计算等智能化服务。目前，贵州省人民检察机关的大数据司法办案辅助系统已进行了三次迭代升级，正在贵州全省4个市（州）院和31个基层院试点运行。

在“检察大数据”服务司法管理方面，上海市闵行区人民检察院的检察官执法办案全程监控考核系统非常具有代表性。该院通过对各职能部门受理、立案（项）、办理的案件以及不依附于自侦、批捕、等主要办案业务的，有完整流程、审查结论及相关法律文书的诉讼监督、社会治理、维护稳定、预防犯罪等检察业务进行梳理，对检察建议、纠正违法等共性的检察业务指标进行归并，形成了较为规范的检察机关司法办案大数据目录和工作指标w系。通过对检察官在执法办案中产生的“原生”大数据的深度挖掘和研判分析，将案件统计、质量监控、专题研判、绩效分析有机融为一体，进而使办案监督管理者能够及时准确找出检察官在办案中存在的司法不规范问题，有效强化对司法办案的绩效考评与内部监控。

除了重视对“原生”大数据的收集整理与挖掘应用，如何发挥好“他山之石”的作用，在检察办案中运用好第三方关联大数据，也是大数据技术与检察办案深度融合的重要内容。除了上述在职务犯罪案件侦查中对房产、银行、公安行政机关等提供的关联数据的常规运用外，当前一些地方检察机关正在进行创新运用第三方大数据方面的积极探索。如江苏省无锡市锡山区人民检察院对接社会治理公共服务管理平台和民情APP，推出检察民情APP的创新做法。自对接平台以来，锡山区人民检察院已查阅近6000条民情信息，从海量数据中了解掌握群众诉求，立足检察职能，从中发现老百姓对征地拆迁、环境保护、社会保障等方面的民生需求，聚焦群众关注的热点民生问题深入挖掘职务犯罪案件线索、诉讼监督线索、执行监督线索及公益诉讼线索，使第三方大数据真正成为辅助检察办案，拓展监督案源的新渠道。

短板

检察大数据系统的提升点

篇6

引言

在现今信息技术发展中，数据同计算可以说是信息技术发展过程中的两个重要主题，在这两个主题的基础上，信息技术也逐渐出现了大数据技术概念。从严格意义来说，所谓大数据技术，即是针对于海量数据的分析、存储以及技术。对于这部分海量数据来说，我们很难直接对其进行应用，在获得数据之后，需要在经过一定处理后才能够获得有用的数据，如何能够实现大数据时代下数据同计算的科学协作、并能够将其形成一种机制，则成为了目前非常重要的一项问题。

1 计算同数据协作机制对比

对于面对数据系统来说，其一般为分布式系统类型，即通过将计算向数据进行迁移对系统中数据传递代价进行降低，可以说是一种通过计算对数据进行寻找的方式。要想对数据进行计算，实现数据的定位可以说是一项重要的前提，而数据切分以及存储方式情况也将对计算的模式以及处理效率产生影响。对此，要想对数据同计算间的科学协作进行实现，就需要对数据在分布式文件系统中的存储方式进行研究。而由于在分布式系统当中，需要对数据冗余、节点失效以及备份等问题进行解决，就对数据同计算协作价值的研究带来了较大的挑战。在两者协作机制研究中，数据同计算的一致性可以说是研究重点，需要首先从该方面进行讨论与解决。

1.1 位置一致性映射模型

对于分布式系统中数据同计算的一致性问题，我们可以将其理解为将两者在同一节点位置映射，即在数据存储区域发起计算。以网格计算系统为例，其到达客户节点的数据是计算先于数据，并根据客户端请求将数据映射到客户端中进行处理。对于Hadoop系统来说，就是先将数据存储到系统的一个节点当中，当系统发起计算时，再对元数据进行查询后对数据存储位置进行获得，并将计算任务映射到节点当中进行处理。根据此种情况，我们可以将计算同数据间的映射比作是数据到节点的映射过程，在该过程中，数据片同计算程序在按照一定规则到节点进行定位之后将两者注入到节点当中，而到该节点失效时，数据片则会按照相应的规则进行数据备份以及迁移，并重新按照规则实现到节点的对应。

在上述模型中，我们可以将计算视作是一种具有特殊特征的数据类型，这是因为对于计算而言，其自身就是程序语言设计的可执行程序片，在系统映射过程中，可以将其同数据进行同等的看待，且在程序中一般也将包括相关数据的逻辑位置信息。在分布式文件中，其中的定位算法也正是数据同节点间的映射功能，即要想对两者的一致性位置进行实现，就离不开分布式文件系统的支持。同时，由于在分布式系统中计算迁移、存储迁移以及数据冗余问题的存在，在具体功能实现时，也将对存储冗余以及均衡调度等技术进行结合性的应用，以此对两者科学协作、且具有稳定健壮特征的系统进行实现。映射方式方面，则有哈希映射以及元数据映射等。

1.2 元数据映射算法

对于该类算法来说，其可以说是最为基础的对存储位置同计算一致性进行实现的方法，在实际应用中，该方式通过数据块存储位置的查找使该位置能够同指定的存储节点进行映射，在其对计算同数据的定位实现中，同网络路由表原理较为类似，即两者通过对有路由的查询保证数据能够同计算被分配到同一个节点当中。对于应用该方式的系统来说，其一般为主从结构类型，如果其中出现单点失效情况，则将对整个系统产生较大的影响。对于HDFS以及GFS结构来说，就是以该数据方式构建的。在实际对数据进行存储时，其一般会根据节点目前存储负载情况进行判断，而为了避免结构对失效情况具有过高的敏感性，也有学者通过对元数据进行复制的方式提升系统可用性。

通过该方式的应用，则能够以较为便利的方式对机群系统目前状态进行利用，在以其为依据的基础上对系统的负载均衡进行实现。此时，系统主节点则会通过一定调度算法的应用对数据计算以及存储进行分配，在对系统负载均衡进行实现的同将分配信息作为元数据进行保存。目前，很多针对集群负载均衡算法都能够在元数据方法中进行应用、并将其作为对柱节点资源进行分配的依据。在实际应用中，虽然该方式在网络信息搜索以及大量复杂均衡算法的应用方面具有较好的表现，但当系统具有较多数量小文件时，则需要对路由数据进行大量的维护，并因此对数据的查询效果产生影响。

1.3 哈希映射算法

哈希算法是一种从稀疏到紧密值的映射方式，在计算以及存储定位时，可以将其视作路由算法的一种，通过该方式的应用，则能够将目标定位到节点位置。对于传统的哈希算法，其在扩展性以及容错性方面的表现都一般，并不能够较为有效的对面向数据系统节点的动态变化相适应，1997年，学者David Karger提出了使用一致性哈希算法对数据进行定位，并在后续的改进中逐渐使其成为了分布式存储中的标准技术类型。当系统对该方式进行应用之后，则不需要对中心节点元数据进行维护，可以说对普通元数据服务器性能瓶颈以及单点失效问题进行了较好的解决，其实现过程为：首先通过Key值的应用将MD5算法变换成一个32位长度的16进制数值，在以该数值进行232取模后将其映射到环状哈希空间，并以相同的方式将节点映射到环状哈希空间当中，此时Key则会在哈希空间中寻找到节点值作为路由值。

2 计算同数据的流式拓朴协作机制

2.1 Storm系统

流水线技术是对高性能数据进行处理的重要技术类型，其主要技术思想即将一个任务分解成多个具有前后关系的子任务，在流水线模式中，各个子任务的启动同之前顺序任务的完成情况具有依赖，对具有先后相关性数据分析方面具有较好的实用性特征。目前，以分布式系统以及流式技术为协作的框架机制已经在应用中表现出了较好的生命力以及灵活性，在本研究中，将以Storm系统为例进行简单的介绍。

Storm是由Twitter所推出的一种流式分布式系统，在该集群中，由多个工作节点以及一个主节点组成，其中，主节点可以说是系统的核心，具有任务布置、代码分配以及故障检测等作用。在该系统中，当其要对实时计算任务进行完成时，需要对一个Topology进行建立，并由该模块对数据处理进行规划。在Storm系统中，元组是基本的数据流单位，可以将其看作是一个被封装的数据结构类型，在Storm系统中，Topology可以说是最高级别的执行单元，其是由很多个节点所组成的拓扑，在拓扑中，由不同节点对相应的计算逻辑进行完成。在该系统中，Spout是系统的数据流生成器，而Bolt则为不同的处理位置。对于数据流来说，由于Spout为数据源头，在实际运行中，其在对数据进行读取之后则会实现向Bolt的传送，其不仅能够对多个输入流进行接收，且能够较好的对数据进行特定处理。在Storm系统对Topology进行应用之后，其则具有了更为强大以及更为灵活的数据处理能力，节点在根据Topology逻辑对任务进行分配之后将任务分配到相应物理节点之上。而从整个架构情况看来，在数据以及计算协作处理方面，系统主要是通过Topology进行分配，并在按照其描述之后由对应的节点程序进行处理，并由主节点将根据一个逻辑实现物理节点的映射。

2.2 流式拓朴映射模型

在Storm系统中，其通过Topology结构的应用，则能够对较为复杂的分布式数据处理任务进行实现，在整个过程中，对于不同计算任务，Topology好比是逻辑规划，并没有对相应的物理节点进行对应，在系统主节点中，可能具有数量较多的该种结构，而对于每一个结构都可以将其视作为对特殊问题进行处理的逻辑规划，可以说，通过Topology结构的应用，则能够对大多数问题的处理方式进行描述。其整个过程可以抽象如图1所示。

在图1中，每一个操作就可以将其是作为Bolt，而数据发生器则为Spout，在该系统中，同样由主节点对很多个处理节点进行管理与监控，对于每个任务的逻辑规划，主节点都会在一定策略的基础上对物理节点进行分配，以此对相关的计算恩物进行完成。如上图中，主节点为操作1分配物理节点1，为操作2分配物理节点2，为操作3分配物理节点3，为操作4分配物理节点1，在以该种方式进行分配之后，Topology则能够被映射为集群物理结构，并能够对相应的计算任务进行完成。而作为编程人员，在工作当中仅仅需要对Topology的逻辑结构进行定义即可，其后续相关工作则完全由系统进行维护，作为设计人员，在整个操作过程中也不需要对失效问题进行担心，这是因为当某个节点出现失效情况时，主节点将根据对应操作将其对一个好的物理节点进行重新的映射，以此保证整个规划能够得到顺利的实现。

通过上述的分析可以了解到，通过流式拓朴映射方法的应用，则能够使系统根据Topology描述的情况对不同的集群计算结构进行自动组合，以此以更为灵活的方式对复杂问题进行处理。在整个过程中，系统的主节点具有数据路由以及计算的作用，并通过Topology的描述对协作机制的跟踪定位进行实现。

在此，我们以MPS对Topology到物理的映射过程进行模拟，在节点间，将通过Mpi_Send（）函数的应用将流数据元组注入到节点当中，并在该节点上对相关操作进行发起，之后，通过MPI_Recv（）函数的应用对前端数据进行接收，以此对节点间通讯进行实现。对于该种方式来说，其能够对不同数据系统仅仅能够进行非实时数据批处理的问题进行了较好的避免，具有较好的应用效果。

3 结束语

在现今大数据时代背景下，数据同计算间的协作具有了更为重要的意义。在上文章，我们对大数据技术中计算与数据的协作机制进行了一定的研究，需要能够联系实际进行系统模式的选择与应用，以此更好的对数据处理任务进行实现。

参考文献

篇7

2传统关系数据库面临的挑战

基于二维关系模型的数据库在数据管理的发展历程中是一个标志性的时期，数据结构化存储，冗余较低、程序和数据具有一定的独立性、易扩充等特点。随着Internet技术的发展，涌现出半结构化、非结构化数据，对这些结构复杂的大数据的高效实时多维分析的需求越来越多。传统的关系数据库从70年展至今，虽然应用范围较广技术较成熟，但在处理海量数据方面还存在许多不足。（1）关系模型结构制约了快速访问大数据的能力。在二维关系表中，依据属性的值来检索相应的元组，受这种方式的束缚，在检索数据过程中，将耗费一定的时间，从而使访问数据的时间较慢。在存储对象设计上虽然可以使用分区的方法，提高数据访问冲突，但在大量数据的前提下，分区技术改善的性能较微弱。（2）处理大数据的灵活性不足。在应用系统中，用户的各种查询需求经常发生变化，不受时间和操作对象的约束，用户希望随时随地都能快速得到反馈结果。关系型数据库需要专门的数据库维护人员对用户的查询要求进行优化处理，不能及时的反馈给用户查询结果，这使得使用关系数据库存储数据的企业不具备对大数据的快速响应能力。（3）处理复杂结构数据能力较弱。关系型数据库对现实数据的处理常见类型为字符、数值等，对于半结构化和非结构化数据的处理只限于二进制代码文件的存储，而现今用户对复杂结构数据的要求上升为识别、检索和多维分析，如何处理占总数据量85%的非结构化数据，是许多关系数据库产品需要解决的问题。（4）存储维护管理PB级数据导致成本不断增加。数据量递增使得企业在硬件存储上投资不断增加，虽然存储设备的投入成本在逐步降低，但总成本却在逐步提高。此外，大量复杂结构的数据维护工作也给数据库管理员增加了很多负担。

3大数据库技术

随着大数据技术的日趋完善，各大公司及开源社区都陆续了一系列新型数据库来解决海量数据的组织、存储及管理问题。目前，工业界主流的处理海量数据的数据库有四种，分别是列式数据库、内存数据库、键值数据库及流式数据库。

3.1列式数据库

采用列族存储数据，将经常被使用的数据放到一个列族中，例如，经常会查询学生的学号和姓名，而不是专业，这样把学号和姓名放到一个列族中，专业放到另一个列族中，该数据库通常用来存储分布式大数据，HBase是列式数据库的典型代表。

3.2内存数据库

对数据库中所有数据的操作都在内存中完成，一般数据库也有一定的缓存机制，对大部分数据的操作都包含从外存到内存的读取，这一过程在很大程度上降低了系统的性能。由于在内存中的读/写是以纳秒为单位的，所以内存数据库的性能极高，Spark是内存数据库的典型代表。

3.3键值数据库

该数据库主要借助哈希表的结构，使用一个特定的键和一个指向特定数据的指针，利用键来完成对数据库中数据的添加、删除和查询操作，这种结构具有很好的扩展性，使系统具有较高的性能，Memcached、Redis、MemcacheDB都是键值数据库的典型代表。

3.4流式数据库

基本理念是数据的价值会随着时间的流逝而不断减少，因此，需要使式数据库来实现流式计算。流式计算处理模式是将源源不断的数据视为数据流，它总是尽可能快速地分析最新的数据，并给出分析结果，也就是尽可能实现实时计算。典型流式数据库：SparkStreaming、Storm。

4大数据SQL

篇8

随着国民经济的不断发展，人们生活水平的不断提高，居民购买汽车能力加强。我国的汽车保有量随之增加，在一些大城市机动车拥有量以超过10%的速度加速，机动车成为每个家庭代步的交通工具，在有限的交通资源配置下，机动车的增加缩短了道路使用周期，城市主干道路超负荷使用，违法停车致使道路不能合理使用、行车不文明、乘车环境不良等现象有增无减。大数据时代，如何改善当前的交通状况是本文阐述的核心内容。文章从以下几个方面来阐述：大数据的现状、大数据的概述、大数据的应用、智能交通的需求、智能交通体系的建立、数据技术。

1 大数据的现状

据权威数据显示，大数据应用在我国还处在起步阶段。但在未来三年，通信、金融领域将在大数据市场突破100亿元。市场规模在2012年有望达到4.7亿元，到2013年增至11.2亿元，增长率高达138%，2014年，保持了与2013年基本持平的增速，增长率为114.38%，市场规模达到24.1亿元，未来三年内有望突破150亿元，2016年有望达到180亿规模。自从2014年以来，各界对大数据的诞生都备加关注，已渗透到各个领域：交通行业、医疗行业、生物技术、零售行业、电商、农牧业、个人位置服务等行业，由此也正在不断涌现大数据的新产品、新技术、新服务。

大数据行业“十三五”规划主要目标：在2020年，将大数据打造成为国民经济新兴支柱产业并在社会各领域广泛应用，推动我国大数据产业稳步快速发展，基本健全大数据产业体系，推动制定一批相关大数据的国标、行标和地方标准，引进具备大数据条件的企业，建设大数据产业孵化基地，提高全国信息化总体水平，以跻身世界先进水平。

2 大数据的概述

2.1 大数据定义

大数据即巨量数据集合，目前还没有一个统一的定义。大数据的概念最早是由全球著名的管理咨询公司麦肯锡提出，2011年Mckinsey研究称，大数据通常是指信息爆炸时代产生的海量数据，在各个行业和业务领域，数据已经渗透到行业中并逐渐成为重要的要素，人们能够从海量数据中挖掘出有用的数据并加以应用。对大数据定义的另一说法是利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。

随着信息时代的高速发展，大数据已经成为社会生产力发展的又一推动力。大数据被称为是继云计算、物联网之后信息时代的又一大颠覆性的技术革命。大数据的数据量巨大，一般10TB规模左右，但在实际应用中，多个数据集放在一起，已经形成了PB级的数据量，甚至EB、ZB、TB的数据量。

2.2 大数据的特点

2.2.1 数据量巨大

数据量级别从TB级别跃升到PB级别。随着可穿戴设备、物联网和云计算、云存储等技术的发展，用户的每一个动作都可以被记录，由此每天产生大量的数据信息。据有关人士估算：1986～2007年，全球数据的存储能力每年提高23%，双向通信能力每年提高28%，通用计算能力每年提高58%；2007年，人类大约存储了超过300EB

的数据；到2013年，世界上存储的数据能达到约1.2ZB。

2.2.2 数据类型多样化

即数据类型繁多，产生了海量的新数据集，新数据集可以是关系数据库和数据仓库数据这样的结构化数据到半结构化数据和无结构数据，从静态的数据库到动态的数据流，从简单的数据对象到时间数据、生物序列数据、传感器数据、空间数据、超文本数据、多媒体数据、软件程序代码、Web数据和社会网络数据[1]。各种数据集不仅产生于组织内部运作的各个环节，也来自于组织外部。

2.2.3 数据的时效性高

所谓的数据时效性高指以实时数据处理、实时结果导向为特征的解决方案，数据的传输速度、响应、反应的速度不断加快。数据时效性为了去伪存真，采用非结构化数据剔除数据中无用的信息，而当前未有真正的解决方法，只能是人工承担其中的智能部分。有些专员负责数据分析问题并提出分析后的解决方案。

2.2.4 数据真实性低

即数据的质量。数据的高质量是大数据时代重要的关注点。但在生活中，“脏数据”无处不在，例如，一些低劣的伪冒产品被推上市场，由于营销手段的成功，加之其他因素的影响导致评分很高。但是这并不是真实的数据，如果对数据不加分析和鉴别而直接使用，即使计算的结果精度高，结果都是无意义的，因为数据本身就存在问题出现。

2.2.5 价值密度低

指随着物联网的广泛应用，信息巨大，信息感知存在于客观事物中，有很多不相关的信息。由于数据采集的不及时，数据样本不全面，数据可能不连续等等，数据可能会失真，但当数据量达到一定规模，可以通过更多的数据达到更真实全面的反馈。

2.3 大数据的应用

2.3.1 医疗大数据

利用大数据平台收集患者原先就医的病例和治疗方案，根据患者的体征，建立疾病数据库并对患者的病例分类数据库。一旦患者在哪个医院就医，凭着医保卡或就诊卡，医生就可以从疾病数据库中参考病人的疾病特征、所做的检查报告结果快速帮助患者确诊。同时拥有的数据也有利于医药行业开发出更符合治疗疾病的医疗器械和药物的研发。

2.3.2 传统农牧业大数据

因为传统农牧业主要依赖于天气、土壤、空气质量等客观因素，因此利用大数据可以收集客观因素的数据以及作物成熟度，甚至是设备和劳动力的成本及可用性方面的实时数据，能够帮助农民选择正确的播种时间、施肥和收割作物的决策。当农民遇到技术市场问题可以请教专业人员，专业人员根据实时数据做出科学的指导，制定合理的优化决策，降低农民的损失成本，提高产品的产量，从而为转向规模化经营打下良好基础。

2.3.3 舆情大数据

利用大数据技术收集民众诉求的数据，降低社会，有利管理犯罪行为。通过大数据收集在微博的寻找走失的亲人或提供可能被拐卖人口的信息，来帮助别人。

3 智能交通的需求

随着城市一体化的快速发展，新时代农民工涌入大城市，促使城市人口的增大不断给城市交通带来问题。究其原因主要有：一是机动车的迅猛发展导致城市主次干道的流量趋于饱和，大量机动车的通行和停放占据主干道路。二是城市交通的道路基础设施供给不平衡导致路网承担能力差。三是停车泊位数量不足导致机动车使用者不得不过多依赖道路停车。四是公共设施的公交车分担率不高导致交通运输效率降低。五是城市的土地开发利用与道路交通发展不均衡。六是行人和机动车主素质不文明导致道路通行效率降低。为此，智能交通的出现是改善当前城市交通的必要需求，能够在一定程度上有效的解决城市交通问题。

大数据是如何在智能交通的应用呢？可以从两个方面说明：一是对交通运行数据的收集。由于每天道路的通行机动车较多，能够产生较大的数据，数据的采集并发数高，利用大数据使机动车主更好的了解公路上的通行密度，有效合理对道路进行规划，可规定个别道路为单行线。其二是可以利用大数据来实现主干道根据道路的运行状况即时调度信号灯，提高已有线路运行能力，可以保障交通参与者的生命和提高有关部门的工作效率，降低成本。对于机动车主可以根据大数据随时的了解当前的交通状况和停车位数量。如果交通拥堵，车主则可选择另一路线，节约了车主的大量时间。

4 智能交通体系的建立

4.1 智能交通建立的框架

主要包括感知数据层、软件应用平台及分析预测和优化管理的应用。物理感知层主要是采集交通的运行状况和对交通数据的及时感知；软件应用平台主要整合每个感知终端的信息、将信息进行转换和处理，达到支撑分析并做出及时的预警措施。比如：对主要交通干进行规划，对频发交通事故进行监控。同时还应进行应用系统建设的优化管理。比如：对机动车进行智能诱导、智能停车。

智能交通系统需要在各道路主干道上安装高清摄像头，采用先进的视频监控、智能识别和信息技术手段，来增加可管理的维度，从空间的广度、时间的深度、范围的精细度来管理。整个系统的组成包括信息综合应用平台、信号控制系统、视频监控系统、智能卡口系统、电子警察系统、信息采集系统、信息系统。每个城市建立智能交通并进行联网，则会产生越来越多的视频监控数据、卡口电警数据、路况信息、管控信息、营运信息、GPS定位信息、射频识别信息等数据，每天产生的数据量将可以达到PB级别，并且呈现指数级的增长。

4.2 智能交通数据处理体系的构成

主要包括交通的数据输入、车辆信息、道路承载能力等的数据处理、数据存储、数据检索。其中交通数据输入可以是静态数据或者是动态数据。数据处理是针对实时数据的处理。数据主要存储的是每天采集的巨大数据量。为了从中获取有用的数据，则需要进行数据查询和检索，还要对数据进行规划。

5 大数据技术

5.1 数据采集与预处理

数据采集与预处理主要对交通领域全业态数据的立体采集与处理来支撑交通建设、管理、运行决策。采集的数据主要是车辆的实时通行数据，以实现实时监控、事先预测、及时预警，完成道路网流量的调配、控。这些数据获取可以采用安装的传感器、识别技术并完成对已接收数据的辨析、转换、抽取、清洗等操作。

5.2 数据存储与管理

大数据的存储与管理是把采集到的数据存放在存储器，并建立相应的数据库，如关系数据库、Not Only SQL即对关系型SQL数据系统的补充。利用数据库采用更简单的数据模型，并将元数据与应用数据分离，从而实现管理和调用。

5.3 数据分析与挖掘

数据分析及挖掘技术是大数据的核心技术。从海量数据中，提取隐含在其中，人们事先未知的，但又可能有用的信息和知识的过程。从复杂数据类型中挖掘，如文本、图片、视频、音频。该技术主要从数据中自动地抽取模式、关联、变化、异常和有意义的结构，可以预测模型、机器学习、建模仿真。从而实现一些高级别数据分析的需求。

5.4 数据展现与应用

数据技术能够将每天所产生的大量数据从中挖掘出有用的数据，应用到各个领域有需要的地方以提高运行效率。

6 结束语

大数据时代，能对智能交通信息资源进行优化配置，能够改善传统的交通问题。对非机动车主而言，利用大数据可以更好的规划线路，更好的了解交通状况，在一定程度上可以对问题预先提出解决方案，起到节省大量时间、额外的开支。同时对交管部门而言，能够在限的警力情况下合理配置人员资源和交通设备，主干道路在高峰期出现的问题能够合理利用大数据信息配置资源，在刑事案件侦查中也能发挥更重要的作用。

篇9

中图分类号：TP311 文献标识码：A 文章编号：1007-9416（2016）05-0000-00

1数据挖掘与数据挖掘技术的方法分析

“数据海量、信息缺乏”是相当多企业在数据大集中之后面临的尴尬问题，由此而诞生的数据挖掘技术其实就是用以处理这一尴尬问题的技术。数据挖掘实际上是相对比较新型的一门学科，在几十年的发展过程中，已经不可同日而语。其实数据挖掘技术的本质就是人工智能技术，而数据挖掘技术的利用相对应的就是指人工智能技术的开发与应用，也就是说数据挖掘其实是依赖技术的提升来实现数据的整体创新的技术，所以，整个数据挖掘技术实际上是非常具有信息价值的，它能够帮助决策者更快的得到重要信息并作出决策，提高效率和准确率，是非常重要的知识凭证，能够在一定程度上提高当下企业的整体竞争力。

数据挖掘技术的核心就是分析，通过分析方法的不同来解决不同类别的问题，以实现数据挖掘的潜在内容。简单来说就是对症下药以保证药到病除。

1.1聚类分析法

简单来说聚类分析就是通过将数据对象进行聚类分组，然后形成板块，将毫无逻辑的数据变成了有联系性的分组数据，然后从其中获取具有一定价值的数据内容进行进一步的利用。由于这种分析方法不能够较好的就数据类别、属性进行分类，所以聚类分析法一般都运用在心理学、统计学、数据识别等方面。

1.2人工神经网络

人工神经网络是通过大批量的数据进行分析，而这种数据分析方式本身是建立在一定的数据模型基础上的，因此通常都可以随时根据数据需求进行分类，所以人工神经网络也是当下数据挖掘技术中最常用的一种数据分析方式之一。

1.3关联性分析法

有时数据本身存在一定的隐蔽性使得很难通过普通的数据分析法进行数据挖掘和利用，这就需要通过关联性分析法完成对于数据信息的关联性识别，来帮助人力完成对于数据分辨的任务，这种数据分析方法通常是带着某种目的性进行的，因此比较适用于对数据精准度相对较高的信息管理工作。

1.4特征性数据分析法

网络数据随着信息时代的到来变成了数据爆炸式，其数据资源十分广泛并且得到了一定的普及，如何就网络爆炸式数据进行关于特性的分类就成为了当下数据整理分类的主要内容。在上文中提到的人工神经网络数据分析也属于这其中的一种，此外还有很多方法都是通过计算机来进行虚拟数据的分类，寻找数据之间存在的普遍规律性完成数据的特性分析从而进行进一步分类。

2大数据时代下数据挖掘技术的具体应用

数据挖掘技术的具体流程就是先通过对于海量数据的保存，然后就已有数据中进行分析、整理、选择、转换等，数据的准备工作是数据挖掘技术的前提，也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘，然后对数据进行评估，最后实现运用。因此，数据挖掘能够运用到很多方面。

2.1市场营销领域

市场营销其实就是数据挖掘技术最早运用的领域，通常根据客户的具体需求，进行客户分析，将不同的消费习惯和消费特点的客户进行简单的分类管理，以此来保证商品能够顺利销售，并提高个人销售的成功率和业绩。而销售的范围也从最初的超市购物扩展到了包括保险、银行、电信等各个方面。

2.2科学研究领域

科学研究与实验测试等都需要对数据进行关系分析为进一步的实验和总结失败做准备，而实验测试和科学研究产生的数据往往是巨大的，因此数据挖掘技术在科学研究领域也得以广泛运用。通常都是通过科学研究内容选择数据挖掘技术分析法进行计算来找到数据中存在的规律，实现数据挖掘的部分价值――科学知识的分析与运用。

2.3电信业领域

随着信息化时代的到来，电信产业也飞速发展起来，到目前为止，电信产业已经形成了一个巨大的网络信息载体，如何将其中信息数据进行整合就成为电信产业发展过程中的重要问题。而数据挖掘技术的运用则在一定程度上解决了这一问题，大量的数据通过数据挖掘技术得到了有效分类，并在这个过程中通过运算得出数据之间的关联性，运用规律进一步进行数据分类。

2.4教育教学领域

教学评价、教学资源、学生个人基本信息等组成了教育教学领域的数据库，利用数据挖掘技术来实现教学资源的优化配置，对学生的个人信息整理归档，从而保证教育教学领域中数据整理的良好运作。

3结语

综上所述，数据挖掘技术对于当今社会的发展有着不可替代的作用，而如何改善当下数据挖掘技术中存在的问题，进一步提高数据挖掘技术的质量和效率就成为了数据挖掘技术进步的方向。本文通过对于数据挖掘与数据挖掘技术的方法分析和大数据时代下数据挖掘技术的具体应用两个方面对于数据挖掘技术进行了简要的阐述和分析，相信在未来伴随着科学技术的进一步发展，数据挖掘技术也将更加强大。

参考文献

篇10

TM61；TP311.13

汽数字化、互联网化、大数据应用、人工智能，将对汽车业及相关的长长的产业链产生难以想象的巨大变化和产业革命。车联网是由车辆位置、速度等总线参数与周边系统信息互联而构成的巨大交互网络。车辆完成自身环境和状态信息的采集后，籍由互联网技术，将自身的各种信息传输汇聚到TSP后台。仅依赖数目有限的人力与传统的统计方式方法难以对这样海量、实时而价值密度低的车辆信息进行分析和处理，只有借助大数据技术，才能实现对海量数据的监控与挖掘。车联网项目已经为我们解决了海量数据的产生、收集与发送的重要问题，但我们还需要一个高效方便的系统解决回传到后台的数据解析、重构、存储与计算等系列问题。

一个兼有柔性化和模块化的大数据平台正是在这样的背景下被设计并搭建起来。基于该平台开发的新能源车数据管理系统经过近1年的测试与使用，已经证明能有效处理TSP后台的新能源车数据，并多次为专业部门提供相应的离线数据挖掘服务。目前正在开发的XH3项目试制试验车数据监控系统亦是在该平台上进行设计。

一、技术研发重点问题与解决方案

大数据技术平台研发与搭建攻克了以下技术难题：

1.大数据平台的技术框架设计

大部分情况下，企业开发的大型数据库系统层级的软件应用均委托供应商并购买制定的商业数据库软件进行。数据流动的不确定性、系统运维的技术壁垒、机密数据及模型的潜在泄露风险，使得运用商业数据库平台存在一定的信息安全与数据资产风险。

为此，我们借鉴IT领域大数据的应用研究成果，使用开源的Hadoop生态圈软件，根据专业部门的使用需求与数据利用习惯及场景，基于开源的Hadoop2.0生态圈软件，构筑了一个兼有柔性化和模块化的大数据平台，并由大数据团队自主源代码开发实现了所有数据接口。该平台可根据业务量的增长与变更灵活的切换分析工具和底层扩容。如下图1所示：

2.离线地图与车联网参数叠加技术

相比车联网回传数据里面若带有地理坐标，则可以与地图大数据技术结合起来，通过把性能参数或分析结果在地图底图上显示出来。实现车、人、物等物联网参数在地图层上的统一。要实现该功能，我们需要获得地图数据源、地理数据叠加工具和地图交互功能技术支持。

针对地图数据源问题，考虑到公司内部大部分员工无法直接使用外网，所有简易的地图源如百度、高德等地图api无法引入，我们只好使用爬虫技术，在内网部署了一台地图服务器，对客户的地图数据需求进行实时网络抓取。然而，由于地图源为自定义形式，需要把实际坐标参数按照国内地理坐标偏移标准进行一定技术上的处理。

解决地图源问题后我们引入了openlayers技术。它是一个用于开发WebGIS客户端的JavaScript包。OpenLayers 支持用户自定义地图作为背景图，与其他的参数图层进行叠加，并可以通过远程服务的方式，将地图数据加载到基于浏览器的OpenLayers 客户端中进行显示。除可以在浏览器中帮助开发者实现地图浏览的基本效果，比如放大（Zoom In）、缩小（Zoom Out）平移（Pan）等常用操作之外，还可以进行选取面、选取线、要素选择、图层叠加等不同的交互操作。如下图2所示：

二、大数据技术平台在新能源车数据挖掘上的应用

为更好的对新能源车回传数据的进行分析与挖掘，我们基于大数据技术平台开发了某企业的新能源车数据管理系统。根据应用场景，分为在线分析与离线分析两大功能。

1.在线分析功能应用

在线分析功能主要指系统上通过浏览器直接可以操作的热数据分析功能，新能源车数据管理系统包括信息查询、故障查询、轨迹回放、油耗统计、电池系统管理、广州市充电桩信息集成等六大模块。在线分析功能主要用于协助工程师对指定vin码车辆进行全方位的历史参数检索、特定参数功能统计，在故障诊断、系统监控、轨迹回顾上发挥重要作用。如图3所示：

2.离线数据分析功能应用

离线分析功能主要指用户以分析委托方式对感兴趣的分析方案，在指定数据范围内，按一定模型需求进行分析计算。截至目前，系统录入ag新能源车数量超过2500台，日均在线车辆超过1000台，存储数据量过1T。可以支持如用户习惯、零部件或整车工况提取等需要大样本的分析计算。已为新能源、NVH、试验等部门级或新能源车主提供过分析服务。乘用车、集团也多次利用该系统对新能源车的在线管控与跟踪。如图4所示：

三、主要科技创新点或改进点说明

在大数据技术平台搭建与某企业的新能源车大数据管理系统研发过程中，通过解决以下几个重要技术关口，完成了以下创新性工作：

（1）在系统开发中形成了一个全自主知识产权的大数据技术平台架构，实现数据在该平台中的透明流动。

（2）摸索了应用开源IT技术服务研发的方法，为后续同步引进先进IT技术打下坚实基础；

（3）为整车研发提供了一个便利的大数据工具，促进了大数据与整车研发相结合，为后续大数据项目在某企业的落地起到良好示范作用。

参考文献：

[1]诸彤宇；王家川；陈智宏；车联网技术初探[J]；公路交通科技（应用技术版）；2011年05[2]

[2]崔建明；BOA技术在车辆感知网络中的应用研究[J]；电子设计工程；2012年13期

篇11

中图分类号： TP311 文献标识码：A 文章编号1672-3791（2016）07（b）-0000-00

通过对电力系统动态性和实时性监测可以掌握大量的实时数据，它是电力系统动态运行的具体体现，但这也严重制约了电力系统的长期发展。现代电力运营监测员应充分利用电力运营监测平台，提升系统数据利用率，建立以供电部门基础数据处理，做好各项数据的衔接、处理，协同各部门协同问题，促进国家电网数据系统的高效运转。

1大数据时代相关内容概述

1.1大数据时代整体发展形势

从我国互联网技术的快速发展，各行业企业在大数据时代中均积累了大量的经营数据，它决定了企业的长期健康发展。为了更好的完成我国电力企业在大数据时代下的发展任务，本文笔者主要从以下四方面进行了大数据时展形势加以概括，进一步实现对电力企业数据共享，实现多种资源的优化整合：

一，促进电力各部门数据的优化整合与共享，提升企业各种资源的整体利用率；二，加快电力数据资源开放力度，扩大资源利用面；三，进行大数据基础设施的统筹规划，提升数据资源利用的合理性；四，构建科学的宏观调控数据体系，进一步实现电力运营监控的宏观调控。

1.2充分发挥大数据平台业务优势，进行管理短板定位

综合考量电力运营业务流程绩效指标，对业务流程整体执行效率进行综合评价；进行执行效率较低业务流程环节的准确定位，全面分析业务流程设计的科学性与合理性，并提出综合性流程改进建议；我们应当在整体业务流程绩效指标和详细数据的基础上，作出有关于业务流程制度、岗位绩效、职责及标准的整体改进意见和建议；提升各部门、不同业务之间的协同性，进行管理短板的准确定位。

1.3加强数据资源安全保障

数据资源的有效利用离不开数据体系的健全和完善，它是加强大数据环境网络技术研究和安全的关键，只有构建大数据时代下的电力运营监测安全评估体系，才能够使企业在大数据安全基础上，提升电力运营监测和预警工作质量，提升电力企业服务水平。

2做好大数据时代电力运营监测系统数据处理

2.1监测数据类型

电力运营监测数据类型主要分为基础型数据、电力企业运营数据以及电力企业管理数据几种，基础型数据是以电力企业生产数据为主，它包含了电压稳定性、发电量、电能质量等，业务部门和业务系统要确保基础数据的完整性和准确性；电力企业运营数据指的是电力企业在生产过程中所产生的数据，通过对上述数据进行分析、处理，它能够为公司整体运营决策指明方向。电力企业管理数据仅限于特定环境下的共享和使用，它主要指协同办公、ERP及一体化平台等方面数据，做好该方面数据分析、处理有利于推进各部门工作的开展。

2.2监测移动数据处理

针对运营监测信息支撑系统来讲，异动产生、处理、统计是异动管理的主要内容，异动类型又可分为数据质量异动、接口异动和数据质量异动三种，业务异动就是通过业务数据分析出生产运营情况，业务异动又可详细划分为指标异动、流程异动和明细数据异动；而数据质量异动就是要分析出接入数据的准确性、完整性和及时性，并作出相关异动数据信息分析、处理。接口异动就是因接口问题产生的异动情况。

3.大数据时代下电力运营监控数据应用

3.1电力生产环节中大数据的具体应用

由于电力系统管理项目众多，想要单纯依靠人力来完成数据的分析和整体难度极大，只有充分利用现代化信息技术手段和多种业务模型才能够不断提升输电线路可靠性和在线计算输送功率，更好的完成电力生产相关技术指标，促进电压质量管理工作的发展。常态化低电压监测有利于实现用户和低电压电台之间的协同合作，实现对低电压运行情况的跟踪治理。因此，电力系统相关部门应在大数据环境下，按期做好停复电监测和电压质量分析报告。

3.2大数据在电力系统营销中的具体应用

远程视频技术应用能够帮助电力运营工作人员进行相关业务的巡查，是运营监测中心针对高压电力作业实施的重要举措。通过远程视频技术的帮助能够极大的缩短营业窗口情况的巡视，进一步提升电力营业窗口整体服务质量，降低用户投诉率，提升电力用户的满意度。积极开展工业电量预测，更好的满足用电需求管理，促进用电系统稽查监控业务，更好的挖掘线损治理工作成效挖掘及典型案例提炼。

3.3大数据在电力检修中的具体应用

电力系统运营中心通过大数据运营监控平台的利用，充分实现了对电网设备运维、资产寿命周期以及资金收支等情况，并将其上报于上级在线监测分析系统中，保证电网系统的正常稳定运行，进一步完成电网设备运维绩效分析。我们应当综合利用大数据时代数据挖掘手段，做好电网生产运营过程中的操作票、工作票及缺陷记录等相关明细的分析和静态数据流程匹配工作，做好配电网络设备的日常巡视、检修处理等工作，促进各部门之间的协同，提升电网运维管理工作发展，尽早发现电网运营过程中存在的不足，全面掌握巡视、检修、缺陷发现等流程绩效分析，做好各环节定量诊断调度和检修，进一步实现电网系统的纵向贯通和横向协同，不断提升我国电网运维管理水平。据相关数据统计，我国大数据时代下电力运营监控线路消缺原因、消缺时长如下图1所示：

4结束语

经上述分析，我们可以了解到数据信息维护、处理对于电力自动化系统运用意义重大，只有充分利用大数据时代所带来的数据分析、处理、应用方面的优势，做好不同数据类型的准备工作，进行电力自动化系统数据准确性、快速性整合，采用科学合理的策略指导，促进大数据时代电力系统数据的长期可持续发展。

参考文献

大数据技术样例十一篇

篇1

篇2

篇3

篇4

篇5

篇6

篇7

篇8

篇9

篇10

篇11

大数据在审计中的应用

大数据时代产生的原因

大数据网络营销

大数据营销论文

大数据

大数据时代