数据分析方法样例十一篇

时间：2023-06-21 08:44:01

数据分析方法

数据分析方法例1

依存句法分析任务的输入是一个已完成分词的自然语言句子。形式化地，输入句子可以表示为：x=W0W2…Wi…Wn，其中，wi表示输入句子的第i个词；W0表示一个伪词，指向整个句子的核心词，也就是根节点（ROOT）。图1表示输入句子“刚满19岁的欧文现在效力利物浦队。”的依存树。

[JZ][HT5”H]图1 依存树示例[ST5”HZ][WT5”HZ][JZ]Fig.1[ST5”BZ] Example of a dependency parse

最一般地，一个依存句法树由多个依存弧构成，表示为：d={（h，m，l）：0≤h≤n，0

依存句法分析的目标是给定输入句子x，寻找分值（或概率）最大的依存树d*，具体公式为：

因此，依存句法分析存在四个基本问题：

（1）如何定义Score（x，d），即采用哪种方式将依存树的分值分解为一些子结构的分值。这是模型定义问题；

（2）采用哪些特征来表示每一部分子结构，即特征表示问题；

（3）如何获取特征的权重，即模型训练算法问题；

（4）给定模型参数，即已知特征的权重，如何搜索到分值最大的依存树。这是解码问题。

2依存句法分析的方法

数据驱动的依存句法分析方法主要有两种主流的方法：基于图（Graph-based）的分析方法和基于转移（Transition-based）的分析方法。这两种方法从不同的角度解决这个问题。CoNLL上的评测结果表明这两种方法各有所长，并且存在一定的互补性[2，6]。下面对各类方法展开细致分析。

2.1基于图的依存句法分析方法

基于图的依存分析模型将依存句法分析问题看成从完全有向图中寻找最大生成树的问题。一棵依存树的分值由构成依存树的几种子树的分值累加得到。模型通过基于动态规划的解码算法从所有可能的依存树中搜索出分值最高的依存树。相关的研究工作主要包括：

（1）模型定义。根据依存树分值中包含的子树的复杂度，基于图的依存分析模型可以简单区分为一阶、二阶和三阶模型。一阶模型中，依存树的分值由所有依存弧的分值累加得到，即依存弧之间相互独立，互不影响[7]。二阶模型中，依存树的分值中融入了相邻兄弟弧（Sibling）和祖孙弧（Parent-child-grandchild）的分值[8，9]。三阶模型中，进一步增加了祖孙兄弟弧（Grandparent-parent-sibling）等三条依存弧构成的子树信息[10]。

（2）特征表示。在上述模型定义的基础上，研究人员也提出了相应的一阶、二阶、三阶子树特征[7-10]。每种子树特征考虑句子中的词语和词性信息、依存弧的方向和距离信息等。随着高阶子树特征的使用，依存句法分析模型的准确率也有较大幅度的提高。

（3）训练算法。基于图的依存分析方法通常采用在线训练算法（Online Training），如平均感知器算法（Averaged Perceptron）[11]、被动进取算法（Passive-Aggressive）[12]和Margin Infused Relaxed算法（MIRA） [13]。在线学习算法以迭代的方式训练特征的权重。一次迭代中遍历整个训练数据集合，每次根据一个训练实例的分析结果对当前的权重向量进行调整。

（4）解码算法。一阶模型对应的解码算法为Eisner算法[14]。Eisner算法的本质是动态规划，不断合并相邻子串的分析结果，直到得到整个句子的结果，其时间复杂度为O（n3）。进而，McDonald和Pereira （2006）对Eisner算法进行扩展，增加了表示相邻兄弟节点的数据类型，时间复杂度仍为O（n3）。Carreras （2007）同样对Eisner算法进行扩展，得到面向二阶模型的基于动态规划的解码算法，时间复杂度为O（n4）。Koo和Collins （2010）提出了面向三阶模型的解码算法，时间复杂度为O（n4）。一些研究者提出采用基于柱搜索的解码算法，允许模型方便地融入更高阶的解码算法，同时保证较低的时间复杂度[15，16]。

2.2基于转移的依存句法分析方法

基于转移的依存分析模型将依存树的搜索过程建模为一个动作序列，将依存分析问题转化为寻找最优动作序列的问题。模型通过贪心搜索或者柱搜索的方式找到近似最优的依存树。其优点在于可以充分利用已形成的子树信息，从而形成丰富的特征，以指导模型决策下一个动作。相关的研究工作主要包括：

（1）模型定义。基于转移的依存句法分析方法提出早期，研究者们使用局部分类器（如最大熵分类器）决定下一个动作，选择概率最大的动作[17，18]。这样，一个依存树的概率由其对应的动作序列中每一个动作的概率累乘得到。近年来，研究者们采用线性全局模型来决定下一个动作，一个依存树的分值为对应动作序列中每一个动作的分值的累加[19-21]。

（2）特征表示。基于转移的依存句法分析方法的优势在于可以充分使用已构成的子树信息。Zhang和Nivre （2011）在前人工作的基础上，提出了丰富的特征集合，如三阶子树特征，词的配价信息等[21]。

（3）训练算法。早期，研究者们在训练语料上训练出一个局部分类器，在解码过程中重复使用，决定下一个动作。通常采用的分类器有基于记忆的分类器、支持向量机等。近年研究发现采用全局线性模型可以提高句法分析的准确率，通常采用平均感知器在线训练算法。

（4）解码算法。其任务是找到一个概率或分值最大的动作序列。早期采用贪心解码算法，即每一步都根据当前状态，选择并执行概率最大的动作，进入到下一个状态。如此反复直至达到接收状态，形成一棵合法的依存树[17，18]。进而，研究者们提出使用柱搜索的解码方式扩大搜索空间，即同时保留多个分值最高的状态，直到搜索结束时选择最优的动作路径[22，19]。Huang和Sagae （2010）提出在柱搜索中加入动态规划，通过合并等价状态进一步扩大搜索空间[20]。随着搜索空间的增大，依存句法分析的准确率有显著提高。

2.3模型融合的方法

基于图的方法和基于转移的方法从不同的角度解决问题，各有优势。基于图的模型进行全局搜索但只能利用有限的子树特征，而基于转移的模型搜索空间有限但可以充分利用已构成的子树信息构成丰富的特征。McDonald和Nivre （2011）通过详细比较发现，这两种方法存在不同的错误分布。因此，研究者们使用不同的方法融合两种模型的优势，常见的方法有：stacked learning [2，23]；对多个模型的结果加权后重新解码[24，25]；从训练语料中多次抽样训练多个模型（Bagging）[26，27]。

2.4词性标注和依存句法分析联合模型

依存句法分析模型中，词性是非常重要且有效的特征。如果只使用词语特征，会导致严重的数据稀疏问题。自然语言处理中，词性标注和依存句法分析这两个问题通常被当成两个独立的任务，以级联的方式实现。即对于一个输入句子，假定其分词结果已知，先对句子进行词性标注，然后在词性标注结果的基础上进行依存句法分析。这种级联的方法会导致错误蔓延。也就是说，词性标注的错误会严重影响依存分析的准确率。由于汉语缺乏词形变化信息（如英语中的词后缀变化如-ing，-ed，-es，-ly等），因此汉语的词性标注比其他语言如英语更具挑战性。近年来，研究者们通过建立词性标注和依存句法分析联合模型，在同一个模型中解决这两个紧密相关的任务，允许词性信息和句法结构互相影响和帮助，取得了不错的效果。一方面，联合模型中，句法信息可以用来指导词性标注，从而帮助解决一部分需要句法结构才能够消解的词性歧义。另一方面，更准确的词性标注，也可以反过来帮助依存分析。Li等通过扩展基于图的依存句法分析模型，首次提出汉语词性标注和依存句法分析联合模型[28]，并且提出了适用于联合模型的训练算法[29]，显著提高了词性标注和依存句法分析的准确率。进而，一些研究者们提出基于转移的词性标注和依存句法分析联合模型[30，31]。Ma等（2012）尝试了基于Easy-first的汉语词性标注和依存句法分析联合模型[32]。

2.5基于多树库融合的方法

对于统计的数据驱动的分析模型而言，标注数据的规模很大程度上影响着分析结果的准确率。依存句法分析是一种结构化分类问题，比二元分类和序列标注问题更具挑战性，因此依存句法分析更容易受到数据稀疏问题的影响，树库规模对依存句法分析的准确率影响很大。然而，标注树库是一件艰巨的任务，通常需要耗费很大的人力和物力。目前的研究结果表明在一个树库上训练出的句法分析的模型似乎很难进一步提高句法分析的准确率。然而，汉语存在多个树库。这些树库由不同的组织或机构标注，遵循不同的标注规范，面向不同的应用。尽管各个树库遵循不同的标注规范，但却都是根据人们对汉语语法的理解而标注，因此包含很多共性的标注结构。同时，不一致的标注结果应该也是有规律可循的。所以，一些研究者们尝试同时利用多个树库，帮助句法分析的准确率。李正华等（2008）曾尝试统计和规则相结合的方法，将短语结构的源树库CTB转化为符合CDT标注规范的依存结构，然后将转化后的树库和CDT合并，提高训练数据的规模，以提高依存句法分析准确率[33]。Niu等（2009）提出一种基于统计的树库转化方法，将依存结构的CDT树库转化为满足CTB标注规范的短语结构树库，进而使用语料加权的方式增大训练树库的规模，提高了短语结构句法分析的性能[34]。Li等（2012）提出一种基于准同步文法的多树库融合方法，不是直接将转化后的树库作为额外的训练数据，而是使用准同步文法特征增强依存句法分析模型，从而柔和地学习标注规范中规律性的不一致，提高依存句法分析的准确率[35]。

3依存句法分析面临的挑战

自从2006年开始，CoNLL国际评测一直关注依存句法分析，不但提供了多语言、高质量的树库，并通过对各种方法的比较分析，让研究者们对依存分析问题的理解更加清晰，极大地促进了依存句法分析的发展。依存分析已经成为自然语言处理的一个热点问题，方法也越来越成熟，并且在许多领域得到了应用。然而，目前依存句法分析还存在很多挑战，这些挑战也可能是未来依存分析发展的趋势。具体分析如下：

（1）提高依存分析准确率。目前主流的两种依存分析方法都存在一定的缺陷。基于图的方法很难融入全局特征。而基于转移的方法虽然原理上可以利用丰富的特征，但是实际使用的特征还是属于局部特征，另外也还存在错误级联的问题（柱搜索只能缓解这个问题）。融合不同依存分析模型的方法可以提高分析性能，但是提高幅度比较有限。研究可知，只有从新的角度理解这个问题本身，提出新的建模方法，或者应用新的机器学习方法，才有望大幅度提高依存分析性能。一些学者提出的利用未标注数据帮助依存分析模型是一个很好的思路，值得深入研究。

（2）提高依存分析效率。基于图的依存分析方法融入高阶特征可以提高性能，但是效率很低，无法适应实际应用的需求。在不明显降低分析性能的前提下，如何提高依存分析效率也是一个很有实际价值的问题。

（3）领域移植问题。研究发现，当训练数据领域与测试数据领域不相同时，即使差距不大，也会导致句法分析性能下降很大。以英语为例，从华尔街日报树库移植到Brown语料时，句法分析性能下降近8%。目前依存树库所覆盖的领域、规模都很有限，而标注树库的代价很大。因此解决领域移植问题，对于依存分析的实际应用至关重要。

数据分析方法例2

一、前言

数据挖掘技术是人们长期对数据库技术进行研究和开发的成果。数据挖掘（DM，DataMining）的概念产生于20世纪80年代末，在90年代获得了长足的发展。目前，数据挖掘技术已经应用到市场分析、政府管理、医疗卫生、科学探索、金融、财经领域中并取得了一定的实效。

财务数据挖掘是一种新的财务信息处理技术，其主要特点是能对会计数据库及其它业务数据库中的大量数据进行抽取、转换、分析及其他模型化处理，从中提取辅助决策的关键性数据。在企业的财务状况分析中应用数据挖掘技术，报表使用者可以节省大量的时间和精力去关注更有用的信息，帮助报表使用者找出隐藏的、未知的、但对了解企业经营状况十分有用的信息。

二、应用于财务分析的数据挖掘方法

现有研究中，应用于财务分析的数据挖掘方法主要有以下几种：

（一）神经网络

神经网络主要应用于财务危机预测和财务状况评价两方面。

1.财务危机预测

目前神经网络在财务危机预测的应用中主要集中在模型的建立和优化上。在模型建立方面，通过选取一定的样本包括ST公司和非ST公司，选取其中一部分作为训练集，其余的作为测试集。先对训练集进行归一化处理，再运用神经网络算法建立模型，为了验证模型的预测准确率，用测试集检验模型的预测结果。

在模型优化方面，一方面不断改进指标的选取，通过一定的统计方法客观选取指标，降低主观性，提高模型的预测准确性；另一方面不断改进神经网络算法，把不同的技术引用到模型中从而不断优化模型。

2.财务状况评价

神经网络运用到企业财务状况评价时，首先都是建立系统的评价指标体系，然后在神经网络结构和算法研究的基础上，通过样本对网络进行训练，最后得到稳定的结构和权值，从而建立模型。

（二）模糊集理论

目前有关模糊集理论在财务分析的应用主要集中在模糊综合评价法在企业财务状况评价的应用。在运用模糊综合评价法建立评价模型时，首先要确定因素集，因素集为各种指标体系的集合；其次要确定权重集，权重的确定主要有市场调查法和德尔菲法；再次要建立等级评价标准，评价等级集是评价者对评价对象可能做出的各种评价结果所组成的集合；最后建立模糊评价矩阵，经过运算得到评价结果。

在运用模糊集理论建立评价模型时，一方面需要根据企业的具体情况建立因素集和权重系数矩阵，具有一定的客观性；另一方面评价集以隶属度的方式表示，使其评价结果留有余地。

（三）决策树

决策树在财务方面主要应用于财务预警方面。利用决策树进行数据挖掘建模，首先需要进行变量的指定，一般把上市公司是否“特别处理”为目标变量，已选定的财务指标为输入变量；然后运用软件建立模型；最后要根据检验样本进行检验。

决策树作为一种数据挖掘技术运用到财务预警中具有较好的预测效果。目前，利用决策树进行财务预警处于起步阶段，如何更好的应用决策树有很大的研究空间。但是决策树的输出变量只能有两个，只能简单的预测评价企业财务状况好或者不好。

（四）遗传算法

现有的研究一般把遗传算法和神经网络结合在一起，通过遗传算法的全局寻优能力，建立财务困境预测的遗传神经网络模型，该模型利用遗传算法对输入变量进行了优化，比单纯的神经网络模型具有更好的预测能力。

遗传算法主要适用于数值优化问题，在财务分析中主要运用于具体的问题中，例如内涵报酬率的分析和证券组合选择分析，它作为一种解决数值优化问题的算法，在数值优化问题中有广阔的应用前景。

（五）粗糙集

粗糙集理论目前主要运用在财务危机预测中。首先是财务指标的筛选过程，通过计算条件属性和决策属性的依赖度，进而确定各条件属性相对于决策属性的重要程度，并根据重要程度对其进行条件属性约简；之后，确定筛选后进入预测模型的财务指标的权重，对财务指标重要程度做归一化处理后得到权重；最后，得到基于粗糙集理论的综合预测模型，应用预测模型计算对象的综合预测值。通过实证分析可以看出与传统判别模型进行比较，基于粗糙集理论的模型预测效果更好。

（六）聚类分析

聚类分析主要是对事先不知道类别的数据进行分类，目前对于聚类分析的研究集中到模糊聚类分析。

在对企业财务状况进行评价时，大多是运用模糊聚类分析方法，选取一定的财务状况评价指标，建立模糊聚类分析模型，进行实证分析，形成模糊聚类图，再将具有财务状况相似性的行业进行归类。

三、数据挖掘方法评析

从现有基于数据挖掘的财务分析方法可以看出，它们都是以财务报表为基础，因而存在以下问题：

（一）数据采集欠缺真实和滞后

企业为标榜业绩，常常粉饰财务报告、虚增利润，使财务报告中的数据丧失了真实性，在此基础上进行的财务分析是不可靠的。此外，财务报告一般是半年报和年报，半年报在半年度结束之后两个月内报出，年报在年度结束后四个月内报出，缺乏及时的信息跟踪和反馈控制，存在明显的滞后性，在这个基础上进行财务状况分析具有一定的局限性，从而影响分析的结果。

（二）数据挖掘范围广泛性不足且分析方法片面

现有的财务状况分析在根据财务信息对企业财务状况进行定量的分析预测时缺乏非财务信息的辅助分析，使信息涵盖范围不够广泛。而且，现有的财务状况分析方法都不能很好的把定性分析与定量分析相结合。

四、数据挖掘在财务分析应用的改进

（一）在数据采集方面

不再是以财务报表的资料为数据源，而是从企业中采集原始数据，提高数据的可信度。当然，会计信息数据也可以有多种表现形式，可以是传统的关系数据库、文本形式的数据，也可以是面向对象的数据库以及Web数据库等。另外，利用XBRL和WEB挖掘等技术加入了非财务信息和外部信息。这样，财务分析所需要的财务信息、非财务信息和外部信息可以分别从会计信息系统、管理信息系统和Internet采集。

实时数据库的建立使实时数据挖掘成为可能，为企业财务状况分析的准确性提供了技术支持。实时数据库是数据库系统发展的一个分支，它适用于处理不断更新的快速变化的数据及具有时间限制的事务。XBRL开始广泛的应用，将会促进实时数据采集问题的实现。

（二）在数据挖掘过程中

应综合运用数据挖掘的各种技术，对净化和转换过后的数据集进行挖掘。将非财务信息纳入考察范围，以扩充信息的涵盖范围。

实际运用中，定性分析和定量分析方法并不能截然分开。量的差异在一定程度上反映了质的不同，由于量的分析结果比较简洁、抽象，通常还要借助于定性的描述，说明其具体的含义；定性分析又是定量分析的基础，定量分析的量必须是同质的。在需要时，有些定性信息也要进行二次量化，作为定量信息来处理，以提高其精确性。

【参考文献】

［1］康晓东.基于数据仓库的数据挖掘技术［M］.北京：机械工业出版社，2004：131-148.

［2］李建锋.数据挖掘在公司财务分析中的应用［J］.计算机工程与应用，2005（2）.

［3］姚靠华，蒋艳辉.基于决策树的财务预警［J］.系统工程，2005（10）：102-106.

数据分析方法例3

【Abstract】 With the development of information technology， data sharing and interactive between the departments and grades increase rapidly， and the basic data flow diagram is incapable of mining and expressing the complicate data requirement of networked information system. An effective data requirement analysis method based on swimlane data flow diagram is presented in this article， which takes the advantages of swimlane flowcharts and data flow diagram.

【Keywords】 swimlane; data flow diagram; requirement analysis

管理信息系统建设的基础在于政府、军队、企事业单位的信息资源规划。信息资源规划的核心任务在于各部门、各层级数据需求的获取与分析，其主要方法来自于业务流程分析和数据流分析[1]。然而信息技术的飞跃发展，使得部门间、层级间的数据共享与交互呈现指数级的增长[2]，传统的基本形式的数据流图也不能充分的挖掘和表达复杂的网络化的信息系统数据需求，本文结合泳道流程图[3]和数据流图两者的优势，提出了一种基于泳道数据流图的数据需求分析方法。

1 基本形式的数据流图

数据流图（Data Flow Diagram），是从数据传递和加工的角度，以图形的方式刻画数据在系统中流动和处理的过程。

数据流图有以下几种主要元素：（1）数据流。数据流是数据在系统内传播的路径，由一组成分固定的数据组成。如订票单由旅客姓名、年龄、单位、身份证号、日期、目的地等数据项组成。数据流是流动中的数据，具有流向，除了与数据存储之间的数据流不用命名外，数据流应该用名词或名词短语命名。（2）数据源（终点）。代表系统之外的实体，可以是人、物或其他软件系统。（3）对数据的加工（处理）。加工是对数据进行处理的单元，它接收一定的数据输入，对其进行处理，并产生输出。（4）数据存储。表示信息的静态存储，可以代表文件、文件的一部分、数据库的元素等。

这里给出一个物资采购管理流程的数据流图的实例，如图1所示。

这个数据流图给出了数据源（评估人员），数据流，数据加工（如收货管理、采购统计等）和数据存储（如采购申请信息，供应商资料等），给出了数据输入与输出的流向，但是数据源或终点不够明确，数据产生和消费的职能部门、岗位以及时序等都无法清晰明了的展现出来，各部门，各层级间的独立信息和共享信息不能一一分明。为解决这些问题，可以采用泳道数据流图。

2 泳道数据流图

泳道数据流图是根据业务实际需求，在基本数据流图的基础上，结合泳道流程图具有的跨职能部门业务处理流程能力和数据流图刻画数据单元输入输出及其处理过程的能力，形成一种图形化分析跨职能部门业务数据需求的方法。

泳道数据流图包括以下几种基本元素：（1）数据流、数据存储、数据处理同基本形式的数据流图;（2）泳道。职能部门是业务处理的核心单位（业务流程主体），也是数据源或终点，在泳道数据流图中表现为一个泳道，是数据产生、处理或存储的容器或者空间。在这个泳道空间中，可以包含数据流、数据存储和数据处理。泳道空间所包括的数据处理，意味着由该职能部门完成该项数据处理，该职能部门是流入该项数据处理的数据流（含特定数据项）的消费者;其所包括的数据存储，意味着该项数据存储由该职能部门产生并维持其序列化，该职能部门是数据存储中所含数据项的生产者;在泳道数据流图中，泳道从左向右水平排列，也可从上到下垂直排列。（3）阶段。阶段是一个容纳业务流程元素或数据元素的时段，它是业务流程在时间上的意义分割，展现业务流程执行或控制的时序;同时也是业务数据产生、处理和存储的时序。在泳道数据流图中，阶段按时间先后可以从上到下排列，也可以按时间先后从左到右排列。（4）起始点。数据的输入输出以及处理追随着业务活动的过程，其起始点常常起于某项业务活动的开始。（5）终止点。数据处理的终点常常是数据输出，例如数据库存储、表单等。但业务活动常常有比较明晰的终止点。为简明表达业务数据需求，泳道流程图纳入终止点。（6）分岔点。数据处理过程常常因为业务逻辑的需要输出不同的数据项，从而产生分岔点。（7）数据项。数据项为数据流中的数据组分，具有明确的定义，包括名称、类型、长度、精度、取值范围、能否为空、是否主键等信息。

泳道数据流图中，以各个职能部门形成的泳道横向水平（或纵向垂直）排列，各个岗位纵向垂直（或横向水平）排列，由业务起始点开始，结束于终止点。分别明确各职能部门，各阶段的数据流、数据项、数据处理过程和数据存储方式和内容。

3 泳道数据流图的应用实例

以前文的物资采购管理流程为例，按照上述泳道数据流图绘制步骤，物资采购管理流程所涉及的泳道数据流图绘制如图2所示。

图中，职能部门分为申购部门，计划部门，评估部门、采购实施部门和财会部门。流程分为需求请领与评估、计划拟制、采购实施和财会审计四个阶段。流程起始于需求请领与评估阶段，由申购部门发起物资采购申请，该部门产生“采购申请信息”，处理“请购管理”过程，并将填写完备的“采购申请信息”发送到计划部门的采购计划拟制人员。计划部门接收“采购申请信息”、“样品评估信息”、“供应商评估信息”，从而“制定采购计划”，完成“采购单管理”，生成“采购单信息”。这个过程中，计划部门的采购计划拟制人员是“采购申请信息”、“样品评估信息”、“供应商评估信息”的消费者，又是“采购单信息”的生产者。其中“样品评估信息”由评估部门的产品评估人员生产，而“供应商评估信息”则由评估部门的供应商评估人员生产。后续的数据流信息则由采购实施部门和财会部门生成、处理并完成。

4 结语

泳道数据流图不仅拥有基本形式数据流图的优势，而且还可以清晰地分析数据项的生产者和消费者，分析数据流在跨职能部门间的流转过程，并给出数据处理和数据存储的执行者，从而更加充分的挖掘和表达信息系统的数据需求，是一种有效的信息系统数据需求分析方法和途径。

参考文献：

数据分析方法例4

1.测试方案的制定

数字电视测试方案制定时，第一步是确定选择多少个地点进行测试，以及它们的特定位置。被选定的地点在数学统计上必须是相关的，通常应超过100个(最好超过200个)。在给定方向上最远的测试地点距离通常由F(50,90)曲线确定，FCC过去使用的确定NTSC频率规划的方法也被用于DTV的频道分配。发射机的ERP和HAAT首先影响最远距离的测试地点的确定。另外, 如果在数字电视发射机附近有模拟NTSC发射机且频率接近，则测试计划还应包括测量模拟信号，比较模拟电视的数值和数字电视的数值。

2.数字电视场强测试数据分析方法

标准的归一化的数据采集方法对于结果的分析来说是非常重要的。尽管对一个广播公司而言，特定的地理环境可能会有一些唯一的与其它地方不同的测试结果，但是，测试中的一些关键参数，是非常重要同时又是必须测试的。

例如，有不同的服务区域预测技术要考虑。旧的基于统计测量的方法所得到的F(50,50)和F(50,10)曲线，从50年代起在约50年的时间内，被用作预测场强数值(dBmV/m)，这两条预测曲线，在FCC规则的73.699节中出现(参考资料5)，给出了预测的50%的地点在50%或10%的时间概率下的最小场强电平，通常使用的F(50,90)曲线是从F(50,50)和F(50,10)采用下式计算得到：

F(50,90) = F(50,50)-[F(50,10)- F(50,50)]

就是说，F(50,90)场强电平值高于F(50,50)值，F(50,10)场强值低于F(50,50)值。这些FCC的标准曲线是基于发射机的ERP和HAAT、接收装置的天线高度、发射机与测试地点之间距离而确定。通过在每一个测试地点应用这些曲线，场强电平可以被预计并且与测量的场强电平相比较。同样，可以计算出超过最小场强电平的被测地点的百分比，按照统计规律，这些地点能基于F(50,90) 曲线成功地接收数字电视信号。可以直接比较在最小场强电平以上的测量地点数量和成功地接收数字电视信号的地点数量。

另一种场强电平预测技术是Longley-Rice算法，在FCC的工程技术部门(OET)公告69号(参考资料7)中有详细的描述，不仅用到发射机的ERP，HAAT和接收装置天线高度，而且涉及到在发射机和接收装置之间的地面的类型。应用这种算法可以预计每个测试地点的场强电平，这些预测值也应与测量的数值进行比较。对于F(50,90)曲线，基于Longley-Rice算法，可以计算出最小场强电平以上的地点的百分比，以给出能成功地收到数字电视信号的地点的百分数。这能直接与成功地接收数字电视的地点的测量数字进行比较。

两种场强电平预测方法不仅能评估数字电视的场强分布曲线和效果，也能评估成功地进行数字电视服务的区域和效果。随着更多的数字电视发射机投入使用，进行覆盖状况的试验和分析，将会有更好的统计曲线来预测数字电视的覆盖曲线。实际上，原有的F(50，50)曲线与实际的对于数字电视覆盖的要求是不同的，数字电视要保证可靠接收，要求是F(90，90)。

还有几个其它的参数被用于数字电视场强测试评估：服务有效性、系统性能指标、造成误码的极限电平、场强电平、C/N门限值、接收机灵敏度、地形轮廓及高度变化的统计等。并且每个参数在数字电视的系统构成上提供宝贵的信息，并且被分别描述。

服务有效性是指所有的可成功地接收数字电视信号的测试地点的百分比，包括那些场强电平较小但又可以成功解码的所有的地点，对广播公司来说是重要的，在测试的期间给定发射机ERP和HAAT，它是表示覆盖区域的大小和服务有效性的主要参数。

另一方面，作为数字电视场强的测试手段，系统性能指标是其效果如何的一种表示方法。即，接收S/N在15dB(误差极限)以上的站点的百分比。这种统计分析所确定的距离，对于那些低于接收门限的数字电视信号测试点(如严重的地形遮挡或天线增益过小)无效。在场强测试期间，在非白噪声干扰情况下(如多径反射、脉冲干扰或模拟电视与数字电视同频干扰)，系统性能指标可从本质上得到很好的反映。

对于数字电视的接收而言，接收机的灵敏度同样影响到接收的效果，实际上是覆盖范围的大小。接收机的最小接收门限值越低，越容易收到数字电视节目。反过来，在许多高于接收门限电平的地点并非一定能很好地接收，还受到载噪比门限的限制，只有载噪比门限超过所要求的数值，才能可靠地对数字电视信号进行解码。可靠接收取决于两个条件，一是接收的场强大于接收机的最小输入门限电平，二是接收信号的载噪比大于可靠解码所要求的数值。

数据分析方法例5

其实我想告诉他们的是，数据挖掘分析领域最重要的能力是：能够将数据转化为非专业人士也能够清楚理解的有意义的见解。

使用一些工具来帮助大家更好的理解数据分析在挖掘数据价值方面的重要性，是十分有必要的。其中的一个工具，叫做四维分析法。

简单地来说，分析可被划分为4种关键方法。

下面会详细介绍这四种方法。

1.描述型分析：发生了什么?

这是最常见的分析方法。在业务中，这种方法向数据分析师提供了重要指标和业务的衡量方法。

例如，每月的营收和损失账单。数据分析师可以通过这些账单，获取大量的客户数据。了解客户的地理信息，就是“描述型分析”方法之一。利用可视化工具，能够有效的增强描述型分析所提供的信息。

2.诊断型分析：为什么会发生?

描述性数据分析的下一步就是诊断型数据分析。通过评估描述型数据，诊断分析工具能够让数据分析师深入地分析数据，钻取到数据的核心。

良好设计的BI dashboard能够整合：按照时间序列进行数据读入、特征过滤和钻取数据等功能，以便更好的分析数据。

3.预测型分析：可能发生什么?

预测型分析主要用于进行预测。事件未来发生的可能性、预测一个可量化的值，或者是预估事情发生的时间点，这些都可以通过预测模型来完成。

预测模型通常会使用各种可变数据来实现预测。数据成员的多样化与预测结果密切相关。

在充满不确定性的环境下，预测能够帮助做出更好的决定。预测模型也是很多领域正在使用的重要方法。

4.指令型分析：需要做什么?

数据价值和复杂度分析的下一步就是指令型分析。指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析，来帮助用户决定应该采取什么措施。通常情况下，指令型分析不是单独使用的方法，而是前面的所有方法都完成之后，最后需要完成的分析方法。

数据分析方法例6

统计应用作为数学的重要领域，在大多数情况下，数据被收集并且通过一定方法在系统中存储，重要策略被记录，并应用于其他领域。随着数据恢复方法和统计分析方法的逐步集成，大数据的统计数据分析方法在财务管理中变得越来越重要。面对当今全球化的压力和经济市场的激烈竞争，使用财务管理的统计整合是提高有效管理效率，优化资源分配和科学行为的有效步骤。通过市场经济的发展和经济水平的不断提高，数据集成和财务管理水平运用了大数据的统计分析。在建立大规模数据的经济增长政策时，技术在宏观经济研究中起着重要作用。大数据统计分析的作用正在增加，其在管理中的用途正在进一步扩大。显然，加强对经济发展大数据统计分析技术的使用对促进经济增长和提高管理效率非常重要。

一、大数据统计分析方法在经济管理领域运用的意义

为响应市场环境和公司治理内容的变化而促进使用公司治理统计数据的需求主要体现在两个方面：

（一）宏观经济方面发展有若干规律。为了寻找有关经济发展的规律，强大的数据分析技术在宏观经济学中的应用非常重要。一方面，大数据分析统计数据用于从宏观经济发展行业收集数据，对相关行业信息进行实证分析，并调查行业发展和行业问题。使用SPS，Stata和其他数据分析软件，中国拥有最重要的发展法；同时，发现工业发展规律，规范工业发展，开辟新的经济发展方式也很重要[1]。

（二）企业经营管理方面1.提升企业竞争力的必然要求当前，业务发展的竞争越来越激烈。竞争压力主要归因于国内市场经济带来的经济化以及国内市场竞争激烈加入的外国公司的影响。公司必须面对激烈的市场竞争。大众市场信息的统计分析将调整生产和管理策略，并为业务发展的战略调整作出有效的决策。2.提升企业管理水平的必然要求一方面，诸如运营管理、财务管理、风险管理和企业资源管理等相关任务变得越来越复杂。需要统计分析方法来对丰富的业务操作信息进行分类和汇总，为业务管理决策提供有效的信息。同时，企业需要不断满足产品和服务生产方向的政治要求。由于需要与相关部门合作，例如运营财务管理、规避财务风险，因此需要建立相关部门的统计数据，以提高决策效率[2]。

二、大数据统计分析方法在经济管理领域的运用

利用大数据的统计数据分析技术研究宏观经济发展政策，对促进行业发展至关重要。另一方面，如何获取有关复杂数据管理的重要信息，在业务流程和管理方面为公司制定有效的决策是重中之重。关键在于掌握财务管理的大数据分析方法，并使用大数据统计分析技术来分类和提供业务流程管理，隐藏的规则以及来自异常数据点的大量信息。为了应对突发情况，管理人员需要制订正确的决策计划。本文主要讨论宏观经济应用管理领域的统计数据分析方法，以及业务管理、财务管理、风险管理和管理的六个方面。如：

（一）宏观经济方面关于宏观经济产业的运作和发展有若干规律。为了找到宏观经济发展方法，统计分析技术对于稳定经济增长和调查潜在的经济危机很重要。当前，不仅学者，业务经理也开始了解计算机技术的使用，并开始通过统计分析来发现工业发展中的若干问题，学习工业发展的原理。为了找出答案，我们选择了相关的影响因素并采取了相应的行动，采取措施提高工业发展效率。

（二）企业运营管理方面通常，在日常工作程序和工作相关领域中存在某些特定的业务管理和操作规则。另一方面，通过将统计信息应用于业务的运营和管理，公司可以通过分析大数据的统计信息来获得规律。这将帮助公司节省一些资源，避免重复的任务并节省公司的业务资源。如果该政策是从科学的统计评估阶段得出的，则情况与正常情况不同的企业高管应仔细考虑潜在的风险。

（三）企业营销管理方面企业需要建立大型数据管理系统来收集有关企业提供的产品或服务的市场交易信息。因此，消费者的热点必须与受管理的信息系统对齐，以使其隐藏在协同交易信息中。确定消费者对需求的偏好并确定消费者需求。公司的主要产品和服务根据消费者的喜好运作，可以满足消费者的需求，替代市场上的非反应性产品和服务。同时，开发新产品和服务企业领导者可以提供有效的决策信息，并为消费者创建新的热点[3]。

（四）企业财务管理方面应用管理统计信息。它通过审查有关生产过程和运营的统计数据（尤其是财务数据），进行定性和定量分析，帮助评估相关活动，例如商业投资。财务管理是开展业务必不可少的部分，这对于减轻公司的财务风险和提高公司资源分配的效率至关重要。通过统计分析对商业经济数据进行分类和分析，可以为高管、投资者和其他相关利益相关者提供有效的决策信息。

（五）企业人力资源管理方面将统计应用于公司的人力资源管理，并使用统计分析技术结合公司业务管理部门的特征，选择适当的方法来提高效率。人力资源管理很重要，人才基本上是企业的无形资产，在部门保留相关的人力资源是业务发展的关键。回归站评估法用于预测企业发展的人力资源需求，动态分析法用于根据状态预测人力资源的变化。将这两个方面结合起来可以大大提高业务资源的效率。

（六）企业风险管理方面使用统计分析技术对业务流程中的大量业务信息进行分类和分析，发现隐藏的规则和数据差异。重要的是，业务主管需要进行预测，做出正确的决定，解决事件并发现潜在危险。意思是如果统计数据分析有些奇怪，则需要找出业务流程中具有的某些规则，因此业务主管需要寻找更多异常条件，尤其是财务管理，要注意关注状态的变化。另一方面，对公司财务信息进行统计分析是公司规避财务风险的有效手段之一。

三、完善大数据统计分析方法在经济

管理领域运用的措施在本文中，我们将了解如何从六个方面分析大数据的统计数据：宏观经济活动、业务管理、风险管理、财务管理、资源管理和财务管理人员。这被认为是财务管理数据大规模统计方法的一种改进。必须在三个方面进行现场应用：

（一）社会宏观经济层面尽管存在宏观经济法则，但根据过去的经验，由于缺乏安全可靠的数据和分析方法，宏观经济法则的分析则一直被认为是伪科学。大数据分析技术提供了探索宏观经济法则的机会，大数据技术使用数据创建系统，而使用许多信息技术的科学分析是宏观经济法研究中的重要一步。特别是，某些行业使用行业信息和对经济趋势预测的全面分析来帮助识别和克服复杂的工业发展挑战，可以提高宏观经济发展效率。

（二）企业经营管理层面在公司上载和数据受限的情况下，企业很难优化管理功能以提高性能[2]。由于业务经理的管理理念和管理水平受到限制，因此很难断定业务开发操作和管理流程是否存在问题。统计分析技术可用于计算和评估每个关键决策或业务战略适合性的有效性。如果由于大数据分析技术而导致预期的数据销量存在矛盾，该公司可以调整其总体战略并进行业务变更以优化管理理念。

（三）行业与行业之间存在着一定的鸿沟无论是快速消费品行业、食品行业还是大型公司，其经营理念和经济结构在公司治理方面都存在根本差异。统计数据分析技术使公司能够了解整个行业的消费者需求的性质，分析社会经济状况，能够了解共同的业务条件和业务发展情况，并优化或区分劣质产品。在某些情况下，此更改是提高产品价格的高级更改，如果消耗量和消耗品减少，则可以降低产品价格。产品必须能够升级以满足顾客需求。产品行业、食品行业或大型行业具有不同的经营理念和财务结构，还在进行公司管理。但是，各个行业的业务方向取决于消费者的需求。换句话说，公司开发了产品的功能并使产品的功能适应消费者的需求。对于公司而言，通过优化生产结构并提供更多定价和功能来说服更多消费者也很重要。

（四）企业财务管理层面财务管理贯穿公司治理的整个过程。公司财务管理非常有效，但是存在诸如财务管理的巨大风险之类的问题。对公司财务信息进行统计分析是防范财务风险的有效手段之一。公司需要管理其日常收入和支出，并进行大规模会计处理。企业可以使用大数据分析技术来监测财务管理功能并确保标准化业务的财务安全。利用统计分析技术和大数据，公司可以预测潜在的市场和行业风险，以提供最佳解决方案，还可以提供分析大数据的方法，可以跟踪异常并快速发现异常。

数据分析方法例7

· 数据分析的目的是什么？

· 数据分析的一般过程是怎样的？

· 有哪些数据分析方法？

· 在服务性行业里，数据分析方法有哪些需要特别注意的地方？

· 在国内最容易犯哪些数据分析的错误？

因笔者能力和精力有限，文章中存在错误或没有详尽之处，还望各位读者见谅并恳请及时指正，大家相互学习。

(一)数据分析的核心作用

根据国际标准的定义，“数据分析是有组织、有目的地收集并分析数据，通过将数据信息化、可视化，使之成为信息的过程，其目的在于把隐藏在看似杂乱无章的数据背后的信息集中和提炼出来，从而总结研究对象的内在规律。”在实际工作中，数据分析能够帮助管理者进行判断和决策，以便采取适当策略与行动。

这里需引起关注的是任何没有目的或结果的分析报告都是“忽悠”，都仅仅是没有灵魂的躯壳！我们经常看到国内的同事们忙于各种所谓的“数据分析报告”，堆砌了大量的图表和文字，显得“专业”、“美观”，但认真研读后却发现缺乏最关键的“分析”过程，更别说什么分析结果了。显然大家只是把对事实的原始描述当成了数据分析，而实际上描述原始事实只是数据分析过程的一项内容而非全部。数据分析不能仅有报表没有分析，因为“有报表不等于有分析，有分析不代表有效执行”，报表只是数据的展现形式；数据分析也不能仅有分析没有结论，没有结论的分析无疑“差了一口气”，对实际业务工作无法产生价值，唯有通过分析得出结论并提出解决方案才能体现数据分析协助管理者辅助决策的核心作用。因此数据分析来源于业务，也必须反馈到业务中去，没有前者就不存在数据分析的基础，没有后者也就没有数据分析的价值了。

(二)数据分析的分类

最常见也是最标准的数据分析可分为三大类：描述性数据分析、探索性数据分析以及验证性数据分析。

所谓描述性分析是对一组数据的各种特征进行分析，以便于描述测量样本的各种特征及其所代表的总体特征。这种分析要对调查总体所有变量的有关数据做统计性描述，主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形，比如上个月的平均通话时长是多少，员工离职率是多少等等。

探索性数据分析是指对已有数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法，侧重于在数据之中发现新的特征，比如呼叫中心的一次解决率和哪些因素相关？他们背后的驱动因素又有哪些？哪些因素是“因”、哪些又是“果”等等。

而验证性分析是依据一定的理论对潜在变量与观察变量间关系做出合理的假设，并对这种假设进行统计检验的现代统计方法，侧重于验证已有假设的真伪性。验证性分析是在对研究问题有所了解的基础上进行的，这种了解可建立在理论研究、实验研究或两者结合的基础上，比如从调研的结果来看本月的客户满意度比上个月高出2%，是否真是如此；男性客户的满意度是否高于女性客户等等。

(三)数据分析的一般过程

通常来讲完整的数据分析过程可分为以下几步：明确数据分析的目的、采集并处理数据、分析及展现数据、撰写分析报告。

现实情况中人们往往在做数据分析时陷入一大堆杂乱无章的数据中而忘记了分析数据的目的，数据分析第一步就是要明确数据分析的目的，然后根据目的选择需要分析的数据，明确数据分析的产出物，做到有的放矢、一击即中！

其次，在做数据分析时要根据特定需求采集数据，有目的地采集数据是确保数据分析过程有效的基础，采集后的数据（包括数值的和非数值的）要对其进行整理、分析、计算、编辑等一系列的加工和处理，即数据处理，数据处理的目的是从大量的、可能是难以理解的数据中抽取并推导出对于某些特定人群来说是有价值、有意义的数据。

接着是对处理完毕的数据进行分析和展现，分析数据是将收集的数据通过加工、整理和分析、使其转化为信息，数据展现的方式有两类：列表方式、图形方式。

最后，整个数据分析过程要以“分析报告”的形式呈现出来，分析报告应充分展现数据分析的起因、过程、结果及相关建议，需要有分析框架、明确的结论以及解决方案。数据分析报告一定要有明确的结论，没有明确结论的分析称不上分析，同时也失去了报告的意义，因为整个数据分析过程就是为寻找或者求证一个结论才进行的。最后，分析报告要有建议或解决方案，以供管理者在决策时作参考。

(四)客户中心常用的数据分析工具及简介1 Excel

Excel是微软办公套装软件的一个重要组成部分，它可以进行各种数据的处理、统计分析和辅助决策操作，广泛地应用于管理、统计财经、金融等众多领域。Excel提供了强大的数据分析处理功能，利用它们可以实现对数据的排序、分类汇总、筛选及数据透视等操作。

2 SPC

SPC（Statistical Process Control）即统计过程控制，是一种借助数理统计方法的过程控制工具。实施SPC的过程一般分为两大步骤：首先用SPC工具对过程进行分析，如绘制分析用控制图等；根据分析结果采取必要措施：可能需要消除过程中的系统性因素，也可能需要管理层的介入来减小过程的随机波动以满足过程能力的需求。第二步则是用控制图对过程进行监控。

3 SAS

SAS是用于决策支持的大型集成信息系统，但该软件系统最早的功能限于统计分析，时至今日，统计分析功能仍是它的重要组成部分和核心功能。在数据处理和统计分析领域，SAS系统被誉为国际上的标准软件系统，SAS提供多个统计过程，用户可以通过对数据集的一连串加工实现更为复杂的统计分析，此外 SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数，使用户能方便地实现特殊统计要求。

4 JMP

JMP是SAS（全球最大的统计学软件公司）推出的一种交互式可视化统计发现软件系列，包括JMP，JMP Pro，JMP Clinical，JMP Genomics，SAS Simulation Studio for JMP等强大的产品线，主要用于实现统计分析。其算法源于SAS，特别强调以统计方法的实际应用为导向，交互性、可视化能力强，使用方便。JMP的应用非常广泛，业务领域包括探索性数据分析、六西格玛及持续改善（可视化六西格玛、质量管理、流程优化）、试验设计、统计分析与建模、交互式数据挖掘、分析程序开发等。 SPSS（Statistical Product and Service Solutions）“统计产品与服务解决方案”软件，是世界上最早的统计分析软件，基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类，每类中又分好几个统计过程，比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程，而且每个过程中又允许用户选择不同的方法及参数，SPSS也有专门的绘图系统，可以根据数据绘制各种图形。

6 Minitab

数据分析方法例8

中图分类号：TP393 文献标识码：A 文章编号：1672-3791（2017）06（c）-0053-03

随着云计算、大数据、物联网和移动互联网等新一代信息技术的发展，传统企业级IT架构正在朝基于互联网的分布式新架构转型。大数据作为新一代信息技术的核心，正在使各个领域变得越来越可感知，并走向智能化。大数据将会发挥自身独特的优势，带给我们更多的方便和便捷。大数据分析的方法理论有哪些、在行业、企业的活动中有哪些应用。

1 大数据分析的五个基本要素

1.1 大数据预测性分析

大数据技术的主要应用是预测性分析，如在线教学资源网站通过数据分析用户会对推荐的教学模是否感兴趣，保险公司通过数据预测被保险人是否会违规，地震监测部门通过对大数据的分析，预测某地点发生地震的大致时间，气象部门利用数据预测天气变化等。预测是人类本能的一部分，通过大数据预测人类才可以获得有意义的、智能的信息。许许多多的行业应用都会涉及到大数据，大数据的丰富特征表述了快速增长的存储数据的复杂性。大数据预测分析打破了数据预测一直是象牙塔里数据科学家和统计学家的工作，伴随着大数据的出现，并融合到现有的MIS、MRPII、DSS 、CIMS和其他核心业务系统，大数据预测分析将起到越来越重要的作用。

1.2 数据管理和数据质量

大数据分析跟数据质量和数据管理紧密相关，而质量高的数据和有效的数据管理可以使分析结果有价值、真实并得到有力的保证。

1.3 可视化分析

普通用户和大数据分析专家是大数据分析的直接使用者，因此他们对大数据分析的基本要求就是要可视化，因为他们想通过可视化分析获得可观的大数据特征，让用户直观看到结果。

提高解释信息的能力可以通过数据的可视化展示来实现，而可视化展示主要由图形和图表来呈现。要从大量的数据和信息中找寻相关性非常的不容易，而图形或图表能够在短时间内展示数据之间的相关信息，并为用户提供所需的信息。

1.4 语义引擎

语义引擎是把现有的数据标注语义，其实可以把它理解为结构化或者非结构化的数据集上的一个语义叠迭层。它是数据分析及语义技术最直接的应用，好的语义引擎能够使大数据分析用户快而准地获得比较全面的数据。

数据分析的新挑战及困难主要表现在非结构化数据与异构数据等的多样性，必须配合大量的工具去分析、解析、提取数据。语义引擎的设计可以达到能够从文档中自动提取有用信息，使语义引擎能挖掘出大数据的特征，在此基础上科学建模和输入新的数据，来预测未来的可用数据。

1.5 数据挖掘算法

大数据分析的理论核心就是数据挖掘。各种数据的算法基于不同的数据类型和格式，能更加科学地呈现出数据本身的特点，能更快速地处理大数据。如果采用一个算法需要花好几年才能得出结论，那大数据价值也就无从f起了。可视化是给人看的，数据挖掘是给机器看的。集群、分割、孤立点分析还有其他的算法可以使我们深入挖掘数据内部的价值，并且这些算法能够处理大数据的数据量，也可以满足处理大数据的效率要求。

2 大数据处理方法

大数据处理技术在社会的发展中占有重要的地位，现在有很多的研究者对大数据处理技术进行研究，将大数据处理技术与交互设计结合，让交叉科学得到发展，计算机技术的进步，让交叉技术被广泛应用，并引起了很多人的重视，例如：计算机技术可以在艺术中被应用，进行色彩搭配，还可以将计算机技术应用到垃圾分类里，这些都是研究人员对计算机和交叉设计的结合。这种结合让设计学与计算机技术紧急的结合在一起，将传统的调研方式和测试方式应用到交叉科学领域，这种方法的研究可以为用户调研和测试方法提供依据，能够减少人工的成本。大数据处理方法其实有很多，笔者根据长时间的实践，总结了几种基本的大数据处理方法，如非结构数据处理法、自然语言处理法等，该文主要介绍非结构数据处理流程涉及到的主要方法和技术。非结构化数据处理流程主要以网页处理为例来阐述，包括3个阶段，分别是信息采集、网页预处理和网页分类。

2.1 信息采集

信息采集主要是根据相关主题由固定的专业人士来完成，其采集的数据只能用于所针对的主题和相关的模块，出于对效率和成本的考虑完全不必对整个互联网进行遍历，因此，模块信息采集时往往需要研究以哪种方式预测链接指向的页面与主题的关联性，并测算其是否值得访问；然后研究以哪种相关策略访问Web，以在采集到主题相关页面的同时，尽可能地减少采集到主题无关的页面。

预先设定好种子链接是信息采集的基本方法，充分使用HTTP协议下载被访问的页面，运用分析算法对页面与主题的相关性进行分析，然后确定待访问的相关链接，预测可能指向主题相关页面的链接，最后循环迭代地运用不同的相关策略访问网页。

2.2 网页预处理

网页预处理最主要涉及到网页去重处理，网页去重可以归为两类：一类是基于URL的对比去重，它适用哈希算法；另一类是基于内容的对比去重，它适用基于信息指纹的文本相似度算法。

网页去重是先抽取文档对象的特征，再对文档内容进行分解，将文档的特征集合表示出来，然后有目的针对特征集合的压缩编码，通过将哈希编码等文本转为数字串映射方式，为后续的特征存储以及特征比较提供方便，这样可以起到减少存储空间，提高比较速度的作用，最后就是计算文档的相似度，此步需要根据文档特征重复比例来确定文档内容是否重复。一般是提取网页的某一个信息特征，通常是一组关键词，或者是关键词加权重的组合，调用相应的算法，转换为一组关键代码，也被称为指纹，若两个页面有大数量的相似指纹，那么可以预测这两个页面内容具有很高的重复性。

2.3 网页分类

网络时代，人类所面临的一个非常重要且具有普遍意义的问题就是网页分类。将网络信息正确分类，方便人们更好地使用网络资源，使杂乱无章的网络环境变得有条理。而网页分类一般是先对网页中的文本素材进行分类，通常采用文本分类来完成。文本分类主要应用于电子邮件分类、信息过滤、文献翻译、数据检索等任务，文本分类的一个关键问题是特征词的选择问题及其权重分配。

在搜索引擎中，文本分类主要有以下用途：相关性排序会根据不同的网页类型做相应的排序规则；根据网页是索引页面还是信息页面，下载调度时会做不同的调度策略；在做页面信息抽取的时候，会根据页面分类的结果做不同的抽取策略；在做检索意图识别的时候，会根据用户所点击的URL所属的类别来推断检索串的类别等。

网页分类方法有SVM分方法和朴素贝叶斯方法，其中比较推荐的是支持向量机分类方法（SVM），该算法主要基于统计学理论及线性分类器准则之上，从线性可分入手，再扩展到线性不可分的情况。甚至有时会扩展到使用非线性函数中去，这种分类器统称为支持向量机。近年来，支持向量机分类方法越来越多的受到网页分类技术人员的青睐。

3 大数据分析在行业活动中的应用

非结构数据处理和数据挖掘的应用范围较广，它可能应用于运营商、银行、传统企业和电商，挑选几个具有代表性的案例与大家分享。

3.1 电信行业

某城市电信运营商的上网日志分析系统，该系统通过收集用户上网日志历史记录数据，分析出每个用户的偏好。首先该系统通过并行统计出每个人有效历史上网日志URL；然后从日志URL中抓取网页内容，提取正文，并通过文本分类算法计算分类；最后通过统计出每个用户上网关注类别总数，分析出每个用户的偏好。

3.2 地产行业

某房地产企业的社会化品牌实时营销系统，该系统通过社交媒体数据，进行网络口碑监测，负面情绪被及时地发现并制止；通过与客户进行互动，争取客户忠诚度；通过监控同行及竞争对手的各方面资讯，量化评估竞争态势；快速提升品牌知晓度和美誉度，将媒体影响力转换为客户量，缩短人气聚集周期。

3.3 证券行业

某证券商战略信息监测通过历史回顾与信息摘要，提供题目、摘要、原文URL，今日舆情焦点，今日舆论，展示抓取的所有期货产品相关信息的缩略，并提供全文链接。通过热点事件列表可以看到历史相似事件对趋势的影响，通过天气指数与趋势对应曲线可以看到历史相似天气与历史趋势的对照。

3.4 金融行业

某大型股份制商业银行供应商风险评估系统，该系统通过抓取供应商内部数据，如企业年报、公司变动、领导情况、财务状况等数据，分析公司运营指数；通过计算各供应商社交数据，对其社会影响力做评估；通过同行之间的数据分析对比，对供应商进行实力评估，这些数据指数可以有效协助商业银行进行供应商风险评估。

4 结语

大数据处理数据的基本理念是用全体代替抽样，用效率代替绝对精确，用相关代替因果。证券、微商、地产等行业每天都会产生巨大的数据量，大数据分析与处理已成为大数据技术的最重要的应用，通过大数据技术从海量数据中提取、挖掘对业务发展有价值的、潜在的信息，找出产品或服务未来发展趋势，为决策者提供有力依据，有益于推动企业内部的科学化、信息化管理。

参考文献

[1] 孟小峰，慈祥.大数据管理：概念、技术与挑战[J].计算机研究与发展，2013，50（1）：146-149.

[2] 国际电子商情2013年大数据应用与趋势调查[Z].

[3] 大数据时代来临：国内IT企业布局已然落后[EB/OL].新浪网，2012-06-01.

[4] 大数据时代降临[EB/OL].半月谈网，2012-09-22.

数据分析方法例9

中图分类号：TP311 文献标识码：A 文章编号：1007-9416（2017）03-0104-02

1 综述

1.1 简介

在数字化时代，需要新一代系统架构提升业务创新能力。在新一代系统架构中，大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据，就成为业务创新成败的关键。这就要在搭建大数据平台时，就着手大数据治理相关建设。

1.2 需求和意义

从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全，提升大数据平台服务能力，让大数据平台变得易使用、易获得、高质量。

但是，目前很多技术解决方案存在诸多安全和效率隐患：业务系统多，监管力度大；数据量庞大且呈碎片化分布，急需提升大数据质量；数据格式不规范、难以在短时间内找到所需数据；数据在各阶段的应用角度不同，需要降低系统间的集成复杂度。

2 功能设计

2.1 总体架构

本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上，以实现用户集成处理、、清理、分析的一个统一的数据处理平台；按数据类别分为线数据、归档数据；按数据格式分为非结构化数据、结构化数据；按数据模型分类为范式化模型数据、维度模型数据；按数据采集频度分为非实时数据、准实时数据处理架构；并提供数据中心平台与安全管理方案，为企业级用户建立一个通用数据处理和分析中心。如图1所示。

2.2 在线数据

在线数据在线通过接口去获得的数据，一般要求为秒级或速度更快。首先应当将数据进行区分：在线数据、或归档数据。本平台中采用：Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段，变成小批量时间间隔处理，Spark抽象一个持续的数据流称为DStream（离散流），一个DStream是RDD弹性分布式数据集的micro-batch微批次，RDD是分布式集合能够并行地被任何函数操作，也可以通过一个滑动窗口的数据进行变换。

2.3 归档数据

归档数据是在线存储周期超过数据生命周期规划的数据，处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用：Hadoop、Spark技术生态体系内的框架进行计算，这里不详细阐述。

2.4 非结构化数据

通常非结构化的数据不一定具备字段，即使具备字段其长度也不固定，并且字段的又可是由可不可重复和重复的子字段组成，不仅可以包含结构化数据，更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。

针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取，这项工作目前仍依赖技术员进行操作，由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中，需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务，以便后续更佳深度利用数据。

2.5 结构化数据

结构化数据具备特定的数据结构，通常可以转换后最终用二维的结构的数据，并且其字段的含义明确，是挖掘数据价值的主要对象。

本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现，而非Hadoop的基于Java的Map-Reduce机制，将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作，为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。

结构化数据根据采集频度可以继续分类为：非实时数据、准实时数据。

2.6 准实时数据

通常准实时数据是指数据存储在平台本身，但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询，但数据的再处理度不高，具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架，Redis作为高速缓存去缓存数据热区，减小高并发下的系统负载。

2.7 非实时数据

非实时数据主要应用于支持分析型应用，时效性较低。通常用于数据的深度利用和挖掘，例如：因素分析、信息分类、语义网络、图计算、数值拟合等。

非实时数据根据数据模型可继续分类为：范式化模型数据、维度模型数据。

2.8 范式化模型

范式化模型主要是针对关系型数据库设计范式，通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区，建议使用并行MPP数据库集群，既具备关系型数据库的优点，又兼顾了大数据下的处理。

2.9 基于维度模型

维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术，而在大数据和开源框架的时代下，本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式，而是参考了MPP并行数据库的思想另起炉灶，省掉不必要的shuffle、sort等开销，使运算得到优化。

3 应用效果

本系统在不同的业务领域上都可以应用，以2016年在某银行的应用案例为例：该银行已完成数据仓库建设，但众多数据质量问题严重影响了数据应用的效果，以不同的数据存储方式，以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施，以元数据、数据标准、数据质量平台为支撑，实现了数据管控在50多个分支，60个局，1000余处的全面推广，实现了全行的覆盖；管理了120个系统和数据仓库，显著提升了新系统的快速接入能力；通过14个数据规范和流程明确了数据管控的分工；数据考核机制的实施，使其在数据质量评比中名列前茅。

4 结语

本文介绍了大数据下数据分析方法及实现技术的大体设计和思路，从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。

数据分析方法例10

前言：土工实验的结果对岩土工程的施工方案和设计的精度具有重要影响，实验结果的可靠性越强，岩土工程的施工方案和工程设计就会越加科学合理。因此，加大对土工实验数据整理和分析方法的研究成为目前土工领域亟待解决的问题，对于土工的施工工程的正常运行具有重大意义。

1 土工实验数据整理

1.1Excel图解法整理土工实验数据

在对土工实验数据整理的过程中会遇到不合理的实验数据，这时就需要工作人员对实验数据进行改正和取舍。在实验数据的舍弃过程中，舍弃的标准要按照概率或误差分析中的标准差的3倍设置，对于不在标准范围内的实验数据就要选择舍弃，然后对实验进行重新计算和整理。土工实验的数据的土性指标主要有两种类型，一种是以水溶盐、有机质、塑限、液限、颗粒组成、土粒比重、天然含水率、天然密度等为主要类型的一般特性指标，主要作用是用来对土性进行分类和定名，以及说明岩土的物理化学特征。另一种是以岩土的渗透系数、变形模量、压缩系数、内摩擦角、粘聚力等为主要类型的主要计算指标，主要用来确定土体的稳定性、变形、强度。在对这两种土工数据指标进行整理的时候，通常使用Excel图解法，利用这种方法整理实验数据，能够简化大量繁重的数据计算工作，为分析数据节约更多的时间，从而提高计算的准确率和土工实验数据整理的效率。Excel图解法主要是根据图表制作的功能，进行相应的功能设置。如表1土工实验数据所示利用Excel进行整理[1]，

表1 土工实验数据

压实系数 0.77 0.82 0.87 0.92 0.95 0.97

荷

载

系

数 0.5 15.0 14.8 17.2 19.1 22.5 18.2

1.0 29.7 27.5 28.6 32.7 37.4 30.0

1.5 38.9 42.4 39.0 44.8 44.3 45.6

2.0 55.7 44.3 55.8 52.8 61.5 55.8

具体的操作方法是：首先打开Excel，将表格中的数据输入其中；其次选择x y散点图选择图表类型，修改相应指标名称，最后生成图表，相关工作人员可以根据整理好的数据图像分析土体的强度。如图1所示，

图1 Excel整理之后的数据图形

1.2取样法校核土工实验数据

对土工实验数据的取样校核主要有室内取样和室外取样两种形式，校核的目的是分析数据产生误差的原因，提高整理的效率。室内取样过程中对进行实验的土样妥善保管，避免土样的误动影响数据的真实性。另外使用不同的测试仪器、人们视觉效果的不同和绘图的质量都可能影响数据的真实，因此要具体情况具体分析，对实验数据进行多方检验，确保土工实验数据的精确度。而在室外取样的过程中，土样的保管要注意失水、日晒、风吹等影响，以免影响数据的真实性，因此在土样的运输、储存、封装的工作中应安排专门的工作人员进行防护，在长途运输土样的情况下，应将其装箱并填塞相应的缓冲物品，防止土样震动而影响实验数据的准确度。通过取样来解决土工实验数据的不确定性问题[2]。

2 土工实验数据分析方法

2.1最小样本数分析法分析数据

在实验中样本数多少直接影响实验结果，而样本数多少容易受多方面因素的影响，例如从统计学角度分析，在某项土工中对粘土进行实验，选取四种土样进行不排水三轴实验得出Cu值，分别为109、95、97、101（KN/m2），将实验结果控制的平均值控制在5%之内，计算出最小样本数，因土样数量只用四个，少于30，于是用t分别对土样进行计算，u=3，根据统计表查出相应的数值范围100.5±2.35×6.19÷=93.27-107.77（KN/m2），其中0.95，其中t=2.35，对应Cu值为100.5（KN/m2），σ=6.19.而平均值范围计算得到的数据为7%，超出了5%的范围，因此还需要增加土样样本的数量，假设增加到七个样本数，t=1.94，0.95，v=6则平均值的范围通过计算得出，在5%的范围内，因此可以得出七个样本符合土工实验数据对精确度的要求[3]。

2.2采用贝叶斯法分析实验数据

贝叶斯法的计算公式为，将实验数据分别带入公式进行计算，它可以有机的结合不同时间阶段测得土工数据，它不是简单的加权平均算法，通过贝叶斯法计算得出的数据可靠性更强。贝叶斯法分析实验数据以其可靠性强的优势被广泛应用到大型工程的设计指标研究中，利用土性的含水量、密度等物理性质指标，丰富工程的指标验前概率。另外它还可以对不同实验结果的合并问题进行更精确的处理，保证土工的实验数据的合理性[4]。

2.3加权平均法分析实验数据

利用土体相关距离的测值点相关的特性，采用加权平均值的方法法分析试验数据，从而进一步分析岩土的平均土性，计算公式为，样本的权值是，k是土样相关区域内样本的点数，当是以组的形式出现且0≤≤1时，可以利用相应的方程式计算权值的最小值，另外还可以根据土工的实际情况进行计算过程的简化和省略，如果简单计算就可以判断实验数据的确切数值，则可以不采用加权平均值算法，视具体情况而定[5]。

结论：综上所述，通过对土工实验数据整理和分析方法的研究，从中可以了解到对实验数据的正确处理有利于提高土工的数据的准确度，为土工的施工设计提供有效的信息数据参考，推动土工的进一步发展。

参考文献：

[1]钱红萍，史贵才. 土木工程专业实验教学新体系的构建与实践[J]. 实验室研究与探索，2012，10：122-125.

[2]张永兴，高雪超. 土木工程综合实验模块式教学改革初探[J]. 实验室研究与探索，2011，07：155-182.

数据分析方法例11

中图分类号：G712 文献标志码：A 文章编号：1674-9324（2017）17-0082-02

一、引言

房价大数据分析模型通过机器学习方法构建，模型建立完成后需要对模型进行检验，房价大数据模型需要检验拟合的情况，欠拟合说明模型对数据的覆盖程度不够，过拟合无法反应模型的通用性。通过回归诊断，诊断残差情况，残差是反映真实值与假设值之间的差，希望模型残差尽量小，假设值极大地逼近真实值。通过检验可以剔除奇异数，剔除一些干扰项。

二、回归诊断

1.房价大数据分析模型。price1

Residuals：

Min 1Q Median 3Q Max

-7.5556 -2.6667 -0.2222 3.5556 8.6667

残差最小是-7.5556，最大是8.6667，中值是-0.2222。估计的值与真实值存在一定的误差，通过求极值算法使之最小。

Coefficients：

Estimate Std. Error t value Pr（>|t|）

（Intercept） 43.7778 5.7061 7.672 0.000256 ***

size 1.5111 0.2461 6.140 0.000855 ***

room 15.7778 10.7282 1.471 0.191782

Signif. codes： 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’‘ ’ 1

Residual standard error： 5.837 on 6 degrees of freedom

Multiple R-squared： 0.9949，Adjusted R-squared： 0.9932

F-statistic：582.3 on 2 and 6 DF， p-value： 1.346e-07

2.模型参数。采用最小二乘法算法，经过机器学习，训练出模型参数，构成房价大数据分析模型：房价大数据分析模型为y=aX1+bX2+C，其中：X1=size（面积），X2=room（间数），y（总价）。经过机器学习得到模型以下参数：Size=1.5111；Room=15.7778；截距=

43.7778；y=1.5111*X1+15.7778*X2+43.7778，此函数为房价大数据分析模型。

3.显著性检验。

Estimate Std. Error t value Pr（>|t|）

（Intercept） 43.7778 5.7061 7.672 0.000256 ***

size 1.5111 0.2461 6.140 0.000855 ***

room 15.7778 10.7282 1.471 0.191782

Signif. codes： 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’‘ ’ 1

残差自由度为6的残差标准误差为5.837，p-value：1.346e-07，P值很小说明无自相关性，残差项之间独立。自变量与应变量相关性，截距和size显著性均为三颗星***，说明截距和size与Y相关性显著；room没有星，说明room与Y房价相关性不显著。

4.拟合情况分析。

通过数据可视化，观察房价大数据散点图，可以看出房价大数据训练样本呈直线分布。可以用线性回归进行房价大数据分析模型的构建。

通过残差与拟合图，观察和分析模型对训练数据集拟合程度，从上图拟合线（红线）对数据的拟合情况看，基本上拟合了大多数数据。没有发生欠拟合或过拟合。Multiple R-squared： 0.9949，Adjusted R-squared： 0.9932，从这两个数据可以看出拟合达到99%以上，拟合程度很高。

5.假设性检验。从正态Q-Q图上可以看出，数据分布在45°直线周围，标准残差成正态分布，满足正态性假设。

6.方差检验。同方差性，若满足不变方差假设，位置―尺度图纵坐标为标准化残差的平方根，残差越大，点的位置越高。从图中可以看出经过对残差处理为标准化残差的平方根，拟合的总体趋势还可以，个别点可以看出远离拟合线如“点5”、“点7”，奇异点已经显露。