大数据分析论文样例十一篇

时间：2022-04-22 06:39:59

大数据分析论文

大数据分析论文例1

[分类号]G306

1、导言

科学知识可视化图谱是在信息技术的推动下发展出来的一个新领域，当前已经成为科学计量学的一个新热点。陈悦和刘则渊认为科学知识图谱是显示科学知识的发展进程与结构关系的一种图形，它是揭示科学知识及其活动规律的科学计量学从数学表达转向图形表达的产物，是显示科学知识地理分布的知识地图转向以图像展现知识结构关系与演进规律的结果。Katy Borner等综述了知视可视化历程，对引文分析领域进行了可视化研究。安伟峰、熊润芝、周云平等、徐佳宁等、刘艳苏等以及叶协杰众多学者也利用不同的中文数据库、不同的方法以及不同时期对我国的引文分析研究状况进行了研究。虽然中外学者都从不同角度研究了引文分析领域，但是中文引文分析领域的可视化研究几乎还没有开展。本文拟对中文引文分析这个领域运用可视化工具来做一个清晰的描绘。

2、数据及方法

本论文研究所用的数据来源于CSSCI数据库。笔者于2008年4月24日以“引文分析”为检索词在CSSCI中检索到1998-2007年间527篇文献，共得到3 328条引文。

下载这些检索记录，通过对数据进行仔细辨认和合并，利用大连理工大学刘盛博编的中文处理软件对CSSCI数据进行格式转换，变为Bibexcel、UcinetCitespace等软件可处理格式，然后利用这些软件对记录中的关键词、作者、来源期刊、被引作者、被引期刊等进行分析或绘图。

3、统计结果与分析

3.1关键词分析

527篇论文中，共有2133个关键词，对出现3次以上的97个关键词进行共现分析，利用Ucinet，计算中心性，再利用Netdrw绘制这些关键词共现网络，得到图1。通过对关键词的分析，可得出我国引文分析领域的主要研究内容。

从图1可以看出，节点越大，表示中心性越高。中心性较高的一些词有引文分析、SCI、CSSCI、文献计量学、影响因子，期刊评价等。两个节点之间的连线粗细代表关键词共同出现的次数，连线越粗，就是共同出现的次数越多。与引文分析共同出现次数较多的词有文献计量学、期刊评价、载文分析、作者分析等。

3.2作者分析

在527篇论文中，共有682名作者，表1是发表4篇以上的作者及其工作单位。

从表l可以看出，引文分析领域发文4篇以上的作者有29人，其中24人是与图书情报信息有关的，1人与医学有关。南京大学有9人，中国科学技术信息研究所4人，中国科学院文献情报中心有2人，北京大学有2人，浙江大学科技部2人，其余各1人。

3.3来源期刊分析

527篇论文分布在106种杂志中，发表在前20种杂志中的论文数为390，占总论文的74.7％，也就是说20％左右的杂志中包括了大约80％的有关引文分析的论文，基本符合“二八”律，可以认为这些杂志是发表引文分析论文的核心期刊。可以看到前20种期刊大都是图书馆学、情报学的核心期刊。表2显示出引文分析领域的文章除了多数发表在图书情报类的杂志上外，还有很多发表在与科学学、科技管理有关的核心期刊上。

3.4被引作者分析　对527篇论文的3 328条引文进行分析，发现有1280位作者被引证，平均每位作者被引频次2.6次。在这庞大的作者群中，被引频次最高的30位作者的总被引频次为731次，占总被引频次的21.97％，平均每位高被引频次作者被引频次24.37次。利用Citespaee软件绘图，得到图2，显示了我国引文分析领域的高频被引作者情况，图3显示了引文分析领域的重要文献。

从图2和图3中可以看出，较大节点的作者是在引文分析领域有突出作用的作者。影响最大的是武汉大学中国科学评价研究中心的邱均平，其主要代表作是1988年出版的《文献计量学》一书。王崇德、罗式胜、丁学东三人也出版了有关文献计量学的专著。庞景安《科学计量研究方法论》一书，详细介绍了引文分析在科学计量学中的应用。梁立明、蒋国华也出版了有关科学计量学的专著。有些集体作者，如中国科学技术信息所、中国社会科学索引课题组、中国科技论文统计与分析课题组、南京大学中国社会科学研究评价中心，这些课题组对我国的引文分析研究也有极大的影响和促进。金碧辉、武夷山、孟连生、朱献有、马费成等人也有突出的贡献，他们的单篇论文的被引频次也很高。姜春林、邹志仁、程刚、袁培国、钟旭、党亚茹、崔雷的研究也各有特色。

3.5被引期刊分析　3 328条引文分别来自918种杂志和其他类型文献，包括专著、报告、网页等。但是被引前20种杂志中的引文有1 346条，占总引文的40.4％，表3显示被引前20种期刊大多都是图书馆、情报学的核心期刊。《科学学研究》、《科学学与科技管理》等杂志的被引用说明科学学也对引文分析有较大的影响。有380条外文引文，占总引文的11.4％；有160条网页引文，占总引文的48％，其中680条引文都只被引一次，以上说明引文分析对别的学科的知识吸收还是相对较少，吸收较多的还是图书情报学、科学学、科学计量学、管理学、编辑学的知识。

4、我国引文分析存在问题及对策

4.1 中国引文分析存在问题

4.1.1 引文分析研究缺乏核心作者引文分析在我国的研究历史只有30多年，还没有引文分析的核心作者，虽然有许多专家学者，也有很高的被引频次，但是他们都是图书情报领域的先贤，而引文分析则是依附于文献计量学存在的，大部分的著作都与文献计量学和科学计量学研究相关。因此，表现出引文分析理论研究少，应用研究多，方法简单；方法研究上简单统计多，指标模型少；应用研究用于评价的多，管理的少；研究图情、医药领域较多，其他领域少。

4.1.2数据样本的选择缺乏科学性引文分析是力图根据统计特征找出文献生产、传播等规律，从而进行更深入的研究，为决策提供量化依据。统计特征的出现要求有足够的样本量，足够明确的研究对象，足够大的时间跨度。而国内正式发表的有关引文分析的论文普遍存在着样本量小、时间跨度短、学科代表性差等问题。

4.1.3 中文引文分析可视化困难我国的引文分析可视化的进展不大，虽然近年来掀起了引文分析可视化的热潮，但是大多是对来自Web of Science数据的可视化，而以中文出现的知识图谱则不是太多。

4.1.4 中文的引文数据局限性中文引文数据库有一定的局限性，如CSSCI中的数据从格式到录入出现了很多不统一及错误，如有的引文写错著者姓名、发表年份、出版社等等。在本研究中对这些现象作粗略的统计，其中年份写错或不写的占总引文的3.1％，不写出版社或期刊的占6.2％，不计算其他格式不统一，引文的错误总计在数据库中几乎达到10％。这样就给研究的统计工作带来很大的困难。

4.2 中国引文分析现状成因

4.2.1 理论基础薄弱首先，引文分析起初是当作文献计量学的一种方法被引入的，由于其使用起来简单易行，大多数学者只是把其当作一种工具来使用，究竟其包括什么样的原理，其使用的前提条件、使用原则、形成机制，并没有人去深入地探究；其次，引文分析理论在国外也进展不大，到目前为止，大多数的引文分析还是以传统的文献数理统计和共引理论为基础进行研究，没有更进一步突破；第三，我国的研究者重视应用研究、忽略理论研究。

4.2.2 中文引文数据库不完善为了更好地发展我国的图书馆事业和文献研究工作，我国科研人员不断努力，开发了许多相关的引文数据库，如CSCD，CST―PC，CSSCI等。这些数据库与SCI数据库相比，不论是在数据套录功能还是数据收录年代或期刊收录范围上都有所欠缺。为了进行引文分析，用户不得不把需要的文献记录和它们引用的参考文献题录一一手工摘取，再导入自建的小型引文库中通过编制计算机程序才能获得需要的统计数字。这无疑极大地阻碍了研究人员利用国内引文数据进行分析的积极性。

4.2.3 没有适合的分析软件由于我国引文分析发展的较晚，一些引文分析的技术都是来自于国外。国外有很多专家学者利用计算机编程，开发了许多文献计量学软件，进行引文分析。例如：Bibexcel就是OllePersson为文献计量学专门编制普遍适用的、统一格式的数据处理软件，可以处理来自Web of Science等数据库的数据，不但能够进行统计处理，还可以分析数据，形成所需要的关系矩阵。而我国文献计量学、科学计量学的学者目前还没有开发出普遍适用中文数据格式的软件，对于一些不懂数学、计算机编程的学者，要靠最原始的手工来进行计数，所以他们花费在数据处理上的功夫可想而知。

4.2.4不规范的引文行为目前我国的科技论文在引文规范上普遍存在着一些问题，主要表现在以下三方面：“用而不引”和“不用而引”；对参考文献的标注不规范；“引文复制”与“引而不注”；著录失误。此外，一些由于情报交流的障碍，如语言障碍、编译代码转换的障碍、检索工具的障碍、理解水平与能力的障碍等等，都是造成引文错误的直接客观的原因。

4.3 中国引文分析的对策建议

4.3.1 加强引文分析的理论建设首先，大力开展引文分析的理论研究，对引文分析的原理、规律、研究对象以及与引文分析相关的概念假设、环境、适用范围进行深入和系统的讨论，力图形成引文分析的研究范式；其次，加强和国外同行的合作交流，力图自主创新，发展适合我国学者的引文分析方法和理论；再次，引文分析有很强的交叉学科的特点，交叉学科的特点就是容易吸取其他学科的先进理论，要想在理论上有所突破，可以借鉴其他学科的理论方法；第四，提倡研究者进行理论研究，改变研究作风；第五，提高研究者和使用者综合素质，使他们能够敏锐地发现引文分析的问题，合理利用引文分析进行科研评价，提高科研活动的效率。

大数据分析论文例2

中图分类号：G232 文献标志码：A 文章编号：1673-291X（2016）29-0173-04

论文的被引次数是反映论文学术影响力的重要指标之一。有学者研究认为，高被引论文对影响因子的贡献率普遍较高[1，2]。论文的引用情况也经常被用来评价科研人员的绩效[3-6]。利用论文的被引情况来反映论文的影响力时，一般又认为与作者的名气有关[7]，作者的名气越大，发表期刊的级别越高，被引次数应该就越高。有限的期刊资源更倾向于刊用名气大的作者的论文，长此以往，则形成期刊界的马太效应：对一些名家一稿难求，而大量名不见经传的作者的论文就会难以得到及时公开发表。这种主观的判断是否正确？什么条件的作者发表的论文被引频次高？作者如何提高自己论文的被引次数？本文以《灾害学》作为研究期刊，以该期刊的作者作为研究对象，通过2004―2013年10年间刊出的1 286篇论文的所有作者与所被引频次M行相关性分析，同时参考2014年和2015年的数据，以期通过大量的数据，探讨作者论文被引的规律性。通过本论文的研究，也可以为期刊提高期刊的影响因子提供借鉴。

一、研究方法

一般的抽象系统中都包含着许多因素，多种因素共同作用的结果决定了该系统的发展态势。人们常常希望知道在众多的因素中，哪些是主要因素、哪些对系统发展影响大等等，而使用灰色相关性分析可以弥补其他系统分析方法的缺陷，适用于本论文的研究。

灰色系统理论是华中理工大学邓聚龙教授于1982年提出的，该理论利用灰色关联分析来分析因素之间的相关程度[8]。灰色关联分析是根据比较参考序列曲线和比较序列曲线之间的几何相似度来判断二者之间相似程度的，利用灰色关联系数来比较参考序列曲线和比较序列曲线在各点的差异[9，10]。

二、数据来源和统计方法

本研究以《灾害学》期刊作为研究对象。从研究学科来看，《灾害学》是进行综合性研究的学术期刊，它以各种自然灾害，包括自然灾害和人文灾害作为研究内容，通过对各种灾害事件的分析讨论，总结经验，吸取教训。从研究内容来看，广泛交流灾害科学的学术思想、研究方法、研究成果；从研究方向来看，注重关于灾害问题的研究动态和防灾减灾对策、人类抗御灾害的科技水平和能力等等的探讨。因此，通过对该期刊的研究，能够全面筛选出各灾害学相关研究的被引次数。

本研究引用的数据来源于“中国知网”（）2004―2015年的数据。其中以2004―2013年的数据作为数据来源，同时参考2014年和2015年的数据。普赖斯认为，科研论文一般在其发表后1―2年即达到被引用最高峰，因此选用2004―2013年10年的数据，2014年和2015年的数据仅作为参考数据。

本研究利用灰色关联分析，以被引次数最多的50篇论文的相关数据作为研究基础，从论文的被引次数与该论文的下载量、论文作者的职称、的时间、论文研究范围四个方面进行分析。

三、被引用率灰色关联度分析

（一）确定比较数列和参考数列

本文选取论文的被引次数作为参考数列，以该论文的下载量、的时间、论文作者的职称、论文研究的区域作为比较数列，如表1所示。

表1 影响因子及变量设定表

其中，职称按照从高往低赋值：设正高=1，副高（博士）=2，中级（硕士）=3，初级=4；研究范围从大到小赋值：设世界性=1，全国性=2，地区性=3，市县等=4，则被引次数最高的50篇论文的相关数据如表2所示。

（二）无量纲化

由于系统中各因素列中的数据可能因计算单位的不同，不便于比较，或在比较时难以得到正确的结论，因此，在进行灰色关联度分析时，一般都要进行标准化（无量纲化）的数据处理。本文利用公式（1），以P50的数据为基准，对原始数据数列和比较数据数列进行初始化运算，以消除量纲或数量级的影响，得到标准化后的数列（表3）。

（三）产生对应差数列表

将无量纲化后的比较数列与参考数列进行差值计算，并求绝对值，将之列如对应差数列表，内容包括与参考数列值差（绝对值）、每列最大差和每列最小差。然后计算最大差值和最小差值。

四、灰色关联的结果分析

通过灰色关联分析法可知：

1.论文的下载量、的时间、论文作者的职称、论文研究的范围四个方面的相关度都几乎接近于1，说明这四个方面与论文的被引次数相关度非常大。

2.从论文的下载量、的时间、论文作者的职称、论文研究的范围四个方面来说，相关度大小排序为：研究范围>时间>作者职称>下载数量。说明论文被引用率影响较大的还是论文本身研究范围。也说明论文刊出时间越长，关注的学者越多，被引的可能性也越高。作者职称和下载数量低于前两个因素。

3.利用灰色关联度分析法研究结果对把握期刊的服务对象和办刊理念有极大帮助。灰色关联度分析法克服了传统数理统计方法中对样本需要量大、计算量大等缺点，有利于分析期刊研究过程不完全信息中随机因素的显著性和关联性，开拓了期刊研究的新方法。

参考文献：

[1] 刘雪立.10 种国际权威科技期刊影响因子构成特征及其启示[J].编辑学报，2014，26（3）：296-300.

[2] 毛国敏，蒋知瑞，任蕾，等.期刊论文被引频次的幂律分布研究[J].中国科技期刊研究，2013，25（2）：293-307.

[3] 叶鹰.高品质论文被引数据及其对学术评价的启示[J].中国图书馆学报，2010，36（1）：100-103.

[4] 方红玲.我国科技期刊论文被引量和下载量峰值年代――多学科比较研究[J].中国科技期刊研究，2011，22（5）：708-710.

[5] 黄鹂.从论文被引频次分析看高校学报在学校科研发展中的作用――以长江大学及其主办的学报为例[J].长江大学学报：社会

科学版，2012，35（9）：184-186.

[6] 任胜利，柴育成，姚玉鹏，等.地球科学国际主流期刊的引文分析[J].科学通报，2002，47（1）：74-79.

[7] 李斐然.如何创作被引次数最多的论文[J].创新科技，2012，（1）：58.

大数据分析论文例3

二、数据来源和统计方法

本研究引用的数据来源于“中国知网”（cnki.net）2004—2015年的数据。其中以2004—2013年的数据作为数据来源，同时参考2014年和2015年的数据。普赖斯认为，科研论文一般在其发表后1—2年即达到被引用最高峰，因此选用2004—2013年10年的数据，2014年和2015年的数据仅作为参考数据。

三、被引用率灰色关联度分析

（一）确定比较数列和参考数列

本文选取论文的被引次数作为参考数列，以该论文的下载量、的时间、论文作者的职称、论文研究的区域作为比较数列，如表1所示。

表1 影响因子及变量设定表

（二）无量纲化

（三）产生对应差数列表

四、灰色关联的结果分析

通过灰色关联分析法可知：

1.论文的下载量、的时间、论文作者的职称、论文研究的范围四个方面的相关度都几乎接近于1，说明这四个方面与论文的被引次数相关度非常大。

参考文献：

[1] 刘雪立.10 种国际权威科技期刊影响因子构成特征及其启示[J].编辑学报，2014，26（3）：296-300.

[2] 毛国敏，蒋知瑞，任蕾，等.期刊论文被引频次的幂律分布研究[J].中国科技期刊研究，2013，25（2）：293-307.

[3] 叶鹰.高品质论文被引数据及其对学术评价的启示[J].中国图书馆学报，2010，36（1）：100-103.

[4] 方红玲.我国科技期刊论文被引量和下载量峰值年代——多学科比较研究[J].中国科技期刊研究，2011，22（5）：708-710.

[5] 黄鹂.从论文被引频次分析看高校学报在学校科研发展中的作用——以长江大学及其主办的学报为例[J].长江大学学报：社会

科学版，2012，35（9）：184-186.

[6] 任胜利，柴育成，姚玉鹏，等.地球科学国际主流期刊的引文分析[J].科学通报，2002，47（1）：74-79.

[7] 李斐然.如何创作被引次数最多的论文[J].创新科技，2012，（1）：58.

大数据分析论文例4

中图分类号： G250文献标识码： A 文章编号： 1003-6938（2010）01－0111-04

A Statistical Analysis of the Library Science Papers Research Methods

Jia ErpengYi Jinghan（Department of Information Management, Zhengzhou University, Zhengzhou，Henan, 450001）

Si Miaomiao（Library, Hubei Vocational College of Bio-Technology， Wuhan， Hubei， 430070）

Abstract： Relevant scientific research methods support the completion of the science research. So library science research methods are an important component of the library science system. Through a statistical analysis to the research methods of the academic articles published in 11 library journals, this article sums up the current condition of method application in library science in our country, and prospects for the future of library science research methods in our country.

Key words： library science； research methods； methodology； survey analysis

CLC number： G250Document code： AArticle ID： 1003-6938（2010）01－0111-04

工欲善其事，必先利其器。科学研究是富有创造性和艺术性的活动，方法是科学研究的工具和途径，图书馆学研究过程也与科学的研究方法不可分离。图书馆学研究方法是在继承一般科学研究方法的基础上，根据自身的研究对象、学科性质而进行融合与发展，形成自己学科的研究方法体系。随着图书馆学情报学研究范围的扩大、研究对象的复杂，其研究方法呈现出多样性特点。从多个角度对其进行研究，既促进了我国图书情报事业的发展，反过来又进一步刺激了研究方法的多样化。本文以11种图书馆学专业期刊2006～2008年所刊载论文为数据源，分析论文的研究方法，试图总结出图书馆学研究方法的规律及其发展趋势。

1我国图书馆学方法论的研究

图书馆学研究方法，是图书馆学学科体系的重要组成部分，一方面，它使得图书馆学研究能够准确、充分地揭示研究对象的本质与规律，是图书馆学研究的保障；另一方面，整个图书馆学的研究中对方法的研究不能偏废，方法研究是学科研究内容的一部分。［1 ］我国图书馆学方法论研究开始于20世纪80年代。1981年刘迅先生在《图书馆学通讯》上发表了《要重视图书馆学方法论的研究》一文。紧接着乔好勤先生在该刊1983年第一期上刊登了《试论图书馆学研究中的方法论问题》，［2 ］运用统计方法对《图书馆学通讯》等三种专业刊物1980～1981年发表的学术论文研究方法进行分析。并提出了图书馆学方法论的三层次说法，即图书馆学的研究方法可以分为哲学方法、一般科学方法和专门科学方法。随后出现了有关图书馆学方法的大量学术论文，还有一些著作，如王崇德的《图书情报方法论》。［3 ］

从宏观上看，图书馆学方法论的三个层次基本得到认同。对一般科学技术研究方法的探讨，也分为三个层次，最底层是具体的技术层次，中间层是一般的研究方法层次，最高层则是哲学层次。［4 ］图书馆学的一般科学方法，主要是指引进和移植相关科学的研究方法和研究成果运用于图书馆研究，可分为：信息获取方法（主要指调查法、统计法、试验法和历史法等），信息加工方法（主要指老三论、新三论等）。［5 ］对图书馆学专门方法探讨的文章很多，虽然还没有统一的认识，但是普遍认为文献计量学方法和引文分析法是典型的图书馆学专门方法。另外从研究的性质来分，图书馆学的研究方法也可以分为定性和定量方法。随着对此研究的深入，图书馆学方法论体系会不断地得到完善。

3数据来源

在数据收集中，笔者选取了11种图书馆学专业期刊：《中国图书馆学报》、《大学图书馆学报》、《图书情报工作》、《图书馆杂志》、《图书情报知识》、《图书馆》、《图书馆论坛》、《图书与情报》、《图书馆理论与实践》、《图书馆建设》、《图书馆工作与研究》作为调查对象，具体统计了2006年~2008年间各期刊学术论文使用研究方法的情况。数据主要来源于中国知网，小部分数据来源于各期刊主页。在数据统计中，去除了一些信息资料类文章，如征文通知、会议通知等（见表1）。

4数据统计分析

本文总共统计了8159篇学术论文，通过对所选的各篇学术论文，逐篇分析其篇名，个别文章查阅了摘要、正文等详细信息，根据各科学研究方法的含义，归纳每篇论文采用的科学研究方法，并将其研究方法归纳为15小类（见表2）。由于每篇文章采用方法很难准确判断，有的文章采用了多种研究方法，所以从表2中可以看出，最后的论文合计总数（8273篇）大于调查的论文总数（8159篇）。在计算各类研究方法的论文占调查总数的百分数时，是除以调查总数（8159篇），所以百分数之和是（101.3997%）而不是100%。

（1）理论分析法

运用理论分析法的主要是一些分析归纳与概念推理类研究，以及思辨类的学术论文。从表2中可以看出，采用理论分析法的学术论文共2904篇，占调查论文总数的35.593%，理论分析法是我国图书馆学研究中最常用的方法。研究方法的运用主要受到学科性质和研究任务影响，图书馆学从目前来看应该属于社会科学，而且人文色彩比较浓厚；我国图书馆界也有重理论的现象，这与国外主要以定量方法为主、重应用有很大不同。随着其它学科背景研究者的加入，看问题的视角会有所变化，相应的研究方法也会多样化。社会科学的发展是由定性方法向定量研究过渡的过程，图书馆学科也要注重定量分析方法的应用。

（2）操作实验法、调查研究法

在调查的学术论文中，运用操作实验法的共有830篇，占到总数的10.173%。这类论文主要研究技术性的问题，比如系统开发设计、数字图书馆建设、网络信息资源开发组织等。随着图书情报工作环境、研究对象的变化，图书馆学研究关于技术的内容会越来越多。

调查研究法是社会科学常用的一种研究方法。图书馆学是一门实践性很强的学科，调查是获取原始数据的一个重要的方法。图书馆学研究中主要进行抽样调查，通过问卷、网络来收集数据资料。采用调查研究方法的学术论文一共745篇，占总数的9.131%，调查方法的运用在调查数据中占有很大一部分，说明研究更贴近实际问题。

（3）实例分析法、历史方法

实例分析法通常是以具体的实例来介绍经验或说明问题，论文中主要是以国内比较著名的大学或科研院所图书馆、国外有名的图书馆等为例子进行分析，对于其它图书馆的建设、信息资源开发服务起到了借鉴作用。

历史方法主要用于论述关于图书馆事业史、人物评价、文献学、目录学等内容的论文，是一种传统的研究方法。有的期刊专门开辟了关于图书馆事业史、文献学的专栏，历史方法的论文在调查论文中占到了7.501%。

（4）系统方法、管理学方法

系统方法主要是用系统的思想，从整体的角度来观察问题，这种方法对我们认识研究起到很大作用。虽然有的文章不能明显地看出是运用了系统方法，但是系统方法贯穿于观察问题的整个过程。管理学方法是将管理学的方法移植在图书情报学的研究中，图书馆在机构建设、运营方面都要运用到管理学的知识方法。

（5）数理方法、文献计量学方法、比较法、经济分析法

数理方法主要是数学方法在图书情报学研究中的应用，是一种定量的研究方法。采用数理方法的学术论文有304篇，占调查论文总数的3.726%。数学方法的运用，也说明图书馆学研究者正在试图定量地揭示研究对象，随着本学科逐渐走向成熟，这一方法将继续普遍化。

文献计量学方法是用数学和统计学方法，对文献量、作者数、词汇数等的定量化研究。调查的论文中运用此方法的占到3.199%，在调查论文中占到的比例比较低。文献计量学方法也应用于其它学科研究，从CNKI数据库中我们以“文献计量”为题名，可以粗略地检索到600多篇论文，内容涉及很多其它学科研究。

比较方法也是比较常用的一种研究方法，通过对多个相关事物或事物的各部分之间进行比较，揭示其共同点和差异点。

经济分析法是将经济学的方法运用到图书馆学的研究当中，研究内容包括图书馆营销、资源共享效率评价、纸质资源与电子资源的经费问题、资源服务的经营模式等等。

（6）控制论方法、引文分析法、内容分析法

明显运用控制论方法的论文很少，调查中只有79篇。占到总数的0.968%。但是控制论的思想在很多论文中都有所体现。

引文分析法是利用各种数学及统计学的方法对科学期刊、论文、著者等的引用和被引用现象进行分析，以揭示其数量特征和内在规律的方法。在所调查的论文中，明确使用引文分析法的有23篇，占总数的0.282%。引文分析法作为图书情报学科的一种专门方法，运用也很广泛。在CNKI中用“引文分析”作为题名可以检索到1200多篇论文。

内容分析法产生于传播学领域，是一种客观的量化方法，是从大量样本进行特征识别的系统方法，具有统计性，是一种从公开资料中萃取情报的重要方法。因为它是新方法，统计中只有6篇。

（7）其它

其它中包括有专利分析方法、社会网络方法、SWOT分析法、法律分析方法、心理学方法、美学方法、传播学方法、医学理论方法等等。

5我国图书馆学研究方法的发展趋势

5.1定量分析与定性分析相结合

根据表2数据，我们可将研究方法大致分为两类：第一类是定性方法，包括理论分析法、实例析法、历史方法、系统方法、管理学方法、比较法、经济分析法、控制论方法，百分比总共占到61.62%；第二类是定量方法，包括操作实验法、调查研究法、数理方法、文献计量学方法、引文分析法、内容分析法，百分比总共占到26.584%。从数量来看，定量研究方法所占比例比起定性方法还很小，这是由于理论分析法的比例太大。对于图书馆学的科学研究，目前来看定性方法用的多一些。但对于具体问题，定性方法和定量方法各有特点，用哪种方法要根据具体情况而定。

理论分析法是一种定性研究方法，在学科研究中发挥了重要的作用。由于定性方法缺乏科学的数据支撑，其理论分析就显得没有深度和广度。随着学科的发展，定性与定量研究方法相结合是发展的趋势。图书馆学情报学领域已经大量采用定量的研究方法，如调查研究法、数理方法、文献计量学方法等。定量方法的运用使研究更精细、更科学，站在定量的角度解释图书馆学情报学的内在规律，从而在广度和深度上推动学科的发展。［6 ］

5.2现代信息技术的影响越来越大

随着信息技术、网络技术的发展，图书馆学的研究内容产生了巨大变化，与网络信息、信息系统等有关的技术性研究论文数量会不断增多。在表2中，操作实验法所占比例为10.173%，我们可以清楚地看到这一点。

新技术的发展还为经典的研究方法提供了新的实现工具。［7 ］研究这可以通过互联网进行数据采集，以网页形式的网络调查、用即时通信（instant messaging）软件（如QQ）的调查、［8 ］电子邮件调查等，这些都为更好地完成调查提供了多种途径。随着搜索引擎的运用普及，搜索引擎的服务器记录和保存了用户与搜索引擎的交互过程，这种数据称为使用记录（transaction log），使用记录分析（transaction log analysis）成为一个研究热点。另外，计算机还可以辅助研究者进行定性数据分析等。在文献计量学的基础上产生了网络信息计量学方法，在引文分析方法的基础上出现了链接分析方法，这都是现代信息技术对研究方法的影响。

5.3吸收其他学科的研究方法

表2中的管理学方法、数理方法、经济学方法、内容分析法等都属于移植其它学科的方法，占10.85%。“其它”占7.185%。这些都说明了图书馆学研究中移植了许多其它学科的理论或方法。

在学科的发展中，一方面要具有从其它学科吸收养分的能力；另一方面要能为其它学科提供养分。随着图书馆学科研究队伍的壮大，研究者会大量借鉴其它学科的研究方法，会产生新的研究方法，如内容分析法、情景分析法等。当然我们不能盲目地去移植新的研究方法，而要与图书馆学情报学本学科的实际情况相结合，将其融入本学科研究之中，通过适当的研究方法来为研究服务。

5.4实证方法的应用

调查研究法、实例分析法就属于实证性研究方法，从表2中的数据中就可以看出，共占到17.061%。近些年来研究者也开始注重实证研究（evident-based studies）方法，［9］它是在获取研究对象客观数据材料的基础上，通过数据分析，考察研究对象各有关因素的相互影响及其影响方式，从个别到一般，归纳出事物的本质属性和发展规律，它是观察法、实验法、统计法等的综合运用。实证研究通过实际数据分析，连接了理论与实践，一定程度上有利于图书馆学研究水平、学术地位的提升。

总之，方法都不是万能的，各种研究方法都有自己的优点和缺点，或者是有适用的条件。定性与定量研究方法的结合将成为图书馆学方法的主流，新的方法与新的技术将得到更多的应用。利用多种先进技术手段来收集数据、分析数据，综合多种研究方法来探讨复杂的研究问题将会越来越多。所以研究方法的运用将是多元化发展，合理的研究方法体系应该是多种研究方法的有机结合与互补，从各个不同的角度对研究对象进行分析。

参考文献：

［1］邓小昭.信息管理研究方法［M］.北京：科学出版社，2007：1-33.

［2］乔好勤.试论图书馆学研究中的方法论问题［J］.图书馆学通讯，1983，（1）：54-62.

［3］王崇德.图书情报方法论［J］.北京：科学技术出版社，1988.

［4］杨建军.科学研究方法概论［M］.北京：国防工业出版社，2006：1-24，395-409.

［5］罗方等.我国图书馆学方法论研究的现状及趋势［J］.图书馆建设，2006，（2）：19-20.

［6］邱均平．文献计量学［M］．北京：中国人民大学出版社，2007：260-283.

［7］华薇娜．我国80年代图书馆学情报学研究状况的定量分析［J］．情报学报，1995，14（3）：218-225.

大数据分析论文例5

[分类号]G304

1　引言

学术期刊是国家科技发展水平的重要窗口，是知识创新、科技成果转化为生产力的重要桥梁，在推动社会科技进步方面发挥着不可替代的作用。期刊评价是文献计量学研究的重要组成部分，它通过对学术期刊的发展规律和增长趋势进行量化分析，揭示学科文献数量在期刊中的分布规律，为优化学术期刊的使用提供重要参考，同时可以提高学术期刊的内在质量，促进学术期刊的健康成长和发展。对期刊评价指标进行分类是期刊评价的基础和前提，目前期刊评价方法有几十种，有些评价方法不需要对期刊评价指标进行分类，如主成分分析、灰色关联、TOPSIS等方法，但是有些评价方法必须建立在期刊评价指标分类的基础上，包括层次分析法、专家打分法、突变理论等。层次分析法是根据子指标对父指标的重要性程度进行两两判断，指标分类尤为重要。专家打分赋权类评价方法是在指标众多的情况下进行的，更需要分类。

Weiping Yue、Concepcion s.Wilson(2004)利用结构方程的原理建立了一个期刊影响力的分析框架，并对期刊评价指标进行了系统的分类。苏新宁(2008)在构建人文社会科学期刊评价指标体系时，将一级指标分为期刊学术含量(篇均引文、基金论文比、机构标注、地区分布数)、被引数量(总被引频次、学科论文引用数量、他引率)、被引速率(总被引速率、学科引用速率、它刊引用速率)、影响因子(总影响因子、学科影响因子、他引影响因子)、被引广度等。盖红波(2006)将期刊评价指标分为定量评价指标(被引量、被索量、载文量、被摘量、影响因子)、定性评价指标(双高、双效、双奖、双百)、质量考核指标(政治、学术、编辑出版、效益)、同行评议指标。赵惠祥、张弘等(2008)将科技期刊评价一级指标分为影响力指标(总被引频次、影响因子、5年影响因子、相对影响因子、即年指标、他引率、引用刊数、扩散因子、学科影响指标、学科扩散指标、被引半衰期、h指数)、文献指标(载文量、参考文献量、平均引文量、平均作者数、地区分布数、机构分布数、基金论文比、海外论文比等)、载体指标(文献书目信息完整率、编排规范化、差错率、装帧质量、印刷质量、网络通畅率、平均发表周期、平均出版时限等)、管理指标(期刊社体制、编委会状况、管理规章完备性、版权制度、发行体制、信息平台、人员状况、营业总额、资产总额、利润总额)。邱均平、张荣等(2004)将期刊评价指标分为技术性指标(影响因子、总被引频次、即年指标)、效益指标(直接效益、间接效益、社会效益)、标准规范化指标(编校质量、装印质量、现代化建设)。黄河胜(2000)将期刊内涵指标分为引文参数(影响因子、总被引频次、自引率、被引半衰期、外文引文率、SCI文献引用率)、稿件特征参数(基金论文比、学位稿)、稿流特征参数(平均时滞量、平均载文量)。潘云涛(2007)”将期刊一级指标分为学术质量指标、国际竞争力力指标、可持续发展潜力指标。庞景安、张玉华等(2000)将科技期刊评价指标分为经营管理水平指标、学术水平、编辑水平三大类。

由于评价目的不同，期刊评价的指标选取不同，当然分类也不一样。对于大多数评价指标而言，不同学者的分类基本相同，但由于学术期刊评价指标的特点，对于少数指标，不同学者分类截然不同，如基金论文比指标有的作为学术质量指标，而有的作为文献特征指标；即年指标有的被作为时效性指标，有的被作为影响力指标。这些难以分类的指标主要有基金论文比、地区分布数、海外论文比、即年指标等。此外，目前学者主要采用主观分类法进行分类，没有采用客观分类法。

本文以中国科学技术信息研究所的医学期刊评价为例，采用聚类分析与因子分析等客观分类法进行分类和比较，试图确定学术期刊评价指标的分类方法，从而为进一步的期刊评价打下基础。

2　方法

2.1 聚类分析(Cluster Analysis)

聚类分析是多元统计分析的一种，它把一个没有类别标记的样本集按某种标准分成若干个子集(类)，使相似的样本尽可能归为一类，而不相似的样本尽量划分到不同的类中。聚类分析被广泛地应用于模式识别、数据挖掘和知识发现的许多领域。聚类的目的是要使各类之间的距离尽可能地远，而类中点的距离尽可能地近。并且分类结果还要有令人信服的解释。在聚类分析中，人们一般事先并不知道应该分成几类及哪几类，全根据数据确定。

对一组数据，既可以对变量(指标)进行分类，也可以对观测值(事件，样品)来分类，对变量的聚类称为R型聚类，而对观测值聚类称为Q型聚类，它们在数学上是无区别的。在学术期刊评价中，可以应用R型聚类分析来进行学术期刊评价指标的分类。

2.2 因子分析(Factor Analysis)

因子分析是从多个变量指标中选择出少数几个综合变量指标的一种降维的多元统计方法。该方法的基本思想是通过变量的相关系数矩阵或协方差矩阵内部结构的研究，找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系。然后根据相关性大小把变量分组，使得同组内的变量之间相关性较高，不同组的变量之间相关性较低。每组变量代表一个基本结构，这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

建立因子分析模型的目的是找出主因子，解释每个主因子的实际意义，以便对实际问题进行分析。由因子模型矩阵得到的初始因子载荷矩阵，如果因子负荷的大小相差不大，对因子的解释可能有困难，因此，为得出较明确的分析结果，往往要对因子载荷矩阵进行正交旋转或斜交旋转。通过旋转坐标轴，使每个因子负荷在新的坐标系中能按列向0或1两极分化，同时也包含按行向两极分化。如果不对因子载荷矩阵进行旋转，就是主成分分析，因此，主成分分析实际上是因子分析的一种特殊情况。主成分分析只要求所提取出的主成分能包含主要信息即可，不需对其含义作准确解释；因子分析要求所提取出的因子有实际含义，因此采用因子分析进行变量的分类较好。

因子分析是根据现有的指标寻找公共因子，因此，可以借用因子分析进行指标的分类，与主观分类不同的是，由于因子分析是完全根据数据进行的客观分析，

因此不能首先确定一级指标的名称，而应该根据因子分析的结果对公共因子进行命名。

3　数据

本文数据来自于中国科学技术信息研究所CSTPC数据库，以医学类期刊为例进行分析。中国科学技术信息研究所从1987年开始对中国科技人员在国内外数量和被引情况进行统计分析，并利用统计数据建立了中国科技论文与引文数据库，同时出版《中国学术期刊引证报告》。本文数据是2006年的医学学术期刊数据，共518种医学期刊，如表1所示：

由于要对期刊进行评价，所以必须对数据进行标准化处理，每项指标最大值设为100，然后按比例进行调整。此外，被引半衰期和引用半衰期是两个反向指标，必须进行适当处理，方法是用100减去其标准化后的结果后再做标准化，这种处理方式是线性处理方式，比反向指标取倒数的非线性处理方式要科学一些。

4　指标分类结果

4.1　聚类分析

采用层次(hierarchical method)R聚类，第一步把最近的两个指标合并成一类；度量剩余的指标和小类间的亲疏程度，并将当前最接近的指标或小类再聚成一类；再度量剩余的指标和小类间的亲疏程度，并将当前最接近的指标或小类再聚成一类，如此循环，每次都少一类，直到最后只有一大类为止。越是后来合并的类，距离就越远。采用SPSS 15.0进行数据处理，选择组内联系最大法(within-groups linkage)，结果见图1。总被引频次(x1)与学科扩散因子(X5)被划为一类，都是期刊影响力的指标；影响因子(x7)与即年指标(X8)被划为一类，还是期刊影响力的指标。在此基础上将以上4个指标划为一类，是可以解释的。然后以此为基础，依次增加平均引文数(X11)、海外论文比(X14)、基金论文比(X9)、学科影响指标(X4)，关联性相对较弱，如平均引文数与期刊的影响力关系并不是很大，海外论文比和基金论文比与期刊影响力有一定关系，但基于聚类分析的角度，似乎又比较远。

平均作者数(10)和引用半衰期(12)被分为一类，几乎无法从理论上找到这种关系，在此基础上又和扩散因子()(3)聚类，更是无法解释。

被引半衰期(x6)和地区分布数(X13)被分为一类，从理论上也无法解释，在此基础上和他引率(x2)聚类，也无法解释。

由于期刊评价指标的特殊性，如果采用聚类分析对指标进行分类，结果可能是不能令人信服的，本文是基于大量数据分析得出的结论，应该是比较可靠的。

4.2　因子分析分类

同样采用SPSS 15.0进行因子分析，首先进行KMO与Bartlett检验。KMO是对样本充分度进行检验的指标，一般要大于0.5。本文采用SPSS进行数据处理，KMO值为0.680，也就是说，符合因子分析的条件；Bartlett值为3319.828，P

第一因子是总被引频次(x1)、学科影响指标(x4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13)，前4个指标都是与被引相关的指标，可以用影响力加以概括，地区分布数也是影响力的一种体现，影响力越大，论文地区分布越广。

第二因子包括基金论文比(X9)、平均作者数(XIO)、平均引文数(X11)、海外论文比(X14)、即年指标(x8)、前4个指标都是期刊特征指标，即年指标比较特殊，在第一因子中的系数为0.34，说明它也是影响力指标；在第四因子中的系数为0.424，第四因子包括引用半衰期和被引半衰期，也与引用相关，但第二因子系数最大，为0.531，所以认为其是期刊特征指标。

第三因子包括他引率(x2)和扩散因子(x3)，也与被引相关，是影响力的体现，因此可以将第三因子和第一因子合并。

第四因子包括被引半衰期(x6)和引用半衰期(X12)，它其实主要反映的是期刊的时效性情况，因为引用半衰期较短的论文，一般比较新，其参考文献也相对较新

大数据分析论文例6

ThomsonScientific国家科学指标数据库2004年数据显示，中国数学论文在1999~2003年间篇均引文次数为1.03，同期国际数学论文篇均引文次数是1.3,这表明中国数学研究的影响力正在向世界平均水平靠近。相较于物理学、化学和材料科学等领域，中国数学研究的国际影响力是最高的。

我们以美国《数学评论》(MR)光盘(1993-2005/05严为数据来源,用统计数据揭示国际数学论文的宏观产出结构。通过对《MR》收录中国学者发表数学论文每年的总量及其在63个分支上的分布统计，将中国数学论文的产出置于一个相对明晰的国际背景之下，借以观察中国数学的发展态势。此外，我们还以中国科学院文献情报中心《中国数学文献数据库》（CMDDP为数据来源，统计了中国数学论文在63个分支领域的分布，并对其中获国家自然科学基金资助或国家自然科学基金委员会数学天元基金资助的论文情况进行了定量分析。上述数据库均采用国际同行认可的《数学主题分类表》（MSC),分别在国际、国内数学领域具有一定的影响力和相当规模的用户群。

《MR》光盘收录发表在专业期刊、大学学报及专著上的数学论文，其收录范围非常广泛。1993~2004年共收录论文769680篇，其中有74988篇是由中国学者参与完成的，我们称之为中国论文。这里中国论文是指《MR》的论文作者中至少有一位作者是来自于中国(即《MR》光盘中所标注的“PRC”）。12年中，中国论文数占世界论文总数的9.74%。

《CMDD》收录中国国内出版的约300种数学专业期刊、大学学报及专著上刊登的数学论文，此外，还收录了80种国外出版的专业期刊上中国学者发表的论文，并对那些获国家自然科学基金或国家自然科学基金委员会数学天元基金资助的论文进行了特别标注。

2.1《MR》收录中国论文的统计分析

考虑到二次文献的收录时差，为保证数据的完整性，选取的是1993~2004年的文献数据，检索结果如图1所示。数据显示，《MR》12年来收录的中国论文呈现出稳步增长的势头,中国论文的增长速度要大于《MR》总论文数的增长速度。

2.2《MR》收录论文在数学各分支上的分布

为避免重复计数，在对63个数学分支进行统计时,均按第一分类号统计。按2000年《MSC》提出的修订方案，将1993~1999年的数据进行了合并和调整。图2显示了国际数学论文在63个数学分支上的分布。

数学各分支占论文总产出的百分比在一定程度上反映了该领域的研究规模，而相应分支学科的研究热点变化也是统计中着重揭示的问题。在实际统计中，跟踪热点变化主要是通过这63个数学分支的时间序列分析完成的。统计数据揭示的主要特征和趋势如下：1993〜2004年，国际数学或与数学相关论文产出百分比最高的前10个分支依次是：量子理论（81)、统计学（62)、计算机科学（68)、偏微分方程（35)、数值分析（65)、概率论与随机过程（60)、组合论（05)、运筹学和数学规划（90)、系统论/控制（93)、常微分方程（34),这10个分支的产出占总体产出的42.5%。

隹某些分支领域表现出良好的增长势头，如统计学领域的论文数量近3~4年增长较快，有取代量子力学成为现代数学最大板块的趋势。对统计学进一步按照次级主题分类进行统计，结果表明论文产出主要集中在非参数推断（62G)方向（见图3)。

2.3《MR》〉收录中国论文在数学各分支上的分布

MR收录中国学者的数学论文的主要特点表现在以下几个方面：

參1993~2004年论文产出百分比最髙的前10个分支领域依次是偏微分方程（35)、数值分析（65)、常微分方程（34)、系统论/控制（93)，运筹学和数学规划（90)、统计学（62)、组合论（05)、概率论与随机随机过程（60)、动力系统和遍历理论（37)、算子理论（47)，这10个分支的产出占总体产出的52.25%。

偏微分方程（35)是中国数学论文产出的最大分支，对偏微分方程的二级分类进行细分，结果见图5。

从图中可以看出数理方程及在其它领域的应用（35Q)所占比重较大。同时，根据对35Q的下一级分类的追踪发现，关于KdV-like方程（35Q53)、NLS-like方程(35Q55)的论文有增加的趋势。

差分方程（39)、Fourier分析（42)、计算机科学（68)、运筹学和数学规划（90)、对策论/经济/社会科学和行为科学（91)、系统论/控制（93)、信息和通讯/电路（94)表现出一定的增长势头。

结合环和结合代数（16)、逼近与展开（41)、一般拓扑学（54)、大范围分析/流形上的分析（58)、概率论与随机过程（60)等表现出下降趋势。

与《MR》收录数据的主题分布所不同的是中国的量子力学和统计学均没有进入前5名，量子力学排到了第12位，且有下降趋势。计算机科学（68)、常微分方程（34)在《MR》中分别排在第3位和第10位，而中国数学论文中，常微分方程位居第3，计算机科学位居第11。

1993~2004年《中国数学文献数据库》收录论文统计分析

1993~2004年《CMDD》收录中国学者发表的论文总数达到93139篇。从这些论文在63个数学分支上的分布中可以看出，这63个数学分支学科的发展是不平衡的。对这63个数学分支的论文产出的时间序列分析发现，有些分支增长较快，如运筹学和数学规划（90),对策论/经济/社会科学和行为科学（91),有的变化不大，如几何学(51-52)。

通过对《CMDD》的数据统计，表明中国数学文献的学科分布有如下特点：

參1993〜2004年论文产出百分比最高的前10个数学分支依次是数值分析（65)、运筹学和数学规划（90)、常微分方程（34)、偏微分方程（35)、统计学（62)、系统论/控制（93)、计算机科学（68)、组合论（05)、概率论与随机过程（60)、对策论/经济/社会科学和行为科学(91)，这10个分支的产出占总体产出的56.0%。

一些分支表现出良好的成长性。如数理逻辑与基础（03)、矩阵论（15)、实函数（26)、测度与积分(28)、动力系统和遍历理论（37)、Fourier分析（42)、变分法与最优控制/最优化（49)，运筹学和数学规划(90)、对策论/经济/社会科学和行为科学（91)、生物学和其它自然科学（92)、系统论/控制（93)、信息和通讯/电路（94)。

參一些分支所占比重下降。如逼近与展开（41)、一般拓扑学（54)、概率论与随机过程（60)、统计学(62)、数值分析（65)等。

參在排名位于前10位的数学分支中，量子理论(81)在《MR》、PRC(《MR》的中国论文）和《CMDD》中所占比重有较大的差异，其余的9个分支尽管所占比重不同但基本上都能进人分布的前10名，例如，计算机科学（68〉在《MR》数据组的排名是第3位，到PRC和《CMDD》数据组就下降到第11位和第7位，在《MR»数据组的排名分别是第8位和第10位的运筹学和数学规划（90)和常微分方程（34),在PRC数据组中，则上升到第5位和第3位，在《CMDD》数据组则为第2位和第3位。这些排名的变化可以部分地揭示出中国在量子理论、计算机科学的交叉研究等方面稍有欠缺，但在数值分析、运筹学（含数学规划）等方面，中国具有相对的竞争优势。

组合论（05)在《MR》、PRC和（(CMDD》中所占比重较为一致，分别位居第7、第7和第8位。数据表明组合论中的二级分类图论（05C)的论文产出比例最高，对图论主题进行进一步分析，发现这几年成长较快的图论领域的研究论文大多集中在图和超图的着色（05C15),其次是因子、匹配、覆盖和填装(05C70)。在图论的这两个三级分类上，中国学者的论文产出与国外非常吻合。

本文中的“基金资助”指的是国家自然科学基金或国家自然科学基金委员会数学天元基金的资助。为统计方便，二者统一按基金资助处理。1993~2004年《CMDD》收录的获基金资助的论文共计27662篇，受资助力度达到30%左右。表8显示，获基金资助的论文近年来有不断上升的趋势。2005年《中国数学文摘)>第6期附表1说明《中国数学文摘》和《CMDD》2005年收录的论文受基金资助的比例达40%以上。《CMDD》收录的获基金资助的中国论文在数学各分支上的分布特点如下：

在数量上，前10个分支领域为：数值分析（65)、系统论/控制（93)、偏微分方程（35)、运筹学和数学规划（90)、计算机科学（68)、常微分方程（34)、统计学（62)、概率论与随机过程（60)、组合学（05)、对策论/经济/社会科学和行为科学（91)，这10个分支占总体产出的60.2%。

大数据分析论文例7

分类号 G253

DOI 10.16603/j.issn1002-1027.2016.04.008

1 灰色文献的内涵

灰色文献（Grey Literature，Gray Literature，简称GL），是相对于白色文献和黑色文献而言的，它介于白、黑文献之间，是指不具有国内统一刊号（CN）或国际标准刊号（ISSN）的文献。1997年在卢森堡召开的“第三届国际灰色文献会议”，赋予灰色文献的定义是：灰色文献是指出版商不以营利为目的，由各级政府部门、学术机构、工商业界等所推出的各类电子和印刷形式的资料。目前，灰色文献的“卢森堡定义”已被广泛接受。

灰色文献主要包括政府报告与文件、技术档案（技术规范、标准和工具手册等）、科研数据、科技报告、调查报告、政策文件、内部刊物、私人信件等。有的灰色文献属于内部发行，未公开发表的研究结果和数据也被认为是灰色文献。灰色文献具有出版灵活，内容丰富，分布广泛、分散，不定期、半公开出版等特点。在当今网络时代下，互联网是推出和获取灰色文献的一个重要的、广泛利用的平台，例如博客、微博、电子出版物、开放获取和数字文档等，称为网络灰色文献（以下简称e-GL）。网络灰色文献相对印刷型灰色文献而言，具有便利、检索快捷、内容丰富、信息量大等特点。灰色文献晦涩难懂、类型繁多、涵盖面广，而且缺乏书目控制，流通面窄，发行和收集也缺乏系统化手段，质量审核和生产标准也各不相同，往往难以获取、访问和评估。

灰色文献是科学研究的重要信息源，是最原始的、第一手的信息，是信息时代推动科学研究、经济发展以及社会文明进步不可缺少的重要信息资源。其相对重要性很大程度上取决于学科的研究方式及其对资源的需求。例如，医学就需要大量灰色文献，灰色文献可为医学政策的制定和医学研究提供珍贵信息。临床实践指南、医学研究报告、医疗项目评估材料、医疗法规等，都属于灰色文献，可以为医务工作者和临床决策提供宝贵的、客观的、全面的信息资源。

2 Meta-分析的内涵

Meta-分析（Meta-analysis），又称汇总分析、荟萃分析，是以同一课题的多项独立研究的结果为研究对象，在严格设计的基础上，运用适当的统计学方法对多个研究结果进行系统、客观、定量的综合分析，Meta-分析是一种定量合成的统计学方法。

Meta-分析的步骤是：提出研究问题、检索相关文献、提取数据、选择并且合并效应量、进行异质性分析、进行敏感性分析和进行发表偏倚分析等。在“检索相关文献”阶段，包括制定检索策略，全面、广泛地收集与研究对象相关的随机对照试验（Ran-domized Controlled Trial，简称RCT）的所有文献。对于研究数据的全面性和准确性要求较高。

3 常用适于Meta-分析的网络灰色文献资源分布

近年来，国外专门从事灰色文献研究与开发的机构纷纷成立，尤其是欧美国家。Meta-分析中的e-GL可以提供最原始的文献，是重要的、珍贵的信息源，可以拓宽研究的视野，为Meta-分析提供更完善、更全面、更客观的证据，为各种决策提供帮助和参考。

3.1 国内适于Meta-分析的e-GL资源分布

适于Meta-分析的e-GL可以通过综合性搜索引擎的学术搜索来进行筛选、获取，比如：必应学术搜索（http：///academic）、百度学术搜索（http：///）、谷粉搜搜（ht-tp：///）、谷歌学术搜索（http：//scholar.google.corn/）等。

国内至今还没有专门检索灰色文献的数据库或网站，更没有专门检索用于Meta-分析的e-GL数据库或网站，用于Meta-分析的e-GL可以通过检索国内循证医学的相关网站来获取，比如：中国cochrane中心（http：///）、中国临床试验注册中心（http：//.cn）；通过天津中医药大学、北京大学、复旦大学、兰州大学等循证医学中心网站，也可以获取适于Meta-分析的e-GL。

2015年12月25日，北京大学开放研究数据平台测试版（简称北大数据平台）上线运行。提供研究数据的保存、管理与、共享、下载等服务。开创了国内获取科研数据中的灰色文献的先河。通过综合性搜索引擎的学术搜索服务，来检索适于Me-ta-分析的e-GL，不够系统、全面，检索效果也不是很理想。此外，也可以通过某些博客或微博、微信等来获取灰色文献，但是通过这些方式获取灰色文献的难度较大，可靠性也有待考证。

3.2 国外适于Meta-分析的e-GL资源分布

国外拥有比较成熟的灰色文献管理和服务体系，主要分布在欧美国家。

3.2.1 国外重要的e-GL

国外常用的灰色文献网站主要有（详见表1）：

（1）国际灰色文献（GreyNet International，简称GreyNet），或灰色文献网络服务组织（Grey Litera-ture Network Service），成立于1992年，致力于网络灰色文献的研究、出版、开放获取，是国际灰色文献研究的权威机构。GreyNet网站的主页上，点击“OpenGrey Repository”链接，进入Open Grey检索界面。

（2）欧洲灰色文献信息系统（SIGLE）

目前在灰色文献的开发与利用方面，以欧洲灰色文献利用协会（European Association for GreyLiterature Exploitation，简称EAGLE）推动的合作计划“欧洲灰色文献信息系统”（OpenGrey Reposi-tory-System for Information on Grey Literaturein Europe，简称SIGLE）最为重要。SIGLE始建于1980年，由法国提议，共有17个成员国，均是重要的情报中心或文献提供中心。截至2005年2月，SIGLE的书目数据库共有85.5万条记录，年增6万条，月更新。SIGLE和GreyNet都收集自然科学、社会科学及工程技术等领域的灰色文献。

（3）欧洲灰色文献信息系统（Open Grey，简称OG），是由欧洲推出的包括70万条灰色文献的参考书目数据库，通过开放获取的形式，用户可以查找文献并导出记录。系统涵盖科技、生物医学、经济学和人文社科等学科。收录技术报告、研究报告、博士学位论文、会议论文、政府出版物和其他类型的灰色文献。该网站包括GreyNet会议文献的全文预印本，是SIGLE开放存取的窗口。

另外，还有其他常用的灰色文献网站：美国国家技术研究报告（National Technical InformationService，简称NTIS）；不列颠图书馆（The British Li-brary，http：//WWW.b1.uk/）等，通过上述这些灰色文献网站，可以筛选出适于Meta-分析的e-GL。还有其他一些免费提供全文的网站，如：DOAJ（ht-tps：///）和PLOS等，也可以检索到灰色文献（详见表2）。

3.2.2 国外重要的适于Meta-分析的e-GL网站

检索国外适于Meta-分析的灰色文献网络资源，可通过医学灰色文献网站和循证医学网络资源来挖掘（详见表3和表4）。

4 灰色文献对Meta-分析结果的影响及对策

决策需要考虑多种影响因素：出版语种、出版状况、出版质量和个性化研究水平等。关于出版状况方面，需要考虑的主要因素是纳入灰色文献（例如，未公开发表的研究，或发表受限、内部交流和/或不列入书目检索系统的文献）。

4.1 纳入灰色文献，减少Meta-分析的发表偏倚

Meta-分析中，阳性结果的论文（结果具有统计学意义的研究，P0.05）更容易被接受和发表，阳性结果的论文被引频次也高于阴性结果的论文。总之，阳性的Meta-分析结果比阴性的更容易发表，这种现象称为发表偏倚。发表偏倚的存在可能会影响数据的可用性和可信度，严重地威胁Me-ta-分析的有效性。发表偏倚所带来的直接后果是对现有的研究进行过度评价，使得Meta-分析的阳性研究结果过分夸大，或者夸大危险因素的强度，甚至得到相反的结论。

发表偏倚对Meta-分析结果的真实性、全面性和可靠性的影响正越来越受到关注与重视，纳入了灰色文献的Meta-分析可能有助于克服发表偏倚的一系列问题，为解决这些问题提供更全面和客观的参考。然而，Meta-分析所纳入的灰色文献，大部分都局限在正式发表的范围，许多有意义的灰色文献因未正式发表、未公开出版而被忽略，这样就存在结论偏倚的风险，甚至可能会改变整体的结论。据报道，已经发表了的采用Meta-分析的文献只有31%包括了灰色文献。69%的灰色文献被排除在Meta-分析之外。积极鼓励和指导研究者采用灰色文献，对减少Meta-分析的发表偏倚尤为重要。当具有某种学科特色的灰色文献数据库或研究数据管理系统建立之后，要利用尽可能多的途径加强宣传，积极动员相关领域的研究者试用，使用户了解、熟悉、掌握乃至喜欢并主动推广这些灰色文献数据库和研究数据管理系统。应关注用户的使用感受，根据他们反馈的意见逐步完善数据库及其检索系统，使数据库更加适合用户使用。

4.2 建立灰色文献数据库，增加Meta-分析的文献完整度

Meta-分析结果的影响因素是多元化的，其中一个重要因素是未能全面广泛地收集与课题相关的RCT。Meta-分析有个重要步骤是“提取数据”，其中包括RCT原始实验的各种数据结果、图表等。Me-ta-分析的结果高度依赖这些基础数据，这就要求Meta-分析的研究者要尽可能多地获取相关研究的RCT实验数据，以便进行准确、全面、客观的统计分析。目前一些健康研究的证据也支持这个观点，这表明如果Meta-分析忽略未公开发表的研究，可能会夸大治疗效果。但是一般情况下，研究者所获得的是已经公开发表的论文数据，还有许多实验数据处于半公开或未公开状态。最佳的检索策略是结合异构数据库检索平台，提高收集数据的完整性。与课题相关的灰色文献的缺失始终是课题研究的缺憾，这与灰色文献的流通面窄、分散，难以收集、管理、检索等因素有关。由于灰色文献的不易获得性，给图书馆提供了针对灰色文献进行研究数据管理的契机。图书馆应该发挥文献资源管理方面的优势，结合本校优势学科或本地的区域特色，收集科研人员，特别是知名专家的灰色文献。应多方面与研究专家积极沟通，采取捐赠、购买、代藏、版权合作等方式收集特色学科的研究资料，建立特色数据库或科研数据管理系统。图书馆可以从建立本校科研人员的特色研究数据管理系统入手，逐步扩展到联合其他同类高校图书馆建立联合特色研究数据管理系统，为广大研究人员服务。为研究人员做Meta-分析的时候提供这些灰色文献的研究数据，能进一步提高Meta-分析的研究质量，增加Meta-分析所需文献的完整度。

大数据分析论文例8

从目前的情况来看，完全用计算机代替科技情报研究人员进行情报分析工作是不现实的，因为很多情报的判读需要科技情报研究人员常年累积的经验，计算机可以做的是在最大限度上用计算机代替人工做重复性的工作。此外，情报领域与计算机领域有一定距离，情报研究人员往往不懂计算机技术，甚至对软件的使用都感到棘手。针对上述实际需求，需要开发一个无监督的系统，该系统可以按照需要自动采集数据，并可以对数据进行去重、分析。

基于以上背景，本文计划在钱学森提出的综合集成研讨方法指导下，基于数字档案平台、科技报告系统等数据库设计建立一套以人为主，数据、信息、知识和智慧综合集成，高度智能化的人机结合智慧情报系统，从系统的物理构成来看，包括三部分：一是由参与情报解读的专家组成的专家体系；二是由为情报工作人员和专家提供各种信息服务的计算机软硬件技术组成的机器体系；三是由各种形式的信息资源组成的知识体系。从情报分析过程来看，该系统包括三部分：一是基于专家体系经验判读的定性情报综合集成系统；二是基于数据采集处理工具的定量情报分析综合集成系统；三是从定性情报到定量情报的综合集成系统。总之，该系统的建设不仅需要建立由不同学科、不同领域专家组成，具有能面对复杂巨系统问题所需要的合理知识结构的专家体系，而且还需要设计开发能够有效处理海量数据的工具，实现信息的高效采集与精确分析。从技术构成分析，归类能力、关联性分析能力、辅助解读能力、报告辅助生成能力是该系统应具备的几大核心能力。

文章将主要运用信息智能检索、数据统一结构化、信息抽取、机器学习、自然语言理解等前沿的数据挖掘分析技术，对各数据库的结构化与非结构化文本进行处理，实现对海量信息的数据挖掘，完成数据的关键词输入、引文爬取、数据解析分析、统计。最终形成关于学术专题情报报告雏形。

二、学术专题档案情报快速辅助生成系统功能需求分析与系统设计

大数据时代的数据特征为情报服务过程中数据采集提出了严峻的挑战，档案数据库和科技报告数据库等结构化信息异构、重复，质量参差不齐，时效性不强，使数据整合成为基础数据资源建设的难点；其次是是如何通过大数据时代高度发展的移动互联网技术，充分利用人际网络获得一手数据，并与网络、文献和数据库信息进行整合，也成为大数据环境下数据采集的难点。与此同时，无论何种数据来源，由于数据的价值密度低，数据筛选技术都是关键的技术难题。

本系统通过利用网络环境下的搜索引擎技术、本体库、SVM分类算法、聚类算法和信息筛选技术，构建面向大数据的档案数据库数据、科技报告数据库数据、人际网络数据和信息筛选的大数据采集与筛选工具，为情报服务的数据资源建设提供工具。

（一）系统需求分析

1.搜索需求：互联网数据库信息是情报服务的主要数据来源之一，搜索引擎技术的发展为互联网数据的获取提供了便捷、高效的工具，但是由于算法本身局限性，普通搜索引擎只能采集到约10-30%的信息，只能完成情报大概情况的收集，不能满足情报检索中查全率的要求，对于查准率也只能满足部分要求，这种现状对于情报服务来说，是对互联网信息资源的浪费。本系统需要在普通搜索引擎的基础上通过重点、互动、专业垂直搜索，完成深入的、交互式的、专业的科技情报搜索。本部分的科技情报专用搜索工具是由元搜索系统、重点搜索系统、互动搜索系统、垂直搜索系统和深网接口系统封装在一起构成。

2.大数据筛选：数据库数据具有数据价值密度低的特点，因此，数据的筛选对于情报服务的质量尤为重要。数据来源的广泛性使得大数据难以根据同一标准进行筛选，因而计算机难以独立完成筛选工作。本系统根据研究内容设定采集数据的范围，将采集得到的数据去噪、剔除相似数据后，根据领域词汇距离、情报点关键词录、情报报告关键词录摘录出较具情报价值的信息，力争把以十万计的海量信息压缩到600条以内，同时保存足够的核心信息，并采用人机结合的工作方式，提供专家判读的界面，为数据筛选的准确性提供保障。

3.动态情报跟踪与基于科技主体的社会网络情报需求。搜索引擎完成的是面向互联网数据库数据的静态数据获取工作，然而对于情报服务来说，动态跟踪能够展现情报研究对象的活动轨迹，对于情报分析具有十分重要的价值。根据社会网络理论，完成科技主体（单位和个人）相互关系的表达，从而确定某一主题下各个科技主体的特征，以使我们能从中找到适合进行情报分析判读的行业专家。本系统基于移动网络环境下的情报采集技术，创新情报采集模式，全面采集由情报所所内人员、行业专家、专业情报员，通过科技情报生产的规范化流程、规范化方法，依照科技情报质量控制体系，在情报分析模型方法库和情报分析方法工具包的协助下，完成情报的分析流程。

（二）系统模块设计

本系统根据关键词并行进行科技报告系统网页爬取与数字档案馆中的科技档案爬取，获取有效的网页信息与档案信息，去重、去噪后得到需要的网页信息与档案信息。对数据进行特定的处理，采用特定的算法对获取的数据进行处理分析，生成需要的图表格式并得出结论。具体流程如图1所示。

按照档案情报流程节点的不同，该学术专题情报快速辅助生成系统可以细分为几个大模块：搜索大模块，控制大模块，整理大模块，分析大模块及结论生成大模块。大模块下又可细分为几个小模块。学术专题情报快速辅助生成系统模块划分如图2所示

1.搜索模块：搜索大模块主要有科技报告系统网页搜索模块和数字档案搜索模块两大模块。网页搜索模块致力于在科技报告系统网络上搜索与关键字相关的网页集合，为后续的操作提供初始的科技报告系统网页信息材料来源。数字档案搜索模块是在制定好的数字档案馆中搜索与关键字相关的档案集合，得到与关键字有密切关系的档案集合，为之后的整理分析等工作提供初始的材料来源。

2.控制大模块：控制大模块主要有两个小模块：内存控制模K和线程控制模块。无论是从网页中获取信息还是从档案库中获取信息，系统在获取信息过程中获取的信息容量比较大，所以需要内存控制模块来高效的非配运行此系统的计算机的内存，以提高系统运行效率。由于要获取的信息内容十分多，因此采用并行技术进行获取信息的操作。

3.整理大模块：整理大模块主要有科技报告系统网页内容整理模块和档案库内容整理模块两大模块。科技报告系统网页内容整理模块只要是对获取到的网页进行去重，去噪等处理，得到干净、整齐的网页内容。档案内容整理模块是对已经获取到的档案集合进行去重，去噪等处理，获取格式整齐的档案内容，以便进行后续工作。

4.分析大模块：分析大模块主要有科技报告系统网页内容分析模块和档案内容分析模块两大模块。科技报告系统网页内容分析模块是对前边已经处理过的网页信息采用分类，对比等特定分析方法对这些内容进行分析，以帮助后边的模块得到想要的结果。档案内容分析模块是针对之前通过搜索，处理得到的整齐的档案信息内容采用特定的分类，对比等分析方法对档案内容进行分析，得到分析的结果。

5.结论生成大模块：结论生成大模块主要有科技报告系统网页生成结论模块和档案生成结论模块两大模块。科技报告系统网页生成结论模块使用通过关键词筛选出的网页信息经整理、分析得出的结果采用表格，图表等方式展现给用户，让用户对结论有一个直观的了解。档案生成模块使用通过关键词帅选出的论文信息经过整理、分析得到的记过采用与网页生成结论模块基本相同的样式，如表格、柱状图、饼图等方式向用户展示该关键词搜索的内容的结果。便于用户进行相关的决策等。

（三）系统架构设计

系统结构共包括元搜索模块、垂直搜索模块、URL调度器、数据存储器、多线程控制器、源码解析器和数据分析模块，其中元搜素模块主要是对科技报告系统网页数据进行检索；垂直搜索模块主要是对档案数据库进行检索。由于网页数据与档案库的格式差异较大，故本系统开发两个软件分别对网页数据和档案数据进行处理。从系统结构上来说，除了信息采集模块外，两个软件的结构基本一致，都是通过上述模块进行相互协调控制。用户在系统运行初始化时对相关参数进行设置，如检索的最大页数、检索的时间间隔等，然后输入关键词，系统结合上述功能模块就可以脱离人工自动对数据进行检索和处理，最终实现无监督的信息采集工作。

系统的基本流程：在传统网络爬虫的基础上进行改进对网页信息进行抽取，将下载下来的数据保存到内存中，与之前的一级链接相同，当内存中的数据超过一个阈值时，将它们输出到本地文件中。

当全部数据抓取下来后，数据被分为网页数据与档案数据，由于档案数据是标准的结构化数据，并且科技档案技术方案的重复率并极低，也不存在大量噪声数据，因此可以通过系统的数据分析模块对档案数据进行分析。

三、学术专题档案情报快速辅助生成系统的功能实现

大数据分析论文例9

中图分类号：G642.0 文献标志码：A 文章编号：1674-9324（2015）38-0060-02

一、MOOC与优课联盟

MOOC，即Massive Open Online Courses（大规模开放在线课程，中文名：慕课），起源于开放教育资源运动和连通主义理论思潮，2012年出现了三大最知名的MOOC平台，分别是Coursera、Udacity和edX，称为全球MOOC元年，2013年以来MOOC在国内外呈现风起云涌之势，2013年被称为中国MOOC元年。

随着MOOC不断发展，UOOC联盟应运而生。2014年5月由深圳大学发起成立地方高校联盟，简称UOOC联盟（University Open Online Course，中文名：优课，U代表University和Union二层含义）。2014年9月18日UOOC联盟首批7门课程正式上线运行。UOOC联盟的宗旨是：通过大规模开放在线课程的共建、共享、共赢，达到优质教育资源共享，降低教育成本和协同创新的目的。

二、大数据与大数据分析

大数据（英语：Big data或Megadata），又称为巨量数据、海量数据、大资料，目前学术界对于大数据的概念，并没有一个统一的定义和标准，不过，业界对大数据所具备的4V特征已经达成共识。一是数据体量巨大（Volume）；二是数据类型繁多（Variety）；三是处理速度快（Velocity）；四是价值密度低（Value）。

大数据分析除了许多常规的统计分析方法外，还有许多特有的核心分析技术，比如数据挖掘、机器学习、社交网络分析、舆情分析、推荐引擎等。

目前国内利用大数据分析MOOC学习者的学习行为与学习效果的研究屈指可数。为此，笔者通过收集UOOC联盟平台上的第一手数据，以大数据的视野和分析技术来进行MOOC学习行为与学习效果的研究。

本文采用大数据分析法等深入研究选修UOOC平台上的7门课程的学习者的基本信息、学习行为、课程间各指标间的对比，在此基础上提出MOOC的不足以及提出相应的对策。本文以C1、C2、C3、C4、C5、C6、C7代表有一定的代表性的《唐宋词与人生》、《积极心理学》、《模拟电子技术导论》、《概率论与数理统计》、《大学计算机》、《古典文学的城市书写》、《文献管理与信息分析》这7门课程。

三、学习行为与学习成效分析

首先介绍UOOC联盟平台上首批上线的7门课程的基本情况、注册人数等，其次从课程的访问情况、视频观看情况、作业完成情况、讨论等四个方面来分析学习行为以及与学习成绩、完成率、辍学率间的相关性。

（一）基本情况分析

1.注册人数。2015年1月，学习者完成了首批上线的七门课程的相关学习。笔者从平台后台收集的数据统计，注册7门课程的人数如下图1：

由上图显示的数据可知，7门课程的平均注册人数为795.4人，总计5547人，最多的人数为1783人，最少的是248人。此数据受UOOC联盟平台的注册权限的限制，需要身份认证，必须是联盟高校的学习者。

2.七门课程的基本情况。

（二）学习行为分析

1.学习页面访问情况。学习者访问学习页面是学习的一个重要环节，从平台后台收集的数据显示，七门课程的平均页面访问数为25次，其中最高达到422次，但也有一部分学习者只注册却从未进入学习页面。数据显示的结果也表明了学习者学习的积极性不高，并且存在很大的差异性。

2.视频观看情况。MOOC平台上的学习资源主要以5～15分钟的短视频为主，学习者学习的主要活动是观看教学视频。七门课程的视频总时长最长达到981.2分钟，最短为357.9分钟，平均时长为9.3分钟；7门课程的总观看时长最长是619680.2分钟，个人观看时长最长达到1558.7，最短是0分钟，平均观看时长是492分钟。

3.讨论情况。UOOC联盟平台上的学习者讨论主要有四种情况：发表讨论、回复讨论、置顶讨论以及加精讨论。7门课程的总讨论数为18441次，七门课程中最高讨论数为2616，最低为0次，置顶讨论与加精讨论相对于发帖与回帖而言明显减少，置顶讨论的总次数最高是8次，加精讨论的总次数是86次；平均讨论次数3.6次，平均发表讨论为1.06次，平均回帖次数为2.54次；由数据可以分析得出，回帖的次数多于发帖的次数，在一定程度上说明了学习者学习较被动，主动性还有待提高。

4.任务完成情况。UOOC联盟平台上7门课程的总任务数为785个，平均任务数为112个，最多任务数为163，最少的任务数为43个；在7门课程中，任务全完成占总人数的比例最高达到43%，最低4%；任务完成一半以上占总人数的比例最高为53%，最低为13%；在这七门课程中一项任务都没有完成的人数最高达到58%，最低的占到23%，这一数据也反映了在学习过程中很大一部分学习者是只注册账号，从未完成学习的任务，学习积极性高的学习者与学习积极性不高的学习者之间存在很大的差别。

（三）学习成效分析

1.及格率、辍学率及结课率情况。UOOC平台首批上线的7门课程中，平均及格率为19%，平均辍学率为45%，平均结课率为55%，及格率最高的是课程C6，辍学率最高的是C5，结课率最高的是C4；这些数据说明7门课程的结课率高于辍学率，大部分学习者能够完成相应的课程，但是从及格率来看，学习者的学习成效还不够理想。如表2所示：

大数据分析论文例10

Abstract：In the big data era， data analysis can affect the development of archival cause. At present， the benefit of data analysis is dissatisfactory because of lacking settled analysts in archival field. This paper addresses the post requirements， the post duties and the quality demands of data scientists in archival field.

Keywords：big data of archive； data scientist； post requirements； post duties； quality demands

大数据时代，数据成为重要的战略资源。在电子办公深度与广度不断拓展的进程中，人类对数据“精、准、深”的要求日益突出。在基于数据决策、依赖数据管理等“以数据说话”的理念日益深入人心的大环境下，作为大数据的关键组成部分――档案大数据的地位和作用也逐渐凸显出来，它是大数据重要维度即历史维度数据的核心，在各个领域都有很好的应用前景。但是，应该看到，受保密、档案管理机制等因素的制约，档案大数据的应有价值还没有得到充分发挥，档案大数据与其他数据的整合还有一段很长的路要走。为提升档案资源建设与利用效益，对档案大数据进行分析，优化档案事业发展方案，更好地为领导决策和各领域工作的开展提供数据支撑，成为档案工作的重要组成部分，这就需要档案资源和档案事业数据的鼎力支撑。虽然从国家主管部门到各级档案馆（室），都在开展档案数据的统计和分析工作，但是，由于缺乏固定而专业的分析人员，从数据统计和分析的全面性、系统性、多维性、深入性和规范性等方面看，仍有待进一步增强。在此种形势下，档案大数据作用的发挥和档案事业发展的科学性很大程度上取决于档案部门自身结构的优化和管理资源使用效益的提升。

1 档案领域数据分析师岗位设置的意义

大数据时代，数据分析在各领域有着十分重要的意义，各行业对数据分析师的需求与日俱增。与其他数据相比，档案大数据很大一部分源于政府、军队等组织机构的活动，具有权威性和凭证性等不可替代的价值特点，虽然有着服务社会、服务百姓的义务，但又必须确保国家利益不受侵害。因此，在行业内部设立数据分析师岗位不仅是社会需求、也是档案行业组织机构结构优化的内在需要。

1.1 优化档案资源体系建设的需要。从局部看，各级档案部门都不同程度地存在着档案收集不齐全、著录不规范等问题。从整体看，各档案部门之间存在着档案资源交叉重复、数据异构等问题。系统地设置统计项目，全面地对档案资源建设现状进行分析，就可以准确地发现档案资源体系建设中的弱项和“瓶颈”。通信网络和数字设备发展实践告诉人们：当今，电子文件的增长几乎达到了几何级。例如，阿富汉战争期间，美军为打击一小股，其情报侦测、监视系统24小时产生的数据量就达53TB。在如此大的数据量面前，如何分类电子文件、确定保管期限？网站、微博、通讯交友软件等产生的数据，哪些是需要作为电子文件保存的、又该如何保存？现有馆（室）藏档案资源，哪些方面需要丰富、哪些方面需要“瘦身”？如何从国家层面调控档案资源体系建设？这些均有待于档案领域数据分析师从“保存历史、服务社会”视角、以可靠的数据和科学的分析给出建设性的解答。

1.2 分析和把握档案利用规律的需要。档案资源的利用是有规律可循的，掌握了这个规律对于提升档案资源利用率是十分有益的。有的档案资源，其利用具有扩展效应，即一次成功利用可能会激发人数更多、范围更广、程度更深的利用，例如名人档案、著名战役档案、历史典故档案等；有的档案资源，其利用具有递减效应，即一次成功利用之后可能很长时间内不会再有第二次利用，例如事关普通百姓的个人档案。如果机械地根据其前段时间的关注热点推荐档案信息服务产品，则不仅达不到理想效果甚至还会引起用户反感。依托数据分析师的科学分析，有助于档案部门聚焦服务热点，提前做好档案信息服务预案，根据用户需求方向准确提供档案资源及其编研产品服务。

1.3 推动档案管理科学发展的需要。近年来，档案事业出现了一派欣欣向荣的景象，尤其是档案信息化建设、民生档案的收集与管理等得到了长足发展。但是，无论是硬件建设、还是软件建设，离精细式、集约化科学发展尚有一定距离，这就需要发挥档案大数据的决策助手作用。对于不同学识背景、不同工作经历、不同职业精神的数据分析人员来说，同样的统计数据得出的结论也是不尽相同的。设置固定的数据分析师岗位，则有益于提升数据统计和分析工作的科学性。通过数据分析师对档案事业分门别类的统计和分析，可以有效地冲破经验主义思维的“篱笆”，发现和把握新形势下档案管理工作的发展规律，更加统筹、协调和集约化地利用管理资源，构建档案事业发展的良好生态。

1.4 更好地服务社会发展的需要。如果说“读史可以明智”只能模糊地形容档案的作用，档案大数据在金融、医药、卫生、交通、安全和军事等领域的成功应用，已经很好地量化和解释了档案大数据的价值。它是转换思维方式、科学决策的直接支撑，是引领社会更快、更好发展的“催化剂”。设置档案大数据分析师，无疑会有助于提升档案信息服务于社会的广度与深度。同时，也有助于档案部门把握契机创新服务社会的模式与内容。

2 档案领域数据分析师的岗位职责

档案领域数据分析师，可以依据各级主管部门、档案馆（室）的编制和事业发展状况合理配置，其职责主要是从档案资源建设、档案利用、档案事业综合发展以及档案文件内容等方面进行数据统计和分析，并制定优化方案和提出发展规划建议。

2.1 档案资源数据统计和分析。档案资源数量统计和分析，主要是对馆（室）藏或者主管范围内的档案资源数量情况进行统计和分析，包括对各全宗文件数量的分类统计和分析、同类全宗文件数量的对比分析、现行全宗文件产生量与归档量的对比分析、永久档案与定期档案数量的对比分析、不同类型载体档案数量的对比分析、不同地域不同系统档案移交数量对比分析、不同时期档案数量对比分析、不同密级档案数量对比分析等。

档案资源质量统计和分析。主要是对馆（室）藏或者主管范围内的档案质量情况进行统计和分析，包括档案资源载体和信息完好度分析、档案资源结构分析、档案著录情况分析、档案信息化建设情况分析、档案目录数据库质量分析、档案全文数据质量分析、档案缩微情况分析、档案修复情况分析等。

档案资源优化方案的制定。基于馆（室）功能，在科学分析的基础上，提出一定范围内档案资源体系建设优化方案。主要是从档案资源结构和数量视角，有重点地对现有档案资源进行丰富、再鉴定工作。对明显存在缺失的馆（室）藏方向，分析档案资源可能的分布点，为收（征）集工作提供指导。具体分析档案著录、目录数据库构建情形，提供档案著录尤其是电子文件著录以及档案目录数据库优化方案。必要时，对全文数据质量进行优化。根据档案完好度统计，制定档案修复计划。

2.2 档案利用数据统计和分析。档案利用人群统计和分析。主要是对用户基本情况进行统计和分析，包括用户职业、单位、年龄、学历、档案专业知识、兴趣点、档案意识等，从共性和个性等方面进行分析和研究。

档案利用目的、利用效益统计和分析。主要是对档案利用目标和用户所获得的收益进行分析。从编史修志、工作查考、解决个人问题等方面对档案利用目的作进一步细分，分别进行统计和分析，并关注其利用效益。同时，分析一定时期内得到用户关注和利用的档案资源，尤其是得到用户重点关注或利用的档案资源。

档案检索效率统计和分析。主要是对档案目录和全文的检索效率进行分析，与图书情报资源等相关领域的检索效率进行对比，考虑其是否满足用户需要，有无改进策略。密切跟踪信息和知识领域的发展前沿，将先进的技术和工具应用到档案检索效率的提升上来，主要是对档案信息组织和检索模式提出创新方案。

档案利用发展趋势预测。由于社会和国家发展的需要，人们会在一定时期内有重点地开展某个或某些方面的工作。数据分析师应密切关注某个系统、国家乃至整个人类社会的发展形势，科学地统计和分析用户的潜在需求，准确地预测出档案利用的重点方向，从而有针对性地做好档案利用准备工作。例如，编史修志工作往往在国家层面、某一系统或行业层面进行统一行动，有的又会与编制体制调整、大型纪念活动、大项任务开展等时机紧密结合；个人利用档案，往往会与国家出台某项政策、某一年龄段人群的成长经历、某些文化活动的开展等密切关联。根据档案利用历史数据的分析、当前社会热点、用户关注方向等，引导档案信息资源的开发，借助大数据工具，利用档案信息资源整合平台，充分地进行知识挖掘，高效地构建专题数据库，向用户推送档案信息资源。

2.3 档案事业数据综合统计和分析。档案人才队伍建设情况统计和分析。当今时代，不仅要求档案工作者具有较高的信息素养，而且需要档案工作者转变理念，从知识管理视角出发，为用户提供问题解决方案。档案领域数据分析师应该对档案工作者个体素质和整个队伍建设情况进行统计和分析，要重点关注专业学历、知识储备、年龄结构、管理能力、信息素养和职业精神等方面。

档案事业组织领导形势统计和分析。组织领导是档案事业发展的关键。档案领域数据分析师，应可以系统地设置档案事业各类统计表格，并根据形势发展创新地设置统计项目和衡量指标。不仅要分析档案主管部门对档案工作的组织领导情况，还要分析各级组织机构对档案事业的组织领导形势，包括工作规划、经费投入和对档案事业的关注度等。

档案专业硬件、软件建设情况统计和分析。在国家大力倡导档案信息共享平台建设的情形下，对行业内硬件、软件建设情况进行统计和分析，要重点对档案馆（室）库房建设、档案安全体系建设、业务设备建设、档案软件系统建设等方面进行统计和分析，避免低水平重复建设、提升管理资源利用效益。

制定档案事业科学发展方案。档案领域数据分析师要适应大环境的需要，从档案工作者个体出发，提出人才培养和培训方案。从档案人才队伍整体建设出发，合理提出编制调整、人才配备和人才发展等建议。在硬件建设方面，从档案事业整体发展视角提供指导意见，合理配置各类设备设施。在应用系统开发方面，针对技术发展形势及时提供建议，为颁布软件系统需求标准、协调资源做出贡献。

2.4 档案文件内容大数据的分析和知识挖掘。无论是科技档案、专门档案，还是文书档案，其利用都是围绕着组织机构（或个人）的业务行为开展的。因此，从业务层面对档案内容大数据进行分析，是档案大数据分析的重要内容。根据各专业发展的需要，利用高效、可视化的图形分析工具，对档案文件内容大数据进行分析，挖掘出其中蕴含的知识点，以指导各领域业务工作的科学开展。

3 档案领域数据分析师的基本素质要求

数据分析师肩负着对档案事业各类数据进行统计和分析的职责，并且要根据分析结果制定出推动各行业科学发展的、切实可行的方案，这就要求其具有高度的事业心和责任感，具备档案、计算机、数学和管理等领域专业知识和技能。

3.1 思维开阔，开拓精神强。无论是统计项目的设置、还是优化方案的制定，都要求档案领域数据分析师关注相关领域前沿发展形势，具有开阔的思维和较强的创新意识，能够敏锐地捕捉到档案事业发展中的主要矛盾，打破旧的思维和工作运行模式，为建立起切合实际的、具有前瞻性的档案工作机制贡献力量。

3.2 档案专业功底扎实。档案领域的数据分析，其出发点和落脚点均在档案收集、管理和利用。因而，数据分析师应具备系统的档案专业理论知识。不仅要熟知档案领域基本理论，而且要掌握领域前沿发展和理论创新情况，密切跟踪行业发展实践，能够科学地设计好统计与衡量指标、优化和促进档案事业的综合发展。

3.3 掌握计算机应用专业知识。数据分析师经常要与计算机网络、多种软件工具打交道，必须具备较高的信息素养和扎实的计算机应用专业知识。档案领域数据分析师，应了解机器学习、人工智能和自然语言知识，能够结合领域实际，提出具体的统计、分析软件系统需求；能够熟练操作基本分析软件，掌握大数据分析工具的使用（如R软件、SPSS、MATLAB），准确地采集、处理数据，必要时进行数据迁移；能够在看似无关的数据中挖掘出蕴含的关联、发现档案资源建设和档案事业发展内在规律。

3.4 熟悉管理学基本理论。无论是档案资源管理、还是档案事业的综合管理，都离不开管理学基本理论的运用。因此，档案领域数据分析师应熟悉现代管理学基本理论，具有严谨的逻辑思维能力和较好的文字表述能力，能够运用管理学前沿理论来指导档案资源建设和档案事业科学发展方案的制定。

3.5 灵活运用统计和分析基本方法。在可视化需求不断增长的今天，人们需要数据分析师能够直观地将统计和分析结果呈现出来。这就要求档案领域数据分析师熟练掌握数据分析与建模方法，牢记统计、分析的基本程序和原则，将分析结果以图形化方式表述出来，必要时加以创新和发展，从定性分析和定量分析两个视角，为档案事业的科学发展提供数据支撑。

此外，在对档案文件内容大数据进行分析和挖掘时，还要求数据分析师了解相关领域的专业知识，或者与相关领域专业人员密切协作，以确保分析过程和结果的质量。

参考文献：

[1]丁世飞，靳奉祥，赵相伟.现代数据分析与信息模式识别[M].北京：科学出版社，2012.

[2]金光.数据分析与建模方法[M].北京：国防工业出版社，2013.

大数据分析论文例11

作者简介：李金昌，男，50岁，浙江义乌人。浙江财经大学校长，统计学教授，博士生导师。研究方向为经济统计学，统计理论与方法，抽样技术，政府统计等。

最近两年，统计学界对大数据问题所进行的理论探讨逐渐增多，视角也各有千秋，引起了一些共鸣。围绕大数据问题，由统计学、计算机科学、人工智能、数学等学科共同支撑的数据科学开始形成。但大数据毕竟是一个新课题，因此远未达到对其有一个系统完整的认识，仍然需要从不同的方面加以研究，其中有一个重要但又容易被忽视的问题，即统计测度问题，值得去探讨。

一、什么是统计测度

汉语上，测度是指猜测、揣度、估计。数学上，测度是一个函数，它对一个给定集合的某些子集指定一个数，这个数可以比作大小、体积、概率等等。通俗地说，测度把每个集合映射到非负实数来规定这个集合的大小：空集的测度是0；集合变大时测度至少不会减小(因为要加上变大的部分的测度，而它是非负的)。

除了数学角度的测度论，查阅国内文献资料，带有测度这个词汇的文献不少，但专门针对统计测度(或测度)内涵的讨论几乎没有。一些对社会经济现象进行分析测度的文献，例如新型工业化进程测度、货币流动性测度、全面小康社会发展进程测度、收入分配公平性测度、技术效率测度、人力资本测度、金融风险测度、产业关联测度等等，所做的测度都是再测度，均不对测度本身进行讨论。查阅国外文献资料(关键词：measurement)，也同样存在这样的问题，只能收集到一些比较零散的表述。LudwikFinkelstein(1975)[1]认为，在我们对事物或现象进行描述时，测度可以被定义为对现实世界中某一现象的个体属性或特征进行量化的过程。JamesT.Townsend和F.GregoryAshby(1984)[2]认为，如果按照极端的观点，那么统计分析中的基本测度理论的含义仍然是存在争议的。LudwikFinkelstein(2003)[3]指出，测度在那些原来尚未得到卓有成效或广泛应用的领域，也已取得了明显的进步，社会、政治、经济和行为科学正在更大程度地利用定量技术；测度是现代思维的一种实际有效的工具，是我们借以描述世界的一种方法。GiovanniBattistaRossi(2007)[4]认为，用以表示测度结果的，是数字或者数字符号。LucaMari(2013)[5]认为，测度的基础特征是被公认为世界上获取并正式表达信息的基本方法，这让它成为一种跨学科的工具。LudwikFinkelstein(2014)[6]指出，在自然科学技术中，测度的重要性不可否认，它是科学调查和发现必不可少的工具，它可将宇宙中的复杂现象用精确、简洁和普遍的数学语言来描述。

那么，到底什么是统计测度呢？目前没有一个统一的定义。本文认为，统计测度具有不同于测度的意义，并且大大超越数学上的界定，即它具有数学定义的一般属性，但又不受制于函数表现形式，因为统计测度所要面对的是现实世界，实际问题要比理论上可以定义的问题复杂得多。按照我们的理解，统计测度就是用一定的符号和数字，用一定的形式和载体，对所研究的现象或事物的特征进行量化反映，表现为可用于统计分析的数据的过程。它应该具有这样一些属性：以实际现象为测度对象，测度结果具有实际意义；以量化为目的，把信息转化为数量，提供人们容易理解的定量结论；个体特征的测度符合形成总体定量结论的要求，同时能够体现个体差异。可以发现，统计测度需要借用数学工具，但更重要的是对具体测度现象本质特征的认识和掌握。

统计测度可以从若干不同角度进行分类。邱东教授(2012)[7]曾在“宏观测度的边界悖律及其意义”一文中，从边界的角度对宏观测度进行了分类：一是因事物本身可测度性而形成的边界，即本体论意义上的测度边界；再一是由人的认知能力而形成的边界，即认识论意义上的测度边界；第三则是由统计相关性偏好和投入约束而形成的边界，即操作意义上的测度边界。这三条测度边界，应该以本体论意义的测度边界最大，认识论意义的测度边界次之，而操作意义的测度边界最小。这样的分类，对于我们正确理解统计测度的内涵很有帮助。受此启发，笔者认为统计测度还可以有如下分类：

1.从测度的实现形式看，可以分为原始测度和再测度。原始测度也可以称为直接测度，它通过对测度对象进行直接测度来获取数据，例如清点库存物品数量、丈量作物播种面积、观察培育细菌数目、检测药物成分等获得的数据，以及各种登记、记录的原始数据等等。再测度也称为间接测度，它以其他已知的测度数据为基础去计算、推算或预测所需的未知数据，例如根据GDP和人口数测度人均GDP、根据人口普查分年龄人口数据测度老龄化系数和社会负担系数、根据相关指标数据测度CPI的变化等等。复杂的再测度则需要借助相应的统计模型作为工具，因为它实际上是对相关变量之间的关系进行定量反映。从两者关系上看，原始测度是基础，是根本，没有科学的原始测度就不会有可靠的再测度；再测度则是测度功能提升的必然要求，以解决原始测度不能解决的问题。

2.从测度的计量方式看，可以分为自然测度、物理测度、化学测度、时间测度和价值测度。自然测度是利用现象的自然属性所进行的一种统计测度，例如人口规模、企业数量等的测度，采用自然计量单位；物理测度是利用现象的物理属性所进行的一种统计测度，例如公路长度、作物播种面积、天然气产量等的测度，采用物理计量单位；化学测度是利用现象的化学属性所进行的一种统计测度，例如医学、生物学中化学合成物的成分结构测度，采用百分数、千分数或特定标识为计量单位；时间测度是利用现象的时间属性所进行的一种统计测度，例如劳动用工、闲暇时间等测度，采用时间计量单位；价值测度是利用现象的价值属性所进行的一种统计测度，例如劳动报酬、经济活动成果等测度，采用货币计量单位。在这些测度计量方式中，价值测度因最具有综合功能而应用最为广泛。

3.从测度的方法看，可以分为计数测度、测量测度、实验测度、定义测度和模型测度。计数测度是一种通过观测计数来获得数据的方法，最为简单，一般用于自然测度或时间测度；测量测度是一种根据物理或化学规制对现象进行测量、测算来获得数据的方法，一般用于物理测度或化学测度；实验测度是一种按照科学实验原理、通过观察实验对象在既定条件下的反应来获得数据的方法，一般与测量测度相结合，用于获取科学研究数据；定义测度也可以称之为指标测度，是一种通过探究现象的本质特征和活动规律、归纳出表现其数量特征的范畴、给出统计指标定义(包括内容、口径、计算方法和表现形式等)来获取数据的方法，最常用于价值测度，也用于其他形式的测度。可以说，定义测度方法应用最为广泛，但也最为困难。模型测度是一种根据现象与现象之间的内在联系关系、或者现象自身的发展变化规律，通过建立一定的方程模型来获取数据的方法。前面三种统计测度方法基本上都属于直接测度，定义测度既可能是直接测度、也可能是间接测度，而模型测度都属于间接测度方法。

4.从测度的维度看，可以分为单一测度与多维测度。单一测度是指采用单一的方式方法对所研究现象或事物进行单一角度的测度，获得单一的数据。多维测度是指对所研究现象或事物进行多角度的测度，测度过程中可能需要采用多种测度方法和计量方式，例如多指标综合评价就需要借助统计指标体系对评价对象进行多角度的测度。显然，单一测度是多维测度的基础。

二、统计测度是统计学的立足之本

首先，从统计学的发展历史看，是统计测度使统计学破茧而出。为什么主流观点认为政治算术是统计学的起源而不是国势学？正是因为威廉·配第首次采用统计测度的方式进行了国家实力的统计分析和有关推算，得出了令人信服的结论。威廉·配第在1693年出版的《政治算术》[8]中写道“因为和只使用比较级或最高级的词汇以及单纯作思维的论证相反，我却采用了这样的方法(作为我很久以来就想建立的政治算术的一个范例)，即用数字、重量和尺度的词汇来表达我自己想说的问题，只进行能诉诸人们的感官的论证和考察在性质上有可见的根据的原因”，这一观点在统计学的发展过程中产生了非常重要的影响。他的这段话虽然没有出现测度一词，但却道出了测度的本质，即让事物变得明白、变得有根据，因为“数字、重量和尺度”就是测度、就是根据，用“数字、重量和尺度的词汇来表达想说的问题”就是一种测度的思想，尽管测度的方式方法还很简单。相反，国势学虽然提出了归纳法这一统计学的基本方法并首创了统计学一词，但由于没有采用统计测度的方式进行国势问题的研究而难以修成正果。正如邱东教授[7]所说：“在配第之前，统计学的研究对象虽然是国家的态势，但它在方法论上只是定性言说。一个国家的财富总量在本体论意义上是可以测度的。然而只是到了配第时期，人类才想到了要测度它，并发明了如何测度的基本方法。政治算术，即开创期的经济统计学，实现了从无到有的转变，大大扩展了宏观测度的认识论边界，因而才具有了统计学范式创新的革命性意义。”同样，格朗特的《关于死亡表的自然观察和政治观察》也是人口统计测度方面的经典之作，无论是原始测度还是再测度，都给后人留下了宝贵的财富。之后，统计学就是沿着如何更加科学、准确测度世界这一主线而发展的。笔者曾在“从政治算术到大数据分析”一文[9]，对数据的变化与统计分析方法的发展进行了粗浅的归纳，其主题实际上就是统计测度问题。

其次，从统计学的研究对象上看，统计测度是体现统计学数量性特征的前提条件。统计学的研究对象是现象的数量方面，或者说统计学是关于如何收集和分析数据的科学。统计数据从何而来？从统计测度中来。数据不同于数字，数字是统计测度的符号，数据是统计测度的结果，这也正是统计学区别于数学之处。所以说，数据的本质问题就是统计测度问题，故此统计测度是统计学的基本问题。这里重点讨论两个问题：一是统计测度与统计指标的关系，二是统计测度面临的新问题。关于第一个问题，本文认为统计测度与统计指标是一个事物的两个方面，这个事物就是数据。统计指标法是统计学的基本方法之一，尽管前面对统计测度从方式方法上进行了分类，但从广义上说所有统计测度都是定义测度，都表现为指标。也就是说，任何统计测度———不论是直接测度还是间接测度，最终目的是获得能够让人明白的数据，而表现数据的最主要形式就是统计指标，其他表现数据的形式都是派生出来的。所以，统计测度就是根据所设定的统计指标去获得所需的数据。关于第二个问题，与后文所要论及的大数据有关，就是定性测度问题。在统计学中，数据可以分为两类———定性数据与定量数据，其中定性数据又包括定类数据与定序数据两种，它们属于非结构化或半结构化数据。相应地，统计测度也可分为定性测度与定量测度。很显然，只有定性测度与定量测度方法得到同步发展，统计学才能更加完善。总体上看，定量数据的统计测度已经比较完善，但定性数据的统计测度还有很多问题尚待解决，难点就在于测度的切入点———如何提取有效的信息、如何最终转化为统计指标。尽管关于定性数据分析的论著已经不少，但还没有从理论方法上建立起定性数据统计测度的体系，因此统计学在这方面的任务依然很重。

第三，从统计学的永恒主题看，通过科学的数据分析、得出有效的结论是其不变的追求，而数据分析过程就是综合的统计测度过程。获得数据的目的是为了发现隐含其中的有价值的信息，即发现数据背后的数据，让数据再生数据，从而满足人们认识事物、掌握规律、科学决策的需要。除了总量、结构等基本信息外，更重要的是通过数据分析来呈现现象的变化规律与相互关系。不难发现，这种数据分析的过程，就是不断进行各种统计测度的过程，所以最终的统计分析结果实际上就是各环节、各方面的各种类型的统计测度的叠加结果，或者说是统计测度不断放大的过程。大量针对社会经济现象进行分析研究的文献(不论是否冠以“测度”两字)，只要有数据分析，都是如此。可以说，统计测度贯穿于统计数据分析的全过程。但是，为什么很多统计数据分析并没有得出有效的结论呢？本文认为原因就出在统计测度上，尤其是没有首先解决好原始统计测度问题。应该说，围绕数据分析已经建立起一整套比较完整的统计方法体系，很多方法也都身经百战、行之有效，但一旦原始统计测度有问题、数据不准确或不真实，那么任何方法都只是摆设。仔细研读很多所谓的实证分析文献，其重点均在于构建什么样的模型或运用什么样的方法，虽然有的文献也必须要讨论选择什么样的变量(指标)这个问题，但并不是系统地从测度的角度进行阐述，因此所用的模型越来越复杂，但所得的结论却离实际情况越来越远。学界总是有这样一种观念：变量越多、符号越新奇、模型越复杂的文章才越有水平，似乎这样分析所得的结论才越可靠。殊不知，不以科学可靠的原始统计测度为基础，任何数据分析都会成为无源之水、无本之木，所得的结论也只是更精确的错误而已。本文认为，任何脱离科学统计测度的统计分析都是毫无意义的，充其量是一种数字游戏而已。应该树立这样一种观念：科学的统计数据分析首先取决于科学的统计测度，而不是首先取决于什么样的分析模型，虽然模型也很重要。这也再一次证明，统计测度问题是统计学的根本问题。其实，归根结底看，在统计数据分析过程中，每一步分析都以前一步的测度为原始测度，每一步所用的方法都是统计测度方法，因此所有的统计分析方法都是统计测度方法。甚至可以说，统计学方法体系就是统计测度方法体系。

当然，在实际的统计分析中，统计测度往往遇到一些困难，即有些指标数据由于各种原因无法获得，这就不得不采用替代这种途径。例如，绿色GDP核算的概念已经提出很多年，但为什么还没有哪个国家真正公布绿色GDP数据，原因就是自然资源价值、生态环境价值等的统计测度目前还面临着很大的困难，其背后存在着一系列有待进一步研究和解决的理论与实践问题，因此不少学者进行了替代测度的探讨。这一方面说明统计测度的重要性，另一方面说明统计测度替代的无奈性。但是，替代测度必须遵守相应的规则与逻辑，要经得起推敲。有的文献明明知道有关变量无法测度、有关数据无法获得，却随意地、不符合逻辑地进行所谓的替代，结果是最后的结论不知替代成什么样了，很难理解它的意义。关于替代测度的有效性问题，邱东教授[7]已有精辟的论述，在此不再展开讨论。

三、统计测度是数据科学的基础

笼统地讲，数据科学就是以大数据为研究对象的科学，需要多学科交叉融合、共同支撑。由于大数据是快速增长的复杂数据，因此大数据分析仅有统计思维与统计分析方法是不够的，还需要强大的数据处理能力与计算能力。只有把统计思维、统计方法与计算技术结合起来，才有可能真正挖掘出大数据中的有价值信息。本文认为统计思维、统计方法与计算技术相结合的基础就是科学的统计测度。

首先，大数据技术不能自行解决其计算和分析应从何处着手的问题。现代信息技术与互联网、物联网技术的快速发展，使人类进入大数据时代，也有人说进入到数联网时代，这意味着我们一方面被各种越来越多、越来越复杂的数据所包围，另一方面又被数据中巨大的信息价值所吸引，想从中挖掘出可供决策之用的信息。如何挖掘大数据？人们已经进行了艰苦的探索，发展了很多专门的方法技术，并已尝到了不少甜头，但远未达到充分利用大数据中有效信息的目的，因为已有的大数据分析研究主要集中于计算机科学与技术、软件工程、计算数学等领域，重点是计算能力与算法研究，而很少从统计学的角度进行有针对的探讨，还没有真正进入数据分析的深层。这里面实际上忽略了最基础的统计测度问题。如果说，计算技术的发展能够解决数据储存与计算的能力问题，算法模型的改进能够解决大数据分析的综合能力问题，那么它们仍然不能解决对谁进行计算与分析的问题，也即从何处着手的问题。无论是传统的结构型数据，还是现在的包含大量非结构型数据的大数据，要对它们进行分析都必须找到正确的切入口，即分析的基本元素是什么，或者说需要测度什么。当然，还有如何测度的问题。然后，才能进行分组、综合和构建模型，否则大数据分析不会达到人们的预期。

其次，大数据之所以催生数据科学，就是为了通过多学科交叉融合来共同解决大数据分析中存在的问题，其中包括统计测度问题，这一点对于非结构化数据尤为突出。实际上，大数据的本质就是非结构化数据，一是体量大、比重高(超过95%)，二是变化快、形式多，三是内容杂、不确定。通过各种社交网络、自媒体、富媒体，以及人机对话和机器感应记录等产生的各种非结构化数据，例如各种文字、各种表情符号、各种声音、各种图像，到底表示什么？综合在一起能体现什么规律？如何综合各种信息？存在着大量有待研究的问题。其实，文字的长短、用词、表达形式(叙述式、议论式、散文式、诗歌式，等)甚至字体大小与颜色，表情类型与偏好，声音高低、频率与情绪，图像颜色等等，都是有特定意义的，即在特定环境条件下的反应。所以，一句话或一段声音的意义并非文字本身的意思，一个表情符号的意义并非符号表征的意思，一个图像的意义并非图像内容与色彩本身的意思，因为背后有太多的未知。人们浏览检索各种信息的习惯、收看与回复邮件等信息的习惯、参与信息网络的习惯、购物习惯与支付习惯等等，也是如此。更何况，同样的网络词汇在不同的时间代表着不同的语义。这背后隐藏着的是人们的行为与社会关系，既具有个性又具有共性，极其复杂。所以对这样的数据进行分析，首先绝非是计算问题，也不是用什么模型问题，而首先是从何处着手、如何选取关键词、如何选定关联词、可以用什么样的指标来综合、可以用什么样的表式来表现等问题，一句话就是统计测度问题。非结构化数据的统计测度将主要是定义测度，这些问题不解决，分析模型也是难以构建的，或者难以得出令人信服的结论。

例如，关于《红楼梦》前80回与后40回是否同一作者的争论，韦博成[10]进行了综合性的比较研究并提出了自己的观点，他指出已有美国威斯康辛大学华裔学者陈炳藻教授(1980)[11]、我国华东师范大学陈大康教授(1987年)[12]和复旦大学李贤平教授(1987年)[13]等学者从统计学的角度进行过专门的研究，但却得出了不同的结论：陈炳藻教授认为前80回与后40回均是曹雪芹所著；陈大康教授认为前80回与后40回为不同人所著；李贤平教授认为前80回是曹雪芹根据《石头记》增删而成，后40回是曹雪芹亲友搜集整理原稿加工补写而成。此外，还有其他一些学者进行过类似的研究，也有一些不同的结论。为什么都通过提取关联词和统计的方法却得出不同的结论？原因就在于用以分析的关联词不同，即统计测度的切入点不同，当然也有统计方法上的差异，但前者是根本。至少存在几个统计测度上的问题：提取单一维度的关联词还是多维度的关联词？提取什么类型的关联词(例如：关联词是名词、形容词还是动词；是花卉、树木、饮食、医药还是诗词)？这些关联词可以综合为什么样的指标？等等。由此可见，原始统计测度代表着数据分析的方向。

相比《红楼梦》，大数据分析要复杂得多、困难得多。所以，数据科学除了需要数学、统计学、计算机科学与技术、人工智能等学科的交叉融合外，还需要与行为科学、语言学、社会学、经济学等学科相结合，以便能很好地解决作为数据分析之前提的统计测度问题。

第三，数据科学将进一步拓展统计测度的边界，并提出更高的要求。伴随着人类认识世界的范围的不断拓展，统计测度的范围也不断扩大，从自然现象统计测度到人口现象、经济现象统计测度，再到社会现象、环境现象、政治现象等统计测度，几乎已经渗透到了所有可以想象到的领域。相应地，统计数据分析也从少量数据的分析进入到了大数据分析。大数据的复杂性、不确定性和涌现性(王元卓等，2013)[14]，意味着统计测度的内容大大增加，原来一些不能测度的数据被纳入到了统计测度的范围，按照邱东教授的说法就是统计测度的边界大大扩展了。统计测度边界的扩大，必须以统计测度能力的提升为前提，即要求统计学借助现代信息技术进一步提升处理和分析数据的能力———对大数据“化繁为简”、“变厚为薄”的能力，这就必须以科学准确的大数据统计测度为前提，既改变统计思维，又创新统计分析方法，其中就包括统计测度思维、统计测度方法与统计测度标准。面对大量繁杂的数据，如果没有更好的统计测度思路与方法，包括个体标志定义方法、最小数据细胞分组与聚类方法、关联词含义的时间影响计量方法、定性测度指标筛选方法、再测度路径与方法、大数据统计测度评价标准等，那么统计学在数据科学发展过程中就难以发挥应有的作用，数据科学也将裹足不前。这就是统计学迈向数据科学的重要挑战之一。

综上所述，统计测度的基础性问题从统计学延伸到了数据科学，是两者的共同基础，并且对于数据科学而言显得更为重要。大数据的复杂性、不确定性和涌现性导致了统计测度的难度猛增，亟需建立面向大数据分析的统计测度理论与方法。要通过研究大数据的复杂性、不确定性和涌现性特征的基本因素，以及这些因素之间的内在联系、外在指标和测度方法，进而研究基于先进计算技术的大数据度量模型，构建寻找面向计算的数据内核或者数据边界的基本方法。总之，建立有效易行的数据表示方法，即科学的统计测度方法，是数据科学必须解决的基础问题之一。

四、创新与完善大数据统计测度方法

如前所述，统计学研究对象已经从结构化数据延伸到了包括非结构化数据在内的一切数据，统计测度边界得到了大大的扩展。按照邱东教授[7]曾经引用过的海德格尔的话：“界限并不表示某一事物的发展到此为止，而是像希腊人所认知的那样，界限是某种事物开始展现的地方”，预示着统计学在数据科学发展阶段的新起点已经展现在我们面前。新的统计测度边界催生统计测度方法的创新，统计测度方法的创新促进统计测度边界的拓展，两者相辅相成，共同推动统计学与数据科学的发展。为此，我们要系统梳理统计测度方法的发展历程，面对大数据提出的新挑战，大胆探索统计测度的新思路、新理论和新方法，为数据科学奠定坚实的统计学基础。为此提出如下几点建议：

首先，要紧密结合现象的本质去探求更科学的统计测度方法。本质决定一切，既然统计测度的目的是获得客观反映现象本质的数据，那么深入到现象本质、认识和掌握现象的本质，是科学统计测度的关键，也是探求新的统计方法的出发点。换句话说，科学的统计测度方法能够体现出数据的真正意义。例如，要探求社交网络数据的统计分析和测度方法，就必须了解社交网络的产生背景、构成要素、表现形式与基本特征，既要研究它的共性问题，又要研究它的个性问题与差异性，同时还要研究它的变化趋势。只有这样，才能掌握社交网络数据的构成要件或元素，才能建立起科学的、能有效体现社交网络数据意义的统计测度方法。再如，要分析研究电子商务数据，也必须先弄清楚什么是电子商务，尤其是弄清楚它与传统的商业模式有什么不同(包括物流、资金流与信息流)、有哪些新生事物(包括时空特征、法律监管)等等，否则统计测度无从下手或者抓不住要害。同时，作为一个新的研究领域，数据科学的理论基础将与计算机科学、统计学、人工智能、数学、社会科学等有关，离不开对相关学科领域知识与研究方法的借鉴，因此对相关领域的知识与研究方法的学习十分重要。否则，就会严重扭曲统计测度方法，胡乱设置测度标志，这需要引起高度关注。

其次，要紧密结合大数据的特点去创新统计测度方法。大数据的特点是复杂性、不确定性和涌现性并存，构成了多维的数据空间，里面蕴藏着丰富的信息资源，这是传统的统计数据不可比拟的。那么该从何处进入这样的数据空间？怎么进去？又怎么出来？这归根结底还是统计测度方法问题。因此，在开展大数据分析之前，首先要研究大数据的基础性问题，包括大数据的内在机理(包括大数据的演化与传播机制、生命周期)，数据科学与社会学、经济学、行为科学等之间的互动机制，以及大数据的结构与效能的规律性等等，为创新统计测度方法提供导向。本文认为，再复杂的数据也有共性，再不确定的数据也有规律，再涌现的数据也有轨迹。网络大数据背后的网络平均路径长度、度分布、聚集系数、核数、介数等具有共性的特征与参数，是开展复杂网络数据分析的基础(李国杰、程学旗，2012)[15]；大数据在时空维度上的分布形式、内在结构、动态变化和相关联的规律，是找到大数据分析切入口、进而简化大数据表征的前提；大数据的涌现性轨迹(包括模式涌现性、行为涌现性和智慧涌现性)，是研究更多的社会网络模型和理解网络瓦解失效原因，理解人们网络行为涌现特征(例如人们发邮件数量的时间分布特征)，以及探求大量自发个体语义融合连接形成有特定意义的通用语义之过程的路径(靳小龙等，2013)[16]。也就是说，这些共性、规律和轨迹就是统计测度的主要依据，也是重点内容。发展和创新能够准确发现大数据的共性、规律和轨迹的定量方法，其实就是发展和创新大数据统计测度方法。