欢迎来到速发表网,咨询电话:400-838-9661

关于我们 登录/注册 购物车(0)

期刊 科普 SCI期刊 投稿技巧 学术 出书

首页 > 优秀范文 > 统计学变量的定义

统计学变量的定义样例十一篇

时间:2023-07-19 09:29:32

统计学变量的定义

统计学变量的定义例1

关键词:概率统计 模块 教学

前言

《概率论与数理统计》是学生由确定性思维进入随机性思维的入门课程,也是大学进行随机思维培养和训练的课程。要让教材立体化就是要清楚课程的背景与概况;清楚课程的指导思想;教学理念;教学目标;对难、重点进行深度剖析,明确解决问题的思路;对教学内容的剖析有新的认识。教学实践中将本门课程内容分为:概率论,随机变量的函数及其分布,数理统计初步三大模块进行。

第一模块 概率论

针对大三学生在系统学习概率论与数理统计之前已对概率有所了解,但从实际的随机现象中把问题数学化,运用数学符号表示随机现象是第一模块学习内容的难点,这部份内容是整个概率论的基础。所以教学具体实施分三步:第一步,从常见随机想象出发,引导学生用数学语言描述随机现象,补充大量用数学语言描述随机现象的实际练习训练 ,用集合的概念来表述随机事件;第二步,结合随机事件运算规律学习概率定义的发展规律,了解概率的公理化体系;第三步,对要掌握的条件概率,全概公式,贝叶斯公式等内容,无论是教师讲授演算、还是学生做作业都要求在解题时认真书写每一个题目的详细解题步骤,严格的书写过程方可让学生达到逻辑性地对问题的逐步认识深度,这是非常重要的一个基础训练要加强实施 。

第一模块“概率论”中要抓住对概念的引入和背景的理解。如,概率公理化定义引入的背景是:在概率论的发展史上曾经有过概率的古典定义、概率的几何定义、概率的频率定义和概率的主观定义,这些定义各适合一类随机现象,为了给出适合一切随机现象的概率的最一般的定义,前苏联数学家柯尔莫哥洛夫在1933年提出了概率的公理化定义,该定义既概括了上述几种概率定义的共同特性,又避免了各自的局限性和含混之处。概率的公理化定义刻画了概率的本质:概率是集合(事件)的函数。对概率的公理化定义的深度剖析是公理化定义未确定概率,它只是规定了概率应该满足的性质,在公理化定义出现之前的古典定义、几何定义、频率定义和主观定义都在一定的场合下给出了各自的确定概率的方法,因此有了概率的公理化定义之后,把它们看作确定概率的方法是恰当的。

一模块中需要重点讲授概念的直观含义或实际意义的有;事件的概率与频率;条件概率;事件的独立性;全概率公式;需要多媒体课件的有效辅助实际教学,充分利用图形演示功能帮助直观理解。对概率论中涉及的众多例题和习题,应理解题目所涉及的概念及解题的目的,而具体计算技巧在在高等数学已学过,因此概率论学习的关键不在于多做习题,而要理解不同题型涉及的概念及解题的思路。

第二模块 随机变量的函数及其分布

随机变量的函数及其分布包括一维随机变量与多维随机变量,要求学生认识到分布函数、分布律和概率密度函数是揭示随机现象本质规律的重要工具。对概率分布函数,连续性随机变量概率密度函数的准确理解以及会计算随机事件的概率是本模块的重点,掌握常见的离散型和连续型随机变量,数学期望、方差、协方差和相关系数,并应用这些概念解决实际问题。

分布函数、随机变量的独立和不相关等概念要仔细推敲概念的内涵和相互联系、差异,例如,随机变量概念的内涵是一个从样本空间到实轴的单值实函数X(w),但它不同于一般的函数,定义域是样本空间,不同随机试验有不同的样本空间。而它的取值是不确定的,随着试验结果的不同可取不同值,但是它取某一区间的概率又能根据随机试验予以确定的。

第二模块计算难点有二维随机变量的边缘分布,事件B的概率P((X,Y)∈B),卷积公式等的计算,它们形式简单,但f(x,y)通常是分段函数,真正的积分限并不再是(-∞,∞)或B,如何正确确定事实上的积分限就成了正确解题的关键,所以要综合运用极限、连续函数、导数、极值、积分、广义积分及级数等知识去解决问题,课程进行之前一定要复习相关知识并练习一定量的习题作保障。

二模块中需要重点讲授概念的直观含义或实际意义的有;概率密度的几何意义及均匀分布与正态分布;几类常用随机变量的数学期望;相关系数概念。这些概念的引入需要多媒体课件的有效辅助利用图形演示功帮助学生直观理解。

第三模块 数理统计初步

统计学变量的定义例2

统计学是一门基于试验数据的搜集、整理,对研究目标的统计性质进行分析和推断的学科,更是一门综合运用数学科学、计算机科学、信息学等工具学科、并与自然科学、社会科学相结合的多学科相交叉的边缘学科。在我国,早期的统计学设置比较狭隘,多作为数学学科的概率统计和经济学科的经济统计等子学科。直到 1998年,国家教育部设立了统计学专业[1],2011年颁布的《普通高等学校本科专业目录》更把统计学提升为一级学科!由此可见,统计学的专业地位及其重要性得到了广泛的认可。

 

与之相反,关于统计学专业教学的研究还处于起步阶段。相比于其他大类专业的教学研究,关于统计专业教学的教学语言设计的研究还未得到深入发展。

 

教学语言是一类广义的语言,是教学者与教学对象的多种感官的交流;同时,也是一种人文文化的载体,是一种民族文化的展示。教学语言的设计,就是通过调动教学对象的听觉、视觉、感觉等多方面来实现教学目标。

 

统计学专业的教学语言主要包括:口语语言、文字语言、符号语言、图表语言和肢体语言,本文将从上述五个方面对统计学专业的教学语言设计展开讨论与研究。

 

一、充分运用口语语言阐述教学内容

 

口语语言,是教学内容阐述的主要载体之一,是师生之间思想、情感交流的主要工具。由于统计学是与自然科学、社会科学相结合的多学科相交叉的边缘学科,统计学专业教学的口语语言与一般教学的口语语言既有联系,又有区别,主要具有以下特点:

 

1.对于基础理论的教学,口语语言要准确、规范

 

由于统计学的基础理论主要是基于各种模型,通过逻辑推导来进行分析和推断,并以高等数学形式来描述,因此相关教学的口语语言应以标准的数学口语语言来准确、规范地阐述相应的数学理论,特别要注意相应的模型理论的提出和逻辑关系的表述、推导等,依此来帮助学生准确地理解、把握统计学的基础理论; 同时,对复杂的逻辑关系及符号含义,要做出准确的表述,帮助学生在有限的课堂教学时间内了解、体会相应的含义,并能进行熟练、独立的运用。

 

2.对于后续课程的具体教学内容,口语语言要亲切、生动

 

在针对特定的知识点的教学过程中,教师要通过口语设计,把抽象的数学理论转换为具体的形象感觉,并结合适当的现实案例加以说明。特别是抽象的概念,比如随机过程中“下鞅”、“上鞅”、“鞅”以及“遍历性”等概念,要努力避免平铺直叙、照本宣科地进行授课,而是把该概念与日常实例相结合。

 

该定理是其后重要结论的基础,具有重要意义,但其证明太过数学化,因此在课堂教学中,并不进行证明,而采用简明的语言来进行说明。对第一个不等式,可以强调为“在每个样本点上,取所有随机变量的最小值,做成一个新的随机变量,它的均值不会大于所有随机变量先做平均再取最小的那个值”,即“最小值的期望,小于等于期望的最小值”;从而整个定理叙述为“最小值的期望,小于等于期望的最小值,小于等于期望的最大值,小于等于最大值的期望”。

 

由此可见,在课堂教学过程中,通过语言设计来调动学生的积极性,再结合语音、语调、语速等变化来突出重点、强调难点、控制教学节奏,可以让学生更好地理解具体教学内容。

 

二、准确运用文字语言刻画基本内容

 

文字语言,是教学内容可视化的主要载体之一,是学生明确认知教学内容的主要途径。统计学专业教学的文字语言的“准确性”,应具有如下特点:

 

1.对于基础理论的教学,注重文字语言的“数学性”

 

由于统计学是以数学理论为基础的,因此,文字语言要符合数学描述的一般要求;同时,也要注重结合教学目的,进行适当的调整来强调重点。

 

比如,统计量的定义:“设x1,x2,…,xn为取自某总体的样本,若样本函数T=Tx1,x2,…,xn中不含有任何未知参数,则称T为统计量”。在该定义中,应当注意三个非常重要的细节:“x1,x2,…,xn”、“任何”和“未知”。如果在教学过程中,不强调这几个细节,就可能忽略了小标“n”这个已知参数,从而产生对统计量概念的混淆,影响对统计量“样本均值”的认识。

 

2.对于后续课程的案例教学,强调文字语言的“概括性”

 

统计学处理的是实际的、非数学的对象,特别是一些来自社会经济活动的、真实物理环境的或现实遗传学科的具体实例。此时的文字语言,不仅要具有抽象性,抛弃不必要、不相关的、过多的背景描述,还要朴实易懂,最大限度地概括试验的理论背景、数据的研究意义。其意义在于,既利于学生理解研究的问题,明确研究的目标,同时也为学生的思考留出相应的空间。

 

三、简明地运用符号语言,压缩复杂意义

 

符号,是一些基本概念、基本性质、运算法则的缩写;符号语言,就是利用基本符号,以简单、明确和形式化的方式来简化复杂关系及大量文字性描述。在形式上,符号语言可以简化计算和推理过程,明确其中的逻辑过程,展现其抽象性;在意义上,通过结合具体试验背景,符号语言精练了相关信息的描述,体现其简洁性。由此可见,符号语言对相应学科的发展、传播和普及都有重要的推动作用。

 

对统计学专业而言,其基础理论部分的符号语言基本与高等数学的符号语言是相似的,因此,在教学过程中,教师要有意识地训练学生对符号的灵活运用,并提及相应符号的意义。

 

对统计专业低年级学生,教师要通过符号语言的设计,消除学生对符号的陌生感,使学生牢固地掌握各类符号的意义,熟练地运用各类符号描述相对复杂的含义,并将复杂的文字性描述利用符号来进行简化描述,进而培养学生利用符号语言来压缩复杂意义的能力。

 

例如,在概率统计中,随机变量的期望EX是一个重要概念,通过不同的角度可以得到不同形式的符号描述。在符号语言下,概率空间记为Ω,F,P,随机变量记为X,对应的密度函数和分布函数分别记为px和Fx,从而随机变量的数学期望EX有如下表述记为

 

其中,EX是数学期望(expectation)的符号,第一个等式为实空间R中的数学期望描述,这是一般概率论中的结论;第二个等式为实空间中的一般随机变量的数学期望表达式;第三个等式则为在概率空间Ω,F,P中的描述形式,是Riemann-Stieltjes积分,这是在随机分析范围下常用的描述方式。因此,在教学过程中,教师应强调上述关系式的意义及使用范围。

 

再如Lindeberg-Levy中心极限定理:设{Xi}∞i=1是相互独立、同分布的随机变量序列,且EXi=μ,VarXi=σ2& gt;0都存在;若记Y*n = X1 + X2 + 上述定理中的符号沿袭了高等数学的符号方式,同时,将σn改写为nσ2,其目的在于强调正态分布关于参数μ和σ2的依赖关系。强调这种依赖关系,有利于学生对正态分布的掌握,进一步明确随机变量与其特征参数的关系,也为后续其他重要分布和统计量的学习奠定基础。

 

对统计学专业高年级的学生,教师要注意引导学生基于基本符号,在特定的实际问题中,创造性地定义一些新符号,并赋予明确的含义,从而把特定问题进行符号化描述,简化统计分析、推断过程。这里需要注意的是,所定义的新符号首先要遵循一般的符号原理与意义,不只是符号的数学意义,还有在特定问题下的符号意义;其次,满足问题分析的需要,充分利用特有名词的缩写、符号的上、下标等。

 

比如,在回归分析中,基于多变量的多项式回归模型中,因变量y关于自变量x1,x2的二元二次回归模型为:y = β0 + β1 x1 + β2 x2 + β11 x21 + β22 x22 + β12 x1 x2 + ε。在该表达式中,β的小标1、2分别代表与变量x1,x2有关,而重复出现的次数则表征了相应变量的阶数。因此,建议在教学过程中,对该类下表可以进行改进,比如将β12改记为β1,2,即下标中的“12”改为“1,2”,通过添加“,”进一步明晰变量的交互关系。

 

四、合理运用图表语言,明晰基本关系

 

图表语言,是利用图像、表格等直观的形象来描述复杂的概念、关系以及抽象数据所具有的含义。与符号语言的简洁和抽象相比,图表语言更具形象、直观的特性,能记录数量变化趋势、表达变量之间的关系以及展现概念之间的相关关系,因此,在统计学专业教学中,图表语言具有非常重要的意义与作用。

 

1.数据图表,记录数量变化趋势

 

数据图表,主要是对试验结果所获得的数据的形象表达,比如某地区的生产总值、居民消费额、空气中污染物含量等具体数据的excel表格或柱状图,以及对抽象数据处理之后所形成的频数直方图、频率直方图、盒子图等。依据不同的目的,选用不同的数据图表来说明进行统计分析的依据,并掌握进行统计推断的方向。

 

2.分析图表,表达变量之间的关系

 

分析图表,主要是指基于概率论与统计分析所得到的分析结论的图表,目的在于展示分析结论,进而解释变量关系。主要包括:(1)教材所附的典型分布的分布表,如正态分布表、F分布表、t分布表等;(2)数据分析表,如回归分析中所得到的Model Summery、ANVOA、Coefficients等;(3)结论预测表,如变量拟合图、时间序列分析表等。

 

3.关系图表,展现概念之间的相关关系

 

关系图表,主要是指为了那些抽象描述多个概念之间的相关关系,是对各种概念、方法、思想等的总体描述。从大的角度上讲,借助于关系图表,学生对统计学的发展、不同统计思想与方法间的异同等方面,会形成整体认识,常见于导论一类课程。从小的角度上讲,通过建立关系图表,学生可以进一步区分具体的概念,深化知识点的理解和运用。

 

五、巧妙运用肢体语言,深化教学效果

 

肢体语言,主要是指教师在教学过程中通过动作、姿势、表情等肢体的动作和变化来传达教学内容、实现教学目的的行为。首先,肢体语言具有形象、生动、操作性强;其次,易于学生的模仿与体会,以形成对抽象概念的形象认识;再次,可以很好地控制教学进程,如加速新课程的引入、教学内容的转换等。同时,可以活跃课堂气氛,调动学生的积极性,传递教师对学生的关怀。

 

总之,教学设计是指为实现教学目标,教师依据学习原理和教学理论,对各个环节进行具体计划,进而形成完整、有效的教学方案的过程。为了充分、有效地利用课堂教学,教师应该运用多种方法和技巧来实现与学生的交流。因此,教学语言的设计就显得更为重要。通过不断地研究与实践,教师的教学语言设计能力将会得以丰富和提高,取得事半功倍的效果。

 

统计学变量的定义例3

作者简介:李金昌,男,50岁,浙江义乌人。浙江财经大学校长,统计学教授,博士生导师。研究方向为经济统计学,统计理论与方法,抽样技术,政府统计等。

最近两年,统计学界对大数据问题所进行的理论探讨逐渐增多,视角也各有千秋,引起了一些共鸣。围绕大数据问题,由统计学、计算机科学、人工智能、数学等学科共同支撑的数据科学开始形成。但大数据毕竟是一个新课题,因此远未达到对其有一个系统完整的认识,仍然需要从不同的方面加以研究,其中有一个重要但又容易被忽视的问题,即统计测度问题,值得去探讨。

一、什么是统计测度

汉语上,测度是指猜测、揣度、估计。数学上,测度是一个函数,它对一个给定集合的某些子集指定一个数,这个数可以比作大小、体积、概率等等。通俗地说,测度把每个集合映射到非负实数来规定这个集合的大小:空集的测度是0;集合变大时测度至少不会减小(因为要加上变大的部分的测度,而它是非负的)。

除了数学角度的测度论,查阅国内文献资料,带有测度这个词汇的文献不少,但专门针对统计测度(或测度)内涵的讨论几乎没有。一些对社会经济现象进行分析测度的文献,例如新型工业化进程测度、货币流动性测度、全面小康社会发展进程测度、收入分配公平性测度、技术效率测度、人力资本测度、金融风险测度、产业关联测度等等,所做的测度都是再测度,均不对测度本身进行讨论。查阅国外文献资料(关键词:measurement),也同样存在这样的问题,只能收集到一些比较零散的表述。LudwikFinkelstein(1975)[1]认为,在我们对事物或现象进行描述时,测度可以被定义为对现实世界中某一现象的个体属性或特征进行量化的过程。JamesT.Townsend和F.GregoryAshby(1984)[2]认为,如果按照极端的观点,那么统计分析中的基本测度理论的含义仍然是存在争议的。LudwikFinkelstein(2003)[3]指出,测度在那些原来尚未得到卓有成效或广泛应用的领域,也已取得了明显的进步,社会、政治、经济和行为科学正在更大程度地利用定量技术;测度是现代思维的一种实际有效的工具,是我们借以描述世界的一种方法。GiovanniBattistaRossi(2007)[4]认为,用以表示测度结果的,是数字或者数字符号。LucaMari(2013)[5]认为,测度的基础特征是被公认为世界上获取并正式表达信息的基本方法,这让它成为一种跨学科的工具。LudwikFinkelstein(2014)[6]指出,在自然科学技术中,测度的重要性不可否认,它是科学调查和发现必不可少的工具,它可将宇宙中的复杂现象用精确、简洁和普遍的数学语言来描述。

那么,到底什么是统计测度呢?目前没有一个统一的定义。本文认为,统计测度具有不同于测度的意义,并且大大超越数学上的界定,即它具有数学定义的一般属性,但又不受制于函数表现形式,因为统计测度所要面对的是现实世界,实际问题要比理论上可以定义的问题复杂得多。按照我们的理解,统计测度就是用一定的符号和数字,用一定的形式和载体,对所研究的现象或事物的特征进行量化反映,表现为可用于统计分析的数据的过程。它应该具有这样一些属性:以实际现象为测度对象,测度结果具有实际意义;以量化为目的,把信息转化为数量,提供人们容易理解的定量结论;个体特征的测度符合形成总体定量结论的要求,同时能够体现个体差异。可以发现,统计测度需要借用数学工具,但更重要的是对具体测度现象本质特征的认识和掌握。

统计测度可以从若干不同角度进行分类。邱东教授(2012)[7]曾在“宏观测度的边界悖律及其意义”一文中,从边界的角度对宏观测度进行了分类:一是因事物本身可测度性而形成的边界,即本体论意义上的测度边界;再一是由人的认知能力而形成的边界,即认识论意义上的测度边界;第三则是由统计相关性偏好和投入约束而形成的边界,即操作意义上的测度边界。这三条测度边界,应该以本体论意义的测度边界最大,认识论意义的测度边界次之,而操作意义的测度边界最小。这样的分类,对于我们正确理解统计测度的内涵很有帮助。受此启发,笔者认为统计测度还可以有如下分类:

1.从测度的实现形式看,可以分为原始测度和再测度。原始测度也可以称为直接测度,它通过对测度对象进行直接测度来获取数据,例如清点库存物品数量、丈量作物播种面积、观察培育细菌数目、检测药物成分等获得的数据,以及各种登记、记录的原始数据等等。再测度也称为间接测度,它以其他已知的测度数据为基础去计算、推算或预测所需的未知数据,例如根据GDP和人口数测度人均GDP、根据人口普查分年龄人口数据测度老龄化系数和社会负担系数、根据相关指标数据测度CPI的变化等等。复杂的再测度则需要借助相应的统计模型作为工具,因为它实际上是对相关变量之间的关系进行定量反映。从两者关系上看,原始测度是基础,是根本,没有科学的原始测度就不会有可靠的再测度;再测度则是测度功能提升的必然要求,以解决原始测度不能解决的问题。

2.从测度的计量方式看,可以分为自然测度、物理测度、化学测度、时间测度和价值测度。自然测度是利用现象的自然属性所进行的一种统计测度,例如人口规模、企业数量等的测度,采用自然计量单位;物理测度是利用现象的物理属性所进行的一种统计测度,例如公路长度、作物播种面积、天然气产量等的测度,采用物理计量单位;化学测度是利用现象的化学属性所进行的一种统计测度,例如医学、生物学中化学合成物的成分结构测度,采用百分数、千分数或特定标识为计量单位;时间测度是利用现象的时间属性所进行的一种统计测度,例如劳动用工、闲暇时间等测度,采用时间计量单位;价值测度是利用现象的价值属性所进行的一种统计测度,例如劳动报酬、经济活动成果等测度,采用货币计量单位。在这些测度计量方式中,价值测度因最具有综合功能而应用最为广泛。

3.从测度的方法看,可以分为计数测度、测量测度、实验测度、定义测度和模型测度。计数测度是一种通过观测计数来获得数据的方法,最为简单,一般用于自然测度或时间测度;测量测度是一种根据物理或化学规制对现象进行测量、测算来获得数据的方法,一般用于物理测度或化学测度;实验测度是一种按照科学实验原理、通过观察实验对象在既定条件下的反应来获得数据的方法,一般与测量测度相结合,用于获取科学研究数据;定义测度也可以称之为指标测度,是一种通过探究现象的本质特征和活动规律、归纳出表现其数量特征的范畴、给出统计指标定义(包括内容、口径、计算方法和表现形式等)来获取数据的方法,最常用于价值测度,也用于其他形式的测度。可以说,定义测度方法应用最为广泛,但也最为困难。模型测度是一种根据现象与现象之间的内在联系关系、或者现象自身的发展变化规律,通过建立一定的方程模型来获取数据的方法。前面三种统计测度方法基本上都属于直接测度,定义测度既可能是直接测度、也可能是间接测度,而模型测度都属于间接测度方法。

4.从测度的维度看,可以分为单一测度与多维测度。单一测度是指采用单一的方式方法对所研究现象或事物进行单一角度的测度,获得单一的数据。多维测度是指对所研究现象或事物进行多角度的测度,测度过程中可能需要采用多种测度方法和计量方式,例如多指标综合评价就需要借助统计指标体系对评价对象进行多角度的测度。显然,单一测度是多维测度的基础。

二、统计测度是统计学的立足之本

首先,从统计学的发展历史看,是统计测度使统计学破茧而出。为什么主流观点认为政治算术是统计学的起源而不是国势学?正是因为威廉·配第首次采用统计测度的方式进行了国家实力的统计分析和有关推算,得出了令人信服的结论。威廉·配第在1693年出版的《政治算术》[8]中写道“因为和只使用比较级或最高级的词汇以及单纯作思维的论证相反,我却采用了这样的方法(作为我很久以来就想建立的政治算术的一个范例),即用数字、重量和尺度的词汇来表达我自己想说的问题,只进行能诉诸人们的感官的论证和考察在性质上有可见的根据的原因”,这一观点在统计学的发展过程中产生了非常重要的影响。他的这段话虽然没有出现测度一词,但却道出了测度的本质,即让事物变得明白、变得有根据,因为“数字、重量和尺度”就是测度、就是根据,用“数字、重量和尺度的词汇来表达想说的问题”就是一种测度的思想,尽管测度的方式方法还很简单。相反,国势学虽然提出了归纳法这一统计学的基本方法并首创了统计学一词,但由于没有采用统计测度的方式进行国势问题的研究而难以修成正果。正如邱东教授[7]所说:“在配第之前,统计学的研究对象虽然是国家的态势,但它在方法论上只是定性言说。一个国家的财富总量在本体论意义上是可以测度的。然而只是到了配第时期,人类才想到了要测度它,并发明了如何测度的基本方法。政治算术,即开创期的经济统计学,实现了从无到有的转变,大大扩展了宏观测度的认识论边界,因而才具有了统计学范式创新的革命性意义。”同样,格朗特的《关于死亡表的自然观察和政治观察》也是人口统计测度方面的经典之作,无论是原始测度还是再测度,都给后人留下了宝贵的财富。之后,统计学就是沿着如何更加科学、准确测度世界这一主线而发展的。笔者曾在“从政治算术到大数据分析”一文[9],对数据的变化与统计分析方法的发展进行了粗浅的归纳,其主题实际上就是统计测度问题。

其次,从统计学的研究对象上看,统计测度是体现统计学数量性特征的前提条件。统计学的研究对象是现象的数量方面,或者说统计学是关于如何收集和分析数据的科学。统计数据从何而来?从统计测度中来。数据不同于数字,数字是统计测度的符号,数据是统计测度的结果,这也正是统计学区别于数学之处。所以说,数据的本质问题就是统计测度问题,故此统计测度是统计学的基本问题。这里重点讨论两个问题:一是统计测度与统计指标的关系,二是统计测度面临的新问题。关于第一个问题,本文认为统计测度与统计指标是一个事物的两个方面,这个事物就是数据。统计指标法是统计学的基本方法之一,尽管前面对统计测度从方式方法上进行了分类,但从广义上说所有统计测度都是定义测度,都表现为指标。也就是说,任何统计测度———不论是直接测度还是间接测度,最终目的是获得能够让人明白的数据,而表现数据的最主要形式就是统计指标,其他表现数据的形式都是派生出来的。所以,统计测度就是根据所设定的统计指标去获得所需的数据。关于第二个问题,与后文所要论及的大数据有关,就是定性测度问题。在统计学中,数据可以分为两类———定性数据与定量数据,其中定性数据又包括定类数据与定序数据两种,它们属于非结构化或半结构化数据。相应地,统计测度也可分为定性测度与定量测度。很显然,只有定性测度与定量测度方法得到同步发展,统计学才能更加完善。总体上看,定量数据的统计测度已经比较完善,但定性数据的统计测度还有很多问题尚待解决,难点就在于测度的切入点———如何提取有效的信息、如何最终转化为统计指标。尽管关于定性数据分析的论著已经不少,但还没有从理论方法上建立起定性数据统计测度的体系,因此统计学在这方面的任务依然很重。

第三,从统计学的永恒主题看,通过科学的数据分析、得出有效的结论是其不变的追求,而数据分析过程就是综合的统计测度过程。获得数据的目的是为了发现隐含其中的有价值的信息,即发现数据背后的数据,让数据再生数据,从而满足人们认识事物、掌握规律、科学决策的需要。除了总量、结构等基本信息外,更重要的是通过数据分析来呈现现象的变化规律与相互关系。不难发现,这种数据分析的过程,就是不断进行各种统计测度的过程,所以最终的统计分析结果实际上就是各环节、各方面的各种类型的统计测度的叠加结果,或者说是统计测度不断放大的过程。大量针对社会经济现象进行分析研究的文献(不论是否冠以“测度”两字),只要有数据分析,都是如此。可以说,统计测度贯穿于统计数据分析的全过程。但是,为什么很多统计数据分析并没有得出有效的结论呢?本文认为原因就出在统计测度上,尤其是没有首先解决好原始统计测度问题。应该说,围绕数据分析已经建立起一整套比较完整的统计方法体系,很多方法也都身经百战、行之有效,但一旦原始统计测度有问题、数据不准确或不真实,那么任何方法都只是摆设。仔细研读很多所谓的实证分析文献,其重点均在于构建什么样的模型或运用什么样的方法,虽然有的文献也必须要讨论选择什么样的变量(指标)这个问题,但并不是系统地从测度的角度进行阐述,因此所用的模型越来越复杂,但所得的结论却离实际情况越来越远。学界总是有这样一种观念:变量越多、符号越新奇、模型越复杂的文章才越有水平,似乎这样分析所得的结论才越可靠。殊不知,不以科学可靠的原始统计测度为基础,任何数据分析都会成为无源之水、无本之木,所得的结论也只是更精确的错误而已。本文认为,任何脱离科学统计测度的统计分析都是毫无意义的,充其量是一种数字游戏而已。应该树立这样一种观念:科学的统计数据分析首先取决于科学的统计测度,而不是首先取决于什么样的分析模型,虽然模型也很重要。这也再一次证明,统计测度问题是统计学的根本问题。其实,归根结底看,在统计数据分析过程中,每一步分析都以前一步的测度为原始测度,每一步所用的方法都是统计测度方法,因此所有的统计分析方法都是统计测度方法。甚至可以说,统计学方法体系就是统计测度方法体系。

当然,在实际的统计分析中,统计测度往往遇到一些困难,即有些指标数据由于各种原因无法获得,这就不得不采用替代这种途径。例如,绿色GDP核算的概念已经提出很多年,但为什么还没有哪个国家真正公布绿色GDP数据,原因就是自然资源价值、生态环境价值等的统计测度目前还面临着很大的困难,其背后存在着一系列有待进一步研究和解决的理论与实践问题,因此不少学者进行了替代测度的探讨。这一方面说明统计测度的重要性,另一方面说明统计测度替代的无奈性。但是,替代测度必须遵守相应的规则与逻辑,要经得起推敲。有的文献明明知道有关变量无法测度、有关数据无法获得,却随意地、不符合逻辑地进行所谓的替代,结果是最后的结论不知替代成什么样了,很难理解它的意义。关于替代测度的有效性问题,邱东教授[7]已有精辟的论述,在此不再展开讨论。

三、统计测度是数据科学的基础

笼统地讲,数据科学就是以大数据为研究对象的科学,需要多学科交叉融合、共同支撑。由于大数据是快速增长的复杂数据,因此大数据分析仅有统计思维与统计分析方法是不够的,还需要强大的数据处理能力与计算能力。只有把统计思维、统计方法与计算技术结合起来,才有可能真正挖掘出大数据中的有价值信息。本文认为统计思维、统计方法与计算技术相结合的基础就是科学的统计测度。

首先,大数据技术不能自行解决其计算和分析应从何处着手的问题。现代信息技术与互联网、物联网技术的快速发展,使人类进入大数据时代,也有人说进入到数联网时代,这意味着我们一方面被各种越来越多、越来越复杂的数据所包围,另一方面又被数据中巨大的信息价值所吸引,想从中挖掘出可供决策之用的信息。如何挖掘大数据?人们已经进行了艰苦的探索,发展了很多专门的方法技术,并已尝到了不少甜头,但远未达到充分利用大数据中有效信息的目的,因为已有的大数据分析研究主要集中于计算机科学与技术、软件工程、计算数学等领域,重点是计算能力与算法研究,而很少从统计学的角度进行有针对的探讨,还没有真正进入数据分析的深层。这里面实际上忽略了最基础的统计测度问题。如果说,计算技术的发展能够解决数据储存与计算的能力问题,算法模型的改进能够解决大数据分析的综合能力问题,那么它们仍然不能解决对谁进行计算与分析的问题,也即从何处着手的问题。无论是传统的结构型数据,还是现在的包含大量非结构型数据的大数据,要对它们进行分析都必须找到正确的切入口,即分析的基本元素是什么,或者说需要测度什么。当然,还有如何测度的问题。然后,才能进行分组、综合和构建模型,否则大数据分析不会达到人们的预期。

其次,大数据之所以催生数据科学,就是为了通过多学科交叉融合来共同解决大数据分析中存在的问题,其中包括统计测度问题,这一点对于非结构化数据尤为突出。实际上,大数据的本质就是非结构化数据,一是体量大、比重高(超过95%),二是变化快、形式多,三是内容杂、不确定。通过各种社交网络、自媒体、富媒体,以及人机对话和机器感应记录等产生的各种非结构化数据,例如各种文字、各种表情符号、各种声音、各种图像,到底表示什么?综合在一起能体现什么规律?如何综合各种信息?存在着大量有待研究的问题。其实,文字的长短、用词、表达形式(叙述式、议论式、散文式、诗歌式,等)甚至字体大小与颜色,表情类型与偏好,声音高低、频率与情绪,图像颜色等等,都是有特定意义的,即在特定环境条件下的反应。所以,一句话或一段声音的意义并非文字本身的意思,一个表情符号的意义并非符号表征的意思,一个图像的意义并非图像内容与色彩本身的意思,因为背后有太多的未知。人们浏览检索各种信息的习惯、收看与回复邮件等信息的习惯、参与信息网络的习惯、购物习惯与支付习惯等等,也是如此。更何况,同样的网络词汇在不同的时间代表着不同的语义。这背后隐藏着的是人们的行为与社会关系,既具有个性又具有共性,极其复杂。所以对这样的数据进行分析,首先绝非是计算问题,也不是用什么模型问题,而首先是从何处着手、如何选取关键词、如何选定关联词、可以用什么样的指标来综合、可以用什么样的表式来表现等问题,一句话就是统计测度问题。非结构化数据的统计测度将主要是定义测度,这些问题不解决,分析模型也是难以构建的,或者难以得出令人信服的结论。

例如,关于《红楼梦》前80回与后40回是否同一作者的争论,韦博成[10]进行了综合性的比较研究并提出了自己的观点,他指出已有美国威斯康辛大学华裔学者陈炳藻教授(1980)[11]、我国华东师范大学陈大康教授(1987年)[12]和复旦大学李贤平教授(1987年)[13]等学者从统计学的角度进行过专门的研究,但却得出了不同的结论:陈炳藻教授认为前80回与后40回均是曹雪芹所著;陈大康教授认为前80回与后40回为不同人所著;李贤平教授认为前80回是曹雪芹根据《石头记》增删而成,后40回是曹雪芹亲友搜集整理原稿加工补写而成。此外,还有其他一些学者进行过类似的研究,也有一些不同的结论。为什么都通过提取关联词和统计的方法却得出不同的结论?原因就在于用以分析的关联词不同,即统计测度的切入点不同,当然也有统计方法上的差异,但前者是根本。至少存在几个统计测度上的问题:提取单一维度的关联词还是多维度的关联词?提取什么类型的关联词(例如:关联词是名词、形容词还是动词;是花卉、树木、饮食、医药还是诗词)?这些关联词可以综合为什么样的指标?等等。由此可见,原始统计测度代表着数据分析的方向。

相比《红楼梦》,大数据分析要复杂得多、困难得多。所以,数据科学除了需要数学、统计学、计算机科学与技术、人工智能等学科的交叉融合外,还需要与行为科学、语言学、社会学、经济学等学科相结合,以便能很好地解决作为数据分析之前提的统计测度问题。

第三,数据科学将进一步拓展统计测度的边界,并提出更高的要求。伴随着人类认识世界的范围的不断拓展,统计测度的范围也不断扩大,从自然现象统计测度到人口现象、经济现象统计测度,再到社会现象、环境现象、政治现象等统计测度,几乎已经渗透到了所有可以想象到的领域。相应地,统计数据分析也从少量数据的分析进入到了大数据分析。大数据的复杂性、不确定性和涌现性(王元卓等,2013)[14],意味着统计测度的内容大大增加,原来一些不能测度的数据被纳入到了统计测度的范围,按照邱东教授的说法就是统计测度的边界大大扩展了。统计测度边界的扩大,必须以统计测度能力的提升为前提,即要求统计学借助现代信息技术进一步提升处理和分析数据的能力———对大数据“化繁为简”、“变厚为薄”的能力,这就必须以科学准确的大数据统计测度为前提,既改变统计思维,又创新统计分析方法,其中就包括统计测度思维、统计测度方法与统计测度标准。面对大量繁杂的数据,如果没有更好的统计测度思路与方法,包括个体标志定义方法、最小数据细胞分组与聚类方法、关联词含义的时间影响计量方法、定性测度指标筛选方法、再测度路径与方法、大数据统计测度评价标准等,那么统计学在数据科学发展过程中就难以发挥应有的作用,数据科学也将裹足不前。这就是统计学迈向数据科学的重要挑战之一。

综上所述,统计测度的基础性问题从统计学延伸到了数据科学,是两者的共同基础,并且对于数据科学而言显得更为重要。大数据的复杂性、不确定性和涌现性导致了统计测度的难度猛增,亟需建立面向大数据分析的统计测度理论与方法。要通过研究大数据的复杂性、不确定性和涌现性特征的基本因素,以及这些因素之间的内在联系、外在指标和测度方法,进而研究基于先进计算技术的大数据度量模型,构建寻找面向计算的数据内核或者数据边界的基本方法。总之,建立有效易行的数据表示方法,即科学的统计测度方法,是数据科学必须解决的基础问题之一。

四、创新与完善大数据统计测度方法

如前所述,统计学研究对象已经从结构化数据延伸到了包括非结构化数据在内的一切数据,统计测度边界得到了大大的扩展。按照邱东教授[7]曾经引用过的海德格尔的话:“界限并不表示某一事物的发展到此为止,而是像希腊人所认知的那样,界限是某种事物开始展现的地方”,预示着统计学在数据科学发展阶段的新起点已经展现在我们面前。新的统计测度边界催生统计测度方法的创新,统计测度方法的创新促进统计测度边界的拓展,两者相辅相成,共同推动统计学与数据科学的发展。为此,我们要系统梳理统计测度方法的发展历程,面对大数据提出的新挑战,大胆探索统计测度的新思路、新理论和新方法,为数据科学奠定坚实的统计学基础。为此提出如下几点建议:

首先,要紧密结合现象的本质去探求更科学的统计测度方法。本质决定一切,既然统计测度的目的是获得客观反映现象本质的数据,那么深入到现象本质、认识和掌握现象的本质,是科学统计测度的关键,也是探求新的统计方法的出发点。换句话说,科学的统计测度方法能够体现出数据的真正意义。例如,要探求社交网络数据的统计分析和测度方法,就必须了解社交网络的产生背景、构成要素、表现形式与基本特征,既要研究它的共性问题,又要研究它的个性问题与差异性,同时还要研究它的变化趋势。只有这样,才能掌握社交网络数据的构成要件或元素,才能建立起科学的、能有效体现社交网络数据意义的统计测度方法。再如,要分析研究电子商务数据,也必须先弄清楚什么是电子商务,尤其是弄清楚它与传统的商业模式有什么不同(包括物流、资金流与信息流)、有哪些新生事物(包括时空特征、法律监管)等等,否则统计测度无从下手或者抓不住要害。同时,作为一个新的研究领域,数据科学的理论基础将与计算机科学、统计学、人工智能、数学、社会科学等有关,离不开对相关学科领域知识与研究方法的借鉴,因此对相关领域的知识与研究方法的学习十分重要。否则,就会严重扭曲统计测度方法,胡乱设置测度标志,这需要引起高度关注。

其次,要紧密结合大数据的特点去创新统计测度方法。大数据的特点是复杂性、不确定性和涌现性并存,构成了多维的数据空间,里面蕴藏着丰富的信息资源,这是传统的统计数据不可比拟的。那么该从何处进入这样的数据空间?怎么进去?又怎么出来?这归根结底还是统计测度方法问题。因此,在开展大数据分析之前,首先要研究大数据的基础性问题,包括大数据的内在机理(包括大数据的演化与传播机制、生命周期),数据科学与社会学、经济学、行为科学等之间的互动机制,以及大数据的结构与效能的规律性等等,为创新统计测度方法提供导向。本文认为,再复杂的数据也有共性,再不确定的数据也有规律,再涌现的数据也有轨迹。网络大数据背后的网络平均路径长度、度分布、聚集系数、核数、介数等具有共性的特征与参数,是开展复杂网络数据分析的基础(李国杰、程学旗,2012)[15];大数据在时空维度上的分布形式、内在结构、动态变化和相关联的规律,是找到大数据分析切入口、进而简化大数据表征的前提;大数据的涌现性轨迹(包括模式涌现性、行为涌现性和智慧涌现性),是研究更多的社会网络模型和理解网络瓦解失效原因,理解人们网络行为涌现特征(例如人们发邮件数量的时间分布特征),以及探求大量自发个体语义融合连接形成有特定意义的通用语义之过程的路径(靳小龙等,2013)[16]。也就是说,这些共性、规律和轨迹就是统计测度的主要依据,也是重点内容。发展和创新能够准确发现大数据的共性、规律和轨迹的定量方法,其实就是发展和创新大数据统计测度方法。

统计学变量的定义例4

描述性统计是社会科学实证研究中最常用的方法。准确、全面、正确的描述是所有实证分析的基础,如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将是值得怀疑的。一项研究能够将所研究的现象或对象描述清楚,就是一个极大的贡献;而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。但是因为描述性统计所用方法简单易得,往往没有得到足够的重视。

均值的局限普遍用于描述样本集中趋势的测量之一是均值。它对于近似正态的对称分布样本来说是比较好的测量,对于不对称分布则不然,尤其会受到极端值的影响。两个分布完全不同的样本可能会有相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要我们进行深入研究的、或应当引起人们注意的。为了弥补均值的这个缺陷,一般在报告均值的同时也报告方差,或用直方图/散点图的形式描述分布,以提请读者注意群体内部的差异。

不同群体的可比性在描述性统计中,往往涉及到对不同时期或不同人群的总体描述,以反映社会变化或地区差异。在社会科学中、尤其是人口研究中,不少事件的发生都是与年龄密切相关的,如我国妇女大部分在35岁以前完成了生育,从而导致35岁以上育龄妇女中极高的避孕现用率。在这种情况下,两个样本之间存在避孕现用率的差异可能只是年龄结构的差异,而不是年龄别避孕现用率的差异。又如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,但忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群。这种对两个不同群体的比较往往会导致错误的结论。

绝对数的使用由于中国人口数量巨大,调查研究也比较容易得到大容量的样本,所以对任何小概率事件用绝对数报告都会出现惊人的巨大数字,单纯对绝对数的强调往往会产生戏剧性的效果。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究人群的比例。

小样本的代表性在一次抽样的小样本中求得的率或比例会非常不稳定,与另一次抽样的结果可能会有较大差距。因此当研究仅限于从小样本获得的资料时,应当在报告比例的同时也报告样本量。

2双变量统计分析

在社会科学研究中,首先分析的往往是两个变量之间的关系,如用相关或列联表等方法。一般在确定两个变量之间确实有某种关系,如在经过统计检验后证实两变量有显著相关关系,进行更进一步的分析才有意义。因此,双变量统计分析在实证分析中占有重要地位。但是,由于在应用中对有些问题的忽视,双变量统计分析也很容易出现偏差或错误。

卡方检验的局限在利用列联表对两个定序/定类变量进行相关分析时,需要进行统计检验来判断两个变量的相关是否有统计上的显著意义。不少研究结果都用卡方检验的显著性报告相关状况。但值得注意的是,卡方统计量的计算本身是有局限性的,样本越大,卡方值就会相应增大,因此大样本的卡方检验很容易得到显著结果。所以一般在报告卡方检验结果以说明两变量是否显著相关时,还应当同时报告相关强度,即相应的相关系数,如Gamma,Lambda等。

统计意义上的显著与差别的实际意义在检验两个定距变量的均值差别是否具有统计上的显著性时,也存在相似的问题。由于样本量越大,样本均值分布的方差就越小,因此常用的t检验结果就越可能显著,任何细微的差别都可能有统计上的显著性。但有时具有统计意义显著性的差异,在实际生活中可能意义并不大,如同在两个草堆之间找出一根草的差距,对判断两个草堆的大小没有实际意义。因此,对任何检验结果都应当有符合实际的解释和说明。

虚假相关问题双变量分析中的虚假相关问题,几乎在所有关于社会科学研究方法的教科书中都会涉及到,在统计分析方法的教学中也被视为经典问题。但是多少年来,人们仍然在不断地重复着这个“经典的错误”,即认为可见的或统计检验结果显著的相关就是真正的相关;更为大胆的做法是把这种相关关系推向因果关系。我们知道,对于有的变量来说,即使是经过检验判定两者具有统计上显著的相关关系,也不一定存在实际意义上的关系,因为可能有未考虑到的变量或不可测量的变量在同时对两个研究变量起作用,有时甚至可能完全是偶然的巧合。例如,火灾的大小是以火灾损失来衡量的,而参加灭火的消防员人数是与火灾大小有关的,火灾越大,出动的消防员就越多,但凡是具有常识的人都不会根据出动消防员人数和火灾损失两个变量之间的高度相关,断定出动消防员越多火灾损失就越大,因为火灾的规模是决定因素(但很难直接衡量)。在有关人口科学研究中也有报告虚假相关的现象,如人口增长率的降低导致了经济增长的提法就是一例。因此,在分析相关关系时,应当根据理论、知识、经验、甚至常识来判断这种分析是否有意义、是否存在其他变量的作用(称为外在变量),避免得出有悖于常理的分析结果。有些虚假相关是可以通过统计分析方法判别的,如在控制了另外一些变量后观察两个变量的偏相关,或在双变量分析的基础上,进一步用多变量分析深入研究。

3多变量分析

回归分析是多变量分析中应用最多的方法,尤其是逻辑斯蒂回归更是被广泛地应用。在众多应用中,比较明显的问题是使用方法是否得当和对结果的报告和解释是否规范、合理(见2002年第2期《人口研究》刘金塘文)。此外还有一些应当引起注意的问题。

分析框架的重要性在社会科学研究中,各变量之间往往存在错综复杂的关系,如果在进行回归分析之前没有一个清晰合理的分析框架,那么回归的结果有可能会引起质疑。一般应在报告回归分析结果之前,介绍该分析的框架,如各变量的定义、各自变量与因变量的假设关系及其理由等,对建立的回归模型做出合理性论证。有一些变量可能是作为控制变量纳入回归模型的,如性别、年龄等,最好事先解释清楚。对假设因果关系的模型,应当至少能够说明:(1)该因果关系在理论上是正确的、在实践中是合理的;(2)从事件发生的时间上来说,应当是原因发生在先、结果发生在后。如有些回归分析中,未加说明即把所有与因变量显著相关的变量都囊括在自变量中,甚至有些自变量与因变量有明显的互为因果关系,显得分析逻辑混乱;还有的论文在简单介绍研究背景和数据来源之后,急于建立因果关系并推出回归分析结果,然后再根据各变量在回归模型中的显著性一一说明,这相当于事后解释;这些做法都是错误的。

在具备“奔4”微机和较易操作的软件的今天,转瞬间就可完成一次回归分析,但是在此之前,需要有大量的前期准备工作,包括文献检索和理论框架构建,才能确保统计分析的科学性。

分析方法应用的条件每种多变量方法都有各自的前提条件或假设,如果这些条件不具备或者假设不成立,该方法的应用就成问题。如Pearson相关是考察线性相关关系,多元方差分析只能辨别线性相关因变量的多元差异,线性回归分析假设自变量与因变量之间为线性关系,因子分析方法也是建立在各变量具有一定的线性相关基础之上的;另外,在逻辑斯蒂回归中,每个分类都应保证有足够的频数,如果频数太少就会影响参数估计的稳定性;等等。尽管一般不在报告分析结果时说明各种假设是否成立或条件是否满足,但是在进行分析时应当自觉地进行考察。如果不能满足条件或假设不能成立,就对数据进行转换或调整后再分析,或者改变分析方法。

多变量分析结果的展示和解释多变量分析的结果一般是通过列表来展示的。现在一种并不少见的做法是直接把统计软件的输出直接复制到论文中,我们往往会在文章中看到包括回归参数估计、参数标准差、检验统计值、检验显著性、偏相关系数等等n行m列的大表,使人有目不暇接的感觉。实际上参数标准差和检验统计值是提供给分析者的信息,没有必要列在结果中;如果不是有特别需要的话,偏相关系数也不是关注重点;最主要的应当是回归参数估计及其显著性。

统计学变量的定义例5

中图分类号:F22 文献标志码:A 文章编号:1673-291X(2013)01-0231-03

引言

基于广义线性模型的统计分析常常被用于生物、医学、金融工程等各个领域。该模型有两个基本的假定:一是在给定协变量X的条件下,响应变量Y的条件分布属于某一指数分布族;二是通过某一变换,该模型可以转化为线性回归模型。但是,在实际问题分析中,假定协变量X与响应变量Y满足某一线性结构的参数模型往往是不成立的。如下的广义变系数模型是经典广义线性模型的一个简单而有意义的推广。

注意到在模型(1)中,回归系数可以随着协变量U的变化而变化,因此该模型在表达协变量与响应变量的关系上,具有更强的适应性和解释能力。另外,显然当为某一未知参数向量时,模型(1)就转化为经典的广义线性模型。因此,模型(1)可以看成经典广义线性模型的一个推广形式。

目前,模型在统计领域中的应用越来越受到人们的关注,并且关于模型(1)的研究也已有大量的文献。比如 Cai 等研究了模型(1)的有效估计以及拟合优度检验问题。Lian在高维数据下,考虑了模型(1)的变量选择问题。Kuruwita等 则在联系函数未知的情况下,来研究模型(1)的估计问题。在本文中,我们主要考虑模型的B样条估计问题。结合基函数逼近技术以及拟似然方法,对模型(1)提出了一个B样条估计方法.并结合R统计软件,对所提出的估计方法给出了一个基于R软件的实现过程,数据模拟表明所提出的B样条估计方法以及R软件的实现过程均是可行的。

与核估计以及局部多项式估计等局部非参数估计方法相比,B样条估计有其独特的优势。比如,B样条估计属于整体非参数估计方法,在估计过程中可以充分利用样本的信息,因而具有相对较高的估计精度。关于B样条估计的更多性质,参见文献 [6]。

一、方法论和主要结果

(一)B样条估计过程

那么关于γ的拟似然函数可以定义为:

(二)R软件的实现过程

在统计分析领域,常用的统计软件有SAS、SPSS、S-Plus以及R等。其中R软件是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统、数组运算工具、完整连贯的统计分析工具、优秀的统计制图功能、简单而强大的编程语言等功能。在Tiobe公布的2011年11月编程语言排行榜上,R语言位列第二十七位,市场占有率是0.5%,SAS是0.386%,排在第三十五位。可见R软件是目前用户增长最快,且已成为了统计学家和数据分析师所钟爱的统计软件之一。接下来,我们利用R软件,对上节所提出的估计方法给出一个具体的实现过程。

首先我们以3次B样条为例,给出B样条基函数的程序代码,其他阶数的B样条基函数程序可以类似地给出。程序中u为样条函数的自变量,m为样条函数的阶数,kk为内部节点个数,ul为自变量u的取值下限,uu为自变量u的取值上限。

接下来,我们给出函数系数β(u)估计的程序代码,其中x和u为协变量,y为响应变量,m为B样条的阶数,kk为内部节点个数。在该程序中,我们采用的是等间距节点。

二、模拟研究

接下来我们通过数字模拟实验来说明本文提出的估计方法以及算法的可行性。为实施模拟,我们假定数据满足的广义变系数模型为变系数泊松回模型,即响应变量Y服从泊松分布,并且假定其条件均值具有如下结构:

运行上述程序代码,则得出下页图1的模拟结果,其中实线代表真实的函数曲线,点虚线代表利用本文的方法给出的估计曲线。从图1可以看出,估计曲线可以很好地拟合真实曲线。这也表明本文提出的估计方法以及给出的R程序代码是行之有效的。

参考文献:

[1] Cai Z,Fan J Q,Li R.Efficient estimation and inferences for varying-coefficient models[J].Journal of the American Statistical Associ-

ation,2000,95:888-902.

[2] Lian H.Variable selection for high-dimensional generalized varying-coefficient models[J].Statistica Sinica,2012,22:1563-1588.

[3] Kuruwita C N,Kulasekera K B,Gallagher C M.Generalized varying coefficient models with unknown link function[J].Biometrika,2011,

98:701-710.

[4] Wu C O,Chiang C T.Kernel smoothing on varying coefficient models with longitudinal dependent variable[J].Statistica Sinica,2000,

10:433-456.

[5] Fan J,Gijbels I.Local Polynomial Modeling and Its Applications[M].Chapman and Hall:London,1996.

[6] Schumaker L L.Spline Functions[M].Wiley: New York,1981.

统计学变量的定义例6

由于工作关系和职业习惯,笔者对各种各样有关人口和计划生育的工作报告、分析文章中的统计方法和统计数据比较关注,经常可以发现统计方法和统计数据被误用的情况。本文通过一些实例,分析由于不了解人口和计划生育的特点而造成统计方法和数据误用的情况。

1 个案与群体

〔实例1〕某调查报告称,某村2001年出生婴儿10人,其中男婴6人,女婴4人,出生性别比高达150,严重失调。

〔实例2〕某乡给某村下达人口计划,其中一项指标是计划生育率,要求当年的计划生育率不低于95%,而该村一般每年出生不足20人。

〔实例3]某地计生委根据群众举报,查出某县一个超生5胎的情况,据此称该县超生问题严重。

〔实例4〕某县总人口不足50万人,近年来在孕妇中推广服用“福施福”。上级要求检查服用“福施福”后,人口缺陷发生率是否逐年下降。还有不少地方把孕产妇死亡率是否逐年下降当作生殖健康服务工作的考核内容。

这几个例子所出现的问题都是以个案或少量发生的情况,说明一个地方宏观的情况。人口和计划生育统计所分析的对象(人口)或事例具有群体性,这个群体是由每个个体的人或事件集合而成。每个个体是否发现这种现象是偶然的,作为表现群体规律的统计数据,只有当群体具有相当的规模后才有意义。群体的规模太小,尽管对每个个体的统计是准确的,指标的计算也是正确的,但计算结果并不能客观地反映群体的规律。

如实例1,一个村的出生人数仅为10人,计算的出生性别比要么是100(“绝对平衡”),要么就是男女比例严重失调。实例2中计划生育率受出生总数的影响,要么计生率正好100%,只要有一个计划外出生,计划生育率就低于95%。例4涉及的出生缺陷发生率或孕产妇死亡率一般统计时均以10万作为分母,对于一个县,每年出生几千人或1万多人,即使按照出生缺陷、孕产妇死亡发生的平均水平,每年也只有几例,偶然性很大,在统计数据上很难表现为逐年下降。至于例3,以一个特例说明全县的情况,更是欠妥。各种人口和计划生育统计教材上并未说明各项统计指标适用的人群至少要达到多少,但一般说来这些统计指标绝大部分不能用于分析规模在几百人到一千多人的村级情况,许多指标在县、乡级使用也不太合适。多年来各级是通过报表收集人口和计划生育统计数据。报表由上级制发,基层单位按统一的口径填报每个项目,然后逐级汇总、上报。这样以来,上、下级的报表式样相同,只是数量大小有差别,于是,上级单位计算哪些指标,下级单位“照葫芦画瓢”计算相同指标。特别是实行人口与计划生育目标管理责任制后,各项工作任务和责任要逐级分解、落实,相应地,工作指标也被层层分解,上一级控制的指标(如出生率、计划生育率)也被一直套用到基层单位。在这种情况下,群体性的要求很容易被忽视。

2 自然属性与社会属性

〔实例5〕1995年8月,在全国上半年人口形势分析会上,某省计生委分析本省当年上半年二孩出生数量比上一年同期减少的原因时称,由于自当年起全省广泛推行“三结合”,许多群众为了发家致富,主动退出二孩指标,于是二孩出生明显减少。笔者的同事立即对此理由提出了置疑:既然是主动退出二孩指标导致二孩出生减少,那么原来应在1995年上半年生育二孩的妇女至少在1994年上半年就应退出二孩指标,而那时候,该省并未开展计划生育“三结合”;至于1995年上半年开展“三结合”后退出的二孩指标,其二孩出生减少的效果应在1996年以后才能表现出来。群众退出二孩指标与二孩出生数量的减少在时间上出现了“矛盾”。

〔实例6〕许多文章分析妇女受教育程度越高,生育的孩子越少。

这两个例子说明分析人口出生数量的变化应考虑人口的自然属性和社会属性。人口首先是生物意义上的人口,具有自然属性,同时,人口生活、存在于一定的社会环境中,具有社会属性。人口现象的发生既受自然属性的影响,也受社会属性的影响。从根本上说,社会属性对人口现象的影响和制约是有条件的、间接的。而自然属性的影响和制约是无条件的、直接的。社会属性的影响和制约常常要通过自然属性来实现。在分析人口现象的时候,首先要解释人口的自然属性,然后再解释社会属性。就实例5而言,从妇女退出二孩指标到二孩出生减少,至少间隔10个月,即妇女的怀孕期,无论推行“三结合”力度多大,妇女10个月的怀孕期不能缩短。退指标的发生与出生数的减少在时间上不“同步”,至少要“滞后”一年。也就是说,1995年上半年因开展“三结合”妇女退出二孩生育指标不会影响这个时期的二孩出生数量。关于实例6,一个人的受教育程度属于社会属性,妇女受教育水平提高,的确会影响其生育行为。然而,影响生育的自然因素,直接因素是避孕节育行为,具体地说,影响生育的生物因素包括推迟结婚(不发生性行为)、采取避孕措施和流产(终止妊娠)。妇女文化程度影响到上述生物因素发生变化(如文化程度高,能够更好地掌握避孕知识,可以提高避孕的有效性,减少怀孕的可能),并通过上述因素影响生育孩子的数量。直接讲文化程度与孩子数量的关系,未免有些牵强。

3 定量与定性

〔实例7〕各地每年都要分析当年的人口形势,将当年的数据与上一年的数据进行对比。许多分析报告在列举了对比数据后得出结论:“今年的工作比上一年有明显的进步,取得了巨大的成绩,上了一个新台阶”。但如果我们仔细察看各项指标的数量,发现变化并不大,如计划生育率由88.5%上升到89%,出生率由15.4‰下降为14.9‰(这其中由于人口年龄结构的变化也能导致出生率下降),多孩出生由165人减少为149人,多孩率由2.2%下降为2%等等。根据这些数据的变化,得出的定性结论应当是:“工作稳步发展,人口增长保持平稳的态势”。人口和计划生育的统计分析主要是指对数据的分析,并由“定量”的描述引申到定性的判断。如果忽视定性的分析,那么,所谓定量分析不过是数量变化的文字描述而已。把握好定性分析的关键在于,定性分析应以定量分析为基础,即“定量”在前,“定性”在后。那种先“定性”,再计算数量变化的做法,违背了“定量”与“定性”的基本规律。这样进行的定量分析,只是给定性的结论加一些数量的点缀。

4 模糊和精确

〔实例8〕某地区的一份材料称,根据20年来每年总和生育率的变化,推算本地区20年来少生了1831275人。

〔实例9〕某县计生委利用农村赶集日人口比较集中的机会,出动服务车,设置咨询台,向群众宣传计划生育知识,提供咨询服务。县计生委的汇报材料称,“一个月来在集日上接受宣传、咨询的群众累计达到127328人次”。

乍一看,实例8和实例9中的人数和人次数的统计和计算十分认真仔细,数字如此精确,令人钦佩。但转念一想,不免生疑:实例8中利用总和生育率计算少生人口,需要以年龄别生育率与分年龄妇女人数相乘计算出生人数,一般来看,每个年龄组的计算结果都不会是整数,只好四舍五入。每一年若干个年龄组累计下来,个位数已经含糊不清了。再把20年的少生人数累计起来,怎么可能精确到个位数呢?况且20年间,该地区的人口并非处于“封闭状态”,各年龄组人数因为人口迁移而变化,也会影响到计算少生的数量。至于实例9,在一个开放的、人们频繁走动的集市上,如何判定哪个人接受了宣传,哪个人接受了咨询,并没有一个客观的标准;即使有标准,实际操作中也很难把握,因此,根本没有可能逐人统计。实例8、实例9中看似精确的数据令人感到滑稽,倒不如模糊一些,说“20年大约少生了18万人”,“一个月在集市上接受了计划生育宣传、咨询服务的人次达10余万”,或许有几分可信。从某种意义上讲,人口和计划生育所涉及的是宏观层面的事情,与此相应的统计数据所反映的是大致的状态或趋势,没有必要也没有可能做到精确。许多同志在应用统计方法时,往往注意的是方法本身的定义和计算过程,而对计算中数据的来源不了解。人口和计划生育统计属于社会经济统计范畴,很多数据是通过抽样调查获得,允许有一定的误差;即使是全面的调查(如人口普查、全局报表),在实施过程中,也会遇到这样、那样的干扰或影响,存在着调查误差,这是无法完全避免的。从某种意义上讲,数据存在一定的误差,这是人口和计划生育统计的特点之一。

5 原因与结果

〔实例10〕最典型的例子莫过于“人口出生率每降低1个千分点,人均GDP提高多少个百分点”的说法。这种说法的依据是利用相关分析法对全国各省的人口出生率和人均GDP的数量变化进行计算,得出二者之间的函数关系式和相关系数。把人口出生率作为自变量,看自变量的单位变化影响因变量(人均GDP)变化的数量大小。

在这个例子中相关分析法本身以及有关的数据都是正确的,然而,用这样一个函数式来解释人口增长与经济增长的相互关系是有问题的。其一,就统计方法来说,相关分析只反映变量之间的相关关系,而不说明因果关系;其二,人口增长与经济增长固然相互影响,但从本质上来说,是经济发展影响人们的思想,进而影响人们的生育行为,最终导致生育率下降,人口增长率降低,即经济增长是“因”,而人口增长是“果”。颠倒了因果关系,不仅逻辑上讲不通,数量上的“相关性”也失去了意义。

笔者在多年的工作中体会到,由于人口和计划生育所具有的特点,人口和计划生育统计分析方法的应用和统计数据的解释有别于其它部门和领域对于统计的一般要求。正确地应用统计分析有助于我们认识人口和计划生育的特点和规律,只有科学地认识和把握人口和计划生育的特点和规律,才能避免在统计分析中陷入误区。

社会科学实证研究中的统计分析方法应用

郑真真 (北京大学人口研究所 副教授)

统计学的应用随着微型计算机的普及越来越广泛,在社会科学实证研究中几乎是无处不在。有了一定规模的数据和一个统计分析软件,就可以很方便地进行各种估算和分析。然而由于统计分析方法本身并不像加减乘除那样简单,而一些统计分析软件已经发展到几乎是人人都可使用的程度,如果使用者在只知其然不知其所以然的情况下操作并得到结果,可能出现对统计分析方法误用或滥用的现象。本文仅对一些统计分析中比较常见的问题进行讨论,以引起各方面的重视。

1 描述性统计

描述性统计是社会科学实证研究中最常用的方法。准确、全面、正确的描述是所有实证分析的基础,如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将是值得怀疑的。一项研究能够将所研究的现象或对象描述清楚,就是一个极大的贡献;而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。但是因为描述性统计所用方法简单易得,往往没有得到足够的重视。

均值的局限 普遍用于描述样本集中趋势的测量之一是均值。它对于近似正态的对称分布样本来说是比较好的测量,对于不对称分布则不然,尤其会受到极端值的影响。两个分布完全不同的样本可能会有相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要我们进行深入研究的、或应当引起人们注意的。为了弥补均值的这个缺陷,一般在报告均值的同时也报告方差,或用直方图/散点图的形式描述分布,以提请读者注意群体内部的差异。

不同群体的可比性 在描述性统计中,往往涉及到对不同时期或不同人群的总体描述,以反映社会变化或地区差异。在社会科学中、尤其是人口研究中,不少事件的发生都是与年龄密切相关的,如我国妇女大部分在35岁以前完成了生育,从而导致35岁以上育龄妇女中极高的避孕现用率。在这种情况下,两个样本之间存在避孕现用率的差异可能只是年龄结构的差异,而不是年龄别避孕现用率的差异。又如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,但忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群。这种对两个不同群体的比较往往会导致错误的结论。

绝对数的使用 由于中国人口数量巨大,调查研究也比较容易得到大容量的样本,所以对任何小概率事件用绝对数报告都会出现惊人的巨大数字,单纯对绝对数的强调往往会产生戏剧性的效果。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究人群的比例。

小样本的代表性 在一次抽样的小样本中求得的率或比例会非常不稳定,与另一次抽样的结果可能会有较大差距。因此当研究仅限于从小样本获得的资料时,应当在报告比例的同时也报告样本量。

2 双变量统计分析

在社会科学研究中,首先分析的往往是两个变量之间的关系,如用相关或列联表等方法。一般在确定两个变量之间确实有某种关系,如在经过统计检验后证实两变量有显著相关关系,进行更进一步的分析才有意义。因此,双变量统计分析在实证分析中占有重要地位。但是,由于在应用中对有些问题的忽视,双变量统计分析也很容易出现偏差或错误。

卡方检验的局限 在利用列联表对两个定序/定类变量进行相关分析时,需要进行统计检验来判断两个变量的相关是否有统计上的显著意义。不少研究结果都用卡方检验的显著性报告相关状况。但值得注意的是,卡方统计量的计算本身是有局限性的,样本越大,卡方值就会相应增大,因此大样本的卡方检验很容易得到显著结果。所以一般在报告卡方检验结果以说明两变量是否显著相关时,还应当同时报告相关强度,即相应的相关系数,如Gamma,Lambda等。

统计意义上的显著与差别的实际意义 在检验两个定距变量的均值差别是否具有统计上的显著性时,也存在相似的问题。由于样本量越大,样本均值分布的方差就越小,因此常用的t检验结果就越可能显著,任何细微的差别都可能有统计上的显著性。但有时具有统计意义显著性的差异,在实际生活中可能意义并不大,如同在两个草堆之间找出一根草的差距,对判断两个草堆的大小没有实际意义。因此,对任何检验结果都应当有符合实际的解释和说明。

虚假相关问题 双变量分析中的虚假相关问题,几乎在所有关于社会科学研究方法的教科书中都会涉及到,在统计分析方法的教学中也被视为经典问题。但是多少年来,人们仍然在不断地重复着这个“经典的错误”,即认为可见的或统计检验结果显著的相关就是真正的相关;更为大胆的做法是把这种相关关系推向因果关系。我们知道,对于有的变量来说,即使是经过检验判定两者具有统计上显著的相关关系,也不一定存在实际意义上的关系,因为可能有未考虑到的变量或不可测量的变量在同时对两个研究变量起作用,有时甚至可能完全是偶然的巧合。例如,火灾的大小是以火灾损失来衡量的,而参加灭火的消防员人数是与火灾大小有关的,火灾越大,出动的消防员就越多,但凡是具有常识的人都不会根据出动消防员人数和火灾损失两个变量之间的高度相关,断定出动消防员越多火灾损失就越大,因为火灾的规模是决定因素(但很难直接衡量)。在有关人口科学研究中也有报告虚假相关的现象,如人口增长率的降低导致了经济增长的提法就是一例。因此,在分析相关关系时,应当根据理论、知识、经验、甚至常识来判断这种分析是否有意义、是否存在其他变量的作用(称为外在变量),避免得出有悖于常理的分析结果。有些虚假相关是可以通过统计分析方法判别的,如在控制了另外一些变量后观察两个变量的偏相关,或在双变量分析的基础上,进一步用多变量分析深入研究。

3 多变量分析

回归分析是多变量分析中应用最多的方法,尤其是逻辑斯蒂回归更是被广泛地应用。在众多应用中,比较明显的问题是使用方法是否得当和对结果的报告和解释是否规范、合理(见2002年第2期《人口研究》刘金塘文)。此外还有一些应当引起注意的问题。

分析框架的重要性 在社会科学研究中,各变量之间往往存在错综复杂的关系,如果在进行回归分析之前没有一个清晰合理的分析框架,那么回归的结果有可能会引起质疑。一般应在报告回归分析结果之前,介绍该分析的框架,如各变量的定义、各自变量与因变量的假设关系及其理由等,对建立的回归模型做出合理性论证。有一些变量可能是作为控制变量纳入回归模型的,如性别、年龄等,最好事先解释清楚。对假设因果关系的模型,应当至少能够说明:(1)该因果关系在理论上是正确的、在实践中是合理的;(2)从事件发生的时间上来说,应当是原因发生在先、结果发生在后。如有些回归分析中,未加说明即把所有与因变量显著相关的变量都囊括在自变量中,甚至有些自变量与因变量有明显的互为因果关系,显得分析逻辑混乱;还有的论文在简单介绍研究背景和数据来源之后,急于建立因果关系并推出回归分析结果,然后再根据各变量在回归模型中的显著性一一说明,这相当于事后解释;这些做法都是错误的。

在具备“奔4”微机和较易操作的软件的今天,转瞬间就可完成一次回归分析,但是在此之前,需要有大量的前期准备工作,包括文献检索和理论框架构建,才能确保统计分析的科学性。

统计学变量的定义例7

【关键词】 重症肺炎;肾脏损伤;β2-微球蛋白

[Abstract] Objective To analyze renal injury of severe pneumonia and explore sensitive monitoring indicators of severe pneumonia complicated with renal injury. Methods Urinary output, edema and blood pressure of the 209 children with severe pneumonia were monitored.And β2-microglobulin (β2-MG), blood urea nitrogen (BUN) and creatinine (Cr), electrolyte, procalcitonin (PCT), C-reactive protein (CRP) in blood and blood gas analysis and so on were detected. And we also performed critical illness score according to the domestic pediatric critical illness score standard in the same term. Results BUN of 26 cases(12.44%) increased(>8.20mmol/L),Cr of 12 cases(5.74%) increased(>120μmol/L),β2-MG of 85 cases(68.55%) increased(>3mg/L) in 209 children with severe pneumonia.24 cases(92.30%) complicated with β2-MG increased and 12 cases with increased Cr allcomplicated with β2-MG increased in 26 cases with increased BUN.Pearson's correlation analysis showed that β2-MG had not obvious correlation to BUN but β2-MG was positively correlated to Cr (r=0.302, P=0.01); Decreased urine output appeared in 69 cases (63.30%). Edema appeared in 47 cases (22.49%) . Blood pressure changes appeared in 31 cases (12.44%) (26 cases of hypotension ,5 cases of hypertension).Routine urine tests of 13 cases (6.22%) were abnormal with protein positive. Two cases (0.96%) developed into renal failure.When children with severe pneumonia were complicated with respiratory failure, heart failure, shock, microcirculation disturbance and other organ dysfunction,β2-MG in blood increased. There was statistical significance in Cr when patients were complicated with shock and no statistical significance in BUN. According to the standard of international meeting of sepsis's indefinition in pediatric, children with severe pneumonia were pided into 3 groups including non-sepsis, sepsis and severe sepsis groups. Comparing 3 groups,there was statistical significance in the differences of β2-MG and no statistical significance in the difference of CRP.β2-MG and CRP had no significant difference but PCT had significant difference when compared non-sepsis to sepsis group;Comparing severe sepsis and non-sepsis and sepsis group, the differences of β2-MG, CRP and PCT differences were all statistically significant. Pearson's correlation analysis showed that β2-MG and Cr were negatively correlated to critical illness score (r=-0.347, -0.326,P

[Key words] severe pneumonia; renal injury; β2-MG

重症肺炎是儿科常见危重病,是引起儿童多器官功能衰竭的常见危险因素。对于重症肺炎的肾脏损伤有一些零散报道,尚缺乏系统观察。本文拟通过对2006年10月—2007年4月收住我院ICU的重症肺炎患儿肾脏相关指标进行观察,了解重症肺炎时肾脏损伤的情况,探讨重症肺炎并肾脏损伤的敏感监测指标。

1 资料与方法

1.1 临床资料 2006年10月—2007年4月收入我院PICU的重症肺炎患儿209例,男141 例,女68例,年龄1个月~6岁,平均年龄5.3个月;209例重症肺炎中,162例并发呼吸衰竭,103例并发心力衰竭,29例并发中毒性脑病,25例并发胃肠功能障碍或衰竭,20例并发休克,14例并发微循环障碍,101例并发2个或2个以上器官功能障碍。重症肺炎诊断依据:参考1989年大连会议制定的标准和卫生部制定的小儿四病防治方案以及英国胸科学会的重症肺炎的标准[1]:(1)发热,体温>38.5℃,全身中毒症状重,或有超高热。(2)呼吸极度困难,发绀明显,肺部啰音密集或有肺实变体征,X线示片状阴影。(3)有心力衰竭、呼吸衰竭、中毒性脑病、微循环障碍、休克任一项者。(4)并有脓胸、脓气胸或(和)败血症、中毒性肠麻痹。(5)有多器官功能障碍者。其中(1)、(2)项为必备条件,加上(3)、(4)、(5)项中任一项即诊断为重症肺炎。

1.2 方法 患儿入院后监测尿量、水肿、血压情况以及查尿常规,入院时即抽血用贝克曼LX20全自动生化分析仪免疫透射比浊法测定血清β2微球蛋白(β2-MG),同时测定血尿素氮(BUN)、血肌酐(Cr)、肝功能、电解质、降钙素原(PCT)、C反应蛋白(CRP)、血气分析等,并于入院当天根据国内小儿危重病例评分标准进行危重病例评分[2]。 PCT检测采用BRAHMS快速半定量法(PCT-Q)测定,将受检血清PCT按浓度分四组:PCT

1.3 统计学处理 采用SPSS11.0软件进行处理,比较采用t、卡方检验,P

2 结果

2.1 重症肺炎时肾脏相关监测指标的变化 209例重症肺炎患儿中,26例(12.44%)患儿BUN升高(>8.20mmol/L),12例(5.74%)患儿Cr升高(>120μmol/L),85例(68.55%)患儿β2-MG升高(>3mg/L);26例BUN升高患儿中,24例(92.30%)患儿β2-MG升高,而12例Cr升高患儿都合并β2-MG升高;Pearson相关分析显示β2-MG与BUN相关不明显,β2-MG与Cr正相关(r=0.302,P=0.01);69例(63.30%)患儿病程中出现尿量减少,47例(22.49%)出现水肿,31例(12.44%)出现血压改变(26例低血压,5例高血压),13例(6.22%)尿常规示尿蛋白阳性,2例(0.96%)出现肾衰竭。

2.2 重症肺炎并不同器官功能衰竭时β2-MG、BUN、Cr的变化

2.2.1 重症肺炎并发心衰时β2-MG、BUN、Cr的变化 将重症肺炎患儿根据是否合并心衰分为两组,两组比较,β2-MG差异有统计学意义,而BUN、Cr差异无统计学意义,见表1。表1 重症肺炎并心衰组与无心衰组血β2-MG、BUN、Cr的比较 (M,Q或〖x〗±s)

2.2.2 重症肺炎并发休克时β2-MG、BUN、Cr的变化 将重症肺炎患儿根据是否合并休克分为两组,两组比较,β2-MG、Cr差异有统计学意义,而BUN差异无统计学意义,见表2。表2 重症肺炎并休克组与无休克组血β2-MG、BUN、Cr的比较 (M,Q 或〖x〗±s)

2.2.3 重症肺炎并发呼衰时β2-MG、BUN、Cr的变化 将重症肺炎患儿根据是否合并呼衰分为两组,两组比较,β2-MG差异有统计学意义,而BUN、Cr差异无统计学意义,见表3。表3 重症肺炎并呼衰组与无呼衰组血β2-MG、BUN、Cr的比较 (M,Q 或〖x〗±s)

2.2.4 重症肺炎并发微循环障碍时β2-MG、BUN、Cr的变化 将重症肺炎患儿根据是否合并微循环障碍分为两组,两组比较,β2-MG差异有统计学意义,而BUN、Cr差异无统计学意义,见表4。表4 重症肺炎并微循环障碍组时血β2-MG、BUN、Cr的变化 (M,Q 或〖x〗±s)

2.2.5 重症肺炎并发胃肠功能障碍时β2-MG、BUN、Cr的变化 将重症肺炎患儿根据是否合并胃肠功能障碍分为两组,两组比较,β2-MG差异有统计学意义,而BUN、Cr差异无统计学意义,见表5。表5 重症肺炎并胃肠功能障碍时血β2-MG、BUN、Cr (M,Q 或〖x〗±s)

2.2.6 重症肺炎并发中毒性脑病时β2-MG、BUN、Cr的变化 将重症肺炎患儿根据是否合并中毒性脑病分为两组,两组比较,β2-MG差异有统计学意义,而BUN、Cr差异无统计学意义,见表6。表6 重症肺炎并中毒性脑病时血β2-MG、BUN、Cr (M,Q 或〖x〗±s)

2.3 重症肺炎并发脓毒症时β2-MG、CRP、PCT的变化 将重症肺炎患儿根据国际儿科脓毒症定义会议标准[3,4]分为非脓毒症组、脓毒症组、严重脓毒症组,三组比较,β2-MG、PCT差异有统计学意义,CRP差异无统计学意义;非脓毒症组与脓毒症组比较,β2-MG、CRP差异无统计学意义,PCT差异有统计学意义;严重脓毒症组与非脓毒症组、脓毒症组比较,β2-MG、CRP、PCT差异均有统计学意义。见表7。表7 重症肺炎并发脓毒症时β2-MG、CRP、PCT的变化 (M,Q 或

2.4 β2-MG、BUN、Cr与重症肺炎患儿危重程度及预后的关系

2.4.1 β2-MG、BUN、Cr与危重病例评分的相关性 Pearson相关分析显示,β2-MG、Cr与危重病例评分呈负相关(r=-0.347、-0.326,P

2.4.2 β2-MG、BUN、Cr与重症肺炎患儿预后的关系 重症肺炎患儿根据治疗效果分为好转/治愈组和未愈/死亡组,两组比较,β2-MG、Cr差异有统计学意义,BUN差异无统计学意义,见表8。表8 不同转归β2-MG比较 (M,Q 或

3 讨论

重症肺炎时,缺氧、感染、内毒素及内毒素样物质等多种因素可导致肺及肺外器官功能障碍,以呼吸衰竭、心力衰竭、中毒性脑病等较常见,肾衰竭报道少。但有学者对166例重症肺炎合并多器官功能衰竭的患儿进行了病理分析发现肾小管混浊肿胀24例,水肿13例,瘀血18例,灶性出血2例,髓质出血3例,肾小管退行性变2例[5],另有学者通过对28例重症肺炎的尸检证实,全身7个系统均发生明显损害,其中又以肾脏损害最严重[6],说明重症肺炎时确实存在肾脏损伤,且是重症肺炎的死亡原因之一。我们的研究发现部分重症肺炎患儿确实存在肾脏受损,表现为少尿、水肿、血压改变、尿蛋白阳性,甚至BUN、Cr升高,但仅有2例(0.96%)达到肾衰竭诊断标准。目前急性肾损伤主要依靠肌酐和尿量改变作为诊断依据[7],但因尿量受循环血量、入水量等影响,而肌酐只有当GFR下降至正常人的1/3时,Scr浓度才会明显上升,亦非早期诊断指标[8],因而单纯根据尿量、血清肌酐值的变化来监测和诊断肾脏损伤是不及时的[9]。血β2-MG是一种由100个氨基酸残基组成的分子量为11800的单链多肽低分子蛋白质,为细胞膜上完整组织相溶性抗原HLA的一部分,除成熟红细胞和胎盘滋养层细胞外,其他细胞均含有β2-MG。由于分子量小,进入血液循环后可自由通过肾小球,其中99.9%在近曲小管重吸收和分解代谢,故β2-MG与GFR之间存在着显著的相关性,血β2-MG含量增高,可反映肾小球滤过功能和肾小管重吸收功能[10]。本研究发现,重症肺炎时,血β2-MG增高的异常率明显高于BUN、Cr增高的异常率,提示大部分患者在BUN、Cr还没改变时,血β2-MG已出现异常升高,且β2-MG与Cr正相关,Cr升高患儿都合并β2-MG升高,说明β2-MG与血BUN、Cr一样能反应肾功能损害,能更早期的反应肾功能的变化,是反应重症肺炎时肾脏损伤的敏感指标[11]。同时发现重症肺炎在并发呼吸衰竭、心力衰竭、微循环障碍、休克时,β2-MG升高,说明低氧血症、循环灌注不足是引起重症肺炎肾脏损伤的原因。目前认为,除细菌、毒素外,炎症介质和细胞因子在重症肺炎的发生、发展中起了重要作用,全身炎症反应可使机体各器官包括肾脏受累。但我们的研究发现,重症肺炎合并严重脓毒症时,β2-MG升高明显,高于脓毒症组与非脓毒症组,而非脓毒症组和脓毒症组比较差别无统计学意义,且此两组患儿危重程度一致,说明血β2-MG升高能反应重症肺炎患儿危重程度,但不能说明其与全身炎症反应综合征有关,是否因为目前全身炎症反应综合征的诊断标准不能囊括所有全身炎症反应综合征病例有待进一步研究。血β2-MG与危重病例评分呈负相关,且重症肺炎并严重脓毒症组高于非脓毒症组和脓毒症组,未愈/死亡组血β2-MG高于好转/治愈组,说明β2-MG升高能提示重症肺炎的严重程度,有助于判断预后。也就是说,肾脏损伤,影响机体代谢和排泄,不利于重症肺炎患儿康复。感染并发多器官功能衰竭是一个由轻到重、由功能受损到完全衰竭连续发展的病理过程, 如能早期识别并加以阻断, 则可降低其病死率。

参考文献

1 British Thoracic Society of Standards of Care Committee. BTS guidelines for the community acquired pneumonia in childhood. Thorax, 2002,57(Suppl 1):1-24.

2 赵祥文.儿科急诊医学,第2版.北京:人民卫生出版社,2001:290-291.

3 樊寻梅,武志远.国际儿科脓毒症定义会议介绍.中华儿科杂志,2005,43(8):618-620.

4 Goldstein B,Giroir B,Randolph A. International pediatric sepsis consensus conference: definitions for sepsis and organ dysfunction in pediatrics. Pediatr Crit Care Med,2005,6(1):2-8.

5 韦俊,赵秀云.小儿重症肺炎与多器官功能衰竭(附166例临床病理分析),陕西医学杂志,1999,23(3):147-149.

6 穆亚平,王雪萍,孟宪贞,等.重症肺炎对肾功能的影响.中华儿科杂志,1997,35(6):326.

7 Rabb H.Imznune Modulation of Acute Kidney Injury.J Am Soc Nephrol,2006,17:604-606.

8 易著文.小儿肾脏临床病学.北京:人民卫生出版社,1998:110.

统计学变量的定义例8

二、统计学的研究对象及其特点

统计学研究必须要求明确统计学研究的客体是什么,即统计学的研究对象。统计学中某种性质相同的个体所组成的集合叫总体。统计学就是研究客观总体的数量特征、数量关系和变动规律,或者说统计学是研究统计过程的规律和方法以及客观现象统计规律的科学,它的研究对象既涉及到自然科学领域,又涉及到社会科学领域。统计学研究对象的特点有以下几点:

(1)依赖性。依赖性即统计学研究对象的寄生性,依赖性是统计学独有的特点,统计学研究的数据是来自各领域的,是依靠解决其他领域的问题而存在和发展的。统计学现在已经发展成为一门媒介科学,它研究的对象是其他学科的逻辑和方法论。

(2)数量性。数量性即统计学研究对象是通过数量特征和数量关系表示的。数量性是统计学研究对象的基本特征,因为数字是统计的语言,统计是通过数量方面来认识事物的,对统计数据进行分析,归纳统计规律性,就可以达到统计分析研究的目的。

(3)总体性。总体性即统计学以研究对象总体的数量为研究对象。每一个个体都有自身的随机性,而这些研究对象的总体又具有共同的特征和共同趋势,所以统计学研究是通过对大量的个体特征进行研究,从而过渡到对总体普遍存在的事实进行观察和综合分析,进而得出研究对象总体的数量特征和统计规律。只有掌握研究对象的总水平、总规模、总体特征和共同趋势才能体现统计学规律的作用。

(4)变异性。变异性即构成统计学研究对象总体中的各个个体,除了在某一方面必须是同质的以外,在其他方面又要表现出一定的差异和变异。如果各个个体之间没有区别和差异,统计研究就是没有意义的。统计学的这种变异既可以表现为数量上的,也可以表现为非数量上的,但是因为统计学具有数量性,所以表现为数量上的变异才是统计学所要研究的对象。

(5)具体性。具体性即统计学研究对象是具体的数量方面。统计学所研究的数量是具体、现实的,而不是抽象的,并且统计学研究的数量是有现实意义的。比如,要研究城乡居民收入差距,必须确定具体年份的具体范围内的城镇和农村居民收入数量、收入构成、收入变化以及计算方法,才能对研究对象进行统计分析。

(6)广泛性。广泛性即统计学研究数量方面的范围的很广泛。其广泛性包括政治、经济、文化、军事、教育等各类社会现象的数量方面。统计学研究对象的广泛性是统计学成为媒介学科的必要特征。

三、统计学的研究方法

每个学科都有自己独特的研究方法,统计学也不例外,统计学在长期实践中总结、归纳出了一系列专门的研究方法,如实验法、大量观察法、统计分组法、综合指标法、统计描述法等。

(1)实验法。统计学的实验法包括假设检验和实验设计。假设检验就是在对在总体参数提出假设的基础上,利用样本信息来判断假设是否成立的统计方法。实验设计就是设计合理的实验程序,使得收集得到的数据符合统计分析方法的要求,以便得出有效的客观的结论,其中最常用的实验设计是正交设计法。

(2)大量观察法。大量观察法就是对全部或者足够数量的研究现象进行观察和研究,推理归纳出客观现象的本质特征和发展变化规律。通过对大量的研究对象进行观察和研究,才能排除偶然因素造成的影响,揭示研究对象的统计规律和本质特征。

(3)统计分组法。由于所研究现象具有差异性、复杂性及多样性,需要我们对研究现象进行分组研究,进而来区别研究现象的类型,研究不同组别之间的区别和联系。统计分组法包括传统分组法、聚类分析法和判别分析法等。

(4)综合指标法。综合指标法是利用总量指标、平均指标、相对指标、标志变异指标等对研究现象的数量关系和数量特征进行分析,来反映统计学研究现象的数量方面特征。综合指标法在统计学的经济应用中具有重要的作用。

(5)统计描述和统计推断。统计描述指对调查或实验得到的统计数据进行整理、分类、计算出各种能反映总体数量特征的综合指标,并加以分析研究,从而得出有价值的信息,用表格和图形表示出来。统计推断指以一定的置信水平,根据样本数据资料来判断总体数量特征的归纳推理方法。统计描述和统计推断在统计学研究中应用非常广泛。

四、统计学的发展趋势

(1)统计学实际应用的范围扩大。在大数据时代的背景下,统计学开始被各行各业运用起来。统计学逐渐应用到企业管理、保险金融、政府决策、国家经济安全等方面。统计学在企业管理方面可以提高企业的管理能力和效率。在保险金融方面可以监控分析金融风险和保险问题来保证金融保险市场的正常运行。在政府决策方面可以帮助政府宏观调控,从而减少决策失误。在国家经济安全方面可以监控经济安全问题,预防经济危机。

统计学变量的定义例9

一、引言

数据对于当今天的商务活动具有重大的意义。数据是关于这个世界的事实,它能够说明问题、提示事实、隐含规律。一些商业机构正是通过“挖掘”数据来发现事物之间的关联性,并从中获取利润。如果人们躲避数据,就可能由于盲目接受他人对数据的概括总结而上当受骗,也可能完全依赖“感觉”来做决策,从而不利于做出正确的决策。因此,作为一门研究如何处理和分析数据的课程——统计学越来越受到各方重视。在高校中,绝大部分商科专业把统计学或商务统计作为专业必修课列入到人才培养方案中。如何学好、用好统计学成为当前许多人需要迫切解决的一个问题。美国著名的统计学家莱文(Levine)等在其撰写的统计学教科书中首次提出了DCOVA框架,用于指导学生或相关从业者如何有效学习和使用统计学。

二、基本术语

统计学是把数据转化为信息用于决策的方法或工具。例如,为了研究青年人喜欢网上购物的主要原因,可以通过调查来收集原始数据,再制作总结表来整理数据从中获得数据中隐藏的有用信息(最主要的原因是网上购物价格便宜),最后根据所获得的信息进行决策,即网店价格要比实体店便宜才能吸引青年消费者。从调查数据到总表结,就是把数据转化为信息的方法。统计方法是把数据转化信息的方法,包括统计描述方法和统计推断方法。统计描述方法主要包括收集、整理、可视化和概括数据;统计推断方法是指用样本数据得出总体结论,包括对总体参数的置信区间估计和假设检验。为了学习和使用统计学的方法,可以应用DCOVA框架。DCOVA框架包括定义数据(D)、收集数据(C)、整理数据(O)、可视化数据(V)和分析数据(A)等5个阶段(图1)。例如,为了研究一所高校学生的努力学习程度,根据DCOVA框架,首要定义数据,即找什么样的数据能够代表学生的努力学习程度,为此需要对努力学习程度开发一个可操作定义,比如用每天平均学习时长(小时)来代表一个学生的努力学习程度。其次要收集数据,可以通过问卷调查的形式收集数据。再次是整理和可视化数据,比如制作频数分布表来整理数据,从而可以查看学习时长的分布情况,制作直方图来可视化学习时长数据,从而直观形象地显现数据的分布特征,从中判断学习时长是否服从正态分布等。最后是分析数据,比如可以分析不同专业、不同性别、不同年级的学生每天学习时长均值的差异,或者估计全校学生每天平均学习时长等。DCOVA框架较好地囊括了统计学教学中主要的知识体系。

三、定义数据(D)

定义数据主要是解释收集什么数据的问题,它与一项研究的目的及其所涉及的变量相关。研究目标决定研究中所涉及的变量,相关变量决定需要收集的数据(图2)。在上述的例子中,研究目标是“研究一所高校学生的努力学习程度”,其中“努力学习程度”就是研究中需要涉及的变量。由于该变量没有直接的数据对应,需要开发一个相应的可操作定义——如每天平均学习时长,最后去收集学生每天平均学习时长的数据。

可操作定义指对所有与该分析相关的人而言很显明是普遍接受的定义,是对某个抽象变量的一种清晰、精确的表述,是对该变量意义的共同理解。努力学习程度是一个抽象变量,在收集數据时会遇到麻烦,因此需要一个可操作定义。每天平均学习时长可以作为努力学习程度的一个可操作定义,因为大家普遍认为一名学生在学习上花费的时间越多,说明该生学生越努力,并有每天平均学习时长是一种清晰、精确的表述,从而方便研究者收集相关的数据。

定义数据还包括确定所需数据的类型。数据是变量的取值,变量类型与其所对的数据类型一致。变量可以分为属性变量(如性别)和数值变量,数值变量又进一步区分为离散数值变量(如家庭人数)和连续数值变量(如身高)。相应的,数据可以分为属性数据(如男、女)和数值数据,数值数据又进一步区分为离散数值数据(如2人、3人)和连续数值数据(如1.75m、1.68m)。在SPSS中,变量的测量尺度(类型)分为名义(图标为三个小圈)和有序(图标为阶梯),这两类都属于属性数据;还有一类为标度(图标为尺子),这类属于数值数据。

四、收集数据(C)

在明确了需要什么数据的前提下,就需要进入收集数据阶段。收集数据(C)主要是解决数据的来源问题。数据的来源有原始数据来源和二手数据来源。原始数据来源主要通过调查、观察和实验获得数据;二手数据来源主要是指其他组织或个人已公布的数据。由于获得原始数据比较麻烦,所以二手数据是首选的数据来源。

在经济管理研究领域,原始数据来源主要依靠调查。由普查涉及面广、成本高、耗时长和难度大,所以一般不常用,对许多研究者来说,主要通过抽样调查来获得原始数据。因此,如何抽样就成了一个无法逃避的问题。调查数据的质量直接影响研究的价值,如果数据本身严重存在错误、偏见,不管采用什么数据分析方法,都很难得出可信的分析结果。为了从一种总体中找到一个样本,并对样本采集数据,首先要做的工作是抽样。不同的抽样方法生成不同的样本类型,如简单随机抽样方法生产简单随机样本,抽样方法与形成的样本类型一致。抽样方法分为非概率抽样和概率抽样两大类。非概率抽样包括便利抽样和判断抽样,其优点是便利、快速、低成本,可以用于前期或试探性分析,其缺点是样本的代表性一般较差,不能用于统计推断。概率抽样包括简单随机抽样、系统抽样、分层抽样和群抽样,其中简单随机抽样和系统抽样的优点是简单易行,但无法保证样本的代表性;分层抽样过程比较繁琐,但能够确保样本的代表性,并能对每个层进行分析,得出每层的结果;群抽样的优点是调查成本低,但有效性相对较差,需要增加样本容量才能达到其他抽样方法的效果。

五、整理数据(O)和可视化数据(V)

统计学变量的定义例10

CT灌注成像作为功能影像的一种手段,其在脑部的应用已基本成熟,在肝脏、胰腺、前列腺,甚至肺部疾病等实质性脏器的应用研究已见报道。尽管甲状腺结节的影像学诊断方法多样,但对于良、恶性病变的鉴别,仍缺乏一种行而有效的手段。笔者将多层螺旋CT灌注技术应用于甲状腺,评价其在诊断甲状腺病变中的使用价值。

    1  对象与方法

    1.1  对象  2003年7月-2004年2月行甲状腺组织CT灌注扫描患者122例,分3组:(1)正常组,21例,男性8例,女性13例,年龄(42±10)岁(22~55岁)。其中健康志愿者3例,头颈部以外部位肿瘤患者18例。甲状腺功能检查均正常,无心肺功能异常。(2)良性组,69例,男性25例,女性44例,年龄(46±11)(15~77岁)。其中甲状腺腺瘤31例,结节性甲状腺肿38例。病灶最大径>3 cm者29例,囊变者24例。(3)恶性组,32例,男性6例,女性26例,年龄(42±12)岁(23~76岁),病灶最大径>3 cm者19例,囊变者1例。经统计学处理,3组间年龄、性别差别无统计学意义。

    1.2  灌注成像方法

    1.2.1  检查方法  使用美国GE公司的Lightspeed QX/i型8层螺旋CT机,对122例甲状腺组织行CT灌注扫描。受检者在曝光期间平静呼吸,停止吞咽动作及避免说话,两肩尽量下垂(尽可能避开锁骨伪影)。行常规轴位5 mm/4i的CT平扫,确定肿瘤中心部位后,选取肿瘤最大面积及血管显示良好的4个层面作灌注扫描,扫描类型:Cine full 1.0 s;层厚:5 mm/4i;扫描野:Head;80 kv;60 mA;矩阵:512×512;层间隔:0;机架角度:0;总曝光时间:55 s;延迟时间:8 s;后重建层厚10 mm/2i。使用高压注射器,经肘部静脉以3 mL/s注入300 mg/mL的非离子型造影剂49 mL。产生220层5 mm和218层10 mm的重建图像。

    1.2.2  灌注成像分析  将灌注数据转送到Sun Ultra AW4.0工作站,使用Perfusion2(GE)软件包处理数据。采用体部肿瘤模式,确定阈值为-100~300 Hu,最大血流速度、血球比率、组织密度等使用缺省设置。颈总动脉定为输入动脉,颈内静脉定为输出静脉。在病变实质区和正常甲状腺的不同位置放置圆形感兴趣区(ROI,面积=10 mm2),每例至少测3个ROI区,取平均值,尽量避开肿瘤出血、坏死及囊变区,避开组织边缘部位。由计算机自动生成时间-密度(TDC)曲线、CT灌注图和灌注数值,包括血流量(BF),血容量(BV),平均通过时间(MTT)和表面通透性(PS),得到相应伪彩色功能图像并进行记录分析。

    1.2.3  灌注参数意义  BF:单位时间内流经局部组织的血容量,单位mL·100 g-1·min-1;BV:表现为局部区域的血流数量,受血管大小和毛细血管开放数量的影响,单位mL/100 g;MTT:血流从动脉流入到静脉流出所需要时间,单位s;PS:对比剂由毛细血管内皮进入细胞间隙的单向传输速率,单位mL·100 g-1·min-1。

    1.3  统计学方法  计量资料用x±s表示。采用SPSS 11.0软件,各组参数均值采用单因素方差分析,方差齐者(PS值)用LSD法进行均数间两两比较,其余灌注参数用Dunnett’T3法。以P<0.05为差别有统计学意义。

    2  结  果

统计学变量的定义例11

一、概率论引入统计学的意义

(一)方法的突破

统计学研究对象的拓展。引入概率论后统计学研究对象的拓展表现在外延与内涵两方面。外延上,导源问题研究的概率论以随机性现象为主要研究对象,它的应用将统计学思想方法带到自然科学领域,甚至用于研究人类心理活动、思维现象,拓展了原来始于社会经济现象研究的统计学的研究对象。另外,联姻前统计学对现象的描述、分析只能止于其确定性方面,有概率论新工具后,其不确定性方面也能描述分析,拓展了作为统计学对象的社会经济现象的数量信息内涵。研究对象的拓展,使得在此基础上统计学成了一门具有通用性的定量分析工具。

统计学研究方法的进阶。概率论联姻“统计”的突出意义表现在方法上—由描述走向推断。“描述统计”(包括数据的收集、整理、显示和分析)主要是通过图表形式对所收集的数据进行加工处理和显示,进而综合、概括和分析得出反映客观现象规律的数量特征;“推断统计”则是在对样本数据进行描述的基础上对统计总体的未知数量特征作出以概率形式表达的推断。联姻之前的古典统计学主要就是初级的“描述统计”(简单的计量、分组、图表、推算等),现代统计学则以“推断统计”为其核心内容。这里“描述”与“推断”的划分一方面反映统计方法发展的两个阶段,另外也反映应用统计方法探索客观事物数量规律的不同过程。“描述”是基础,“推断”是主要内容。

推断统计的现实性意义。统计学从描述发展到推断,反映统计学发展的巨大成就,也是统计学成熟的重要标志。一方面,它是重要的认识工具。正是由于有了“推断”,科学借助统计这一定量分析工具取得了巨大成就。象著名的基因论就借助推断统计方法而得。

(二)思想的腾飞

矩:统计学早期便有“平均”即一般代表值的思想,认识事物数量方面的一般性。引入概率论后,“平均”引申到“期望”,描述随机变量的集中趋势。与“平均”相对应,有对数据偏离“一般”程度的描述即“变异”,认识事物数量方面的差异。引入概率论后其内涵扩充到对随机变量离散程度的描述。“矩”源于力学研究,均数、方差同重心和转动力矩之间的类似促使统计上用“矩”来描述数据特征。其概念涵盖前述的几个参数,并扩充到多阶、多维随机变量特征的描述。“矩”体现了统计“求同察异”的思想,即在了解差异的同时认识事物的同质性。

估计:估计是据样本数据对总体参数所作出的“猜想”’其实质是一种类比,将对已知事物的认识拓广到更大范围。实际上有一个假定即样本、总体的同质性(同分布)。由于样本的随机性使得估计带有不确定性,便给出“区间”来对其描述。

检验:检验即先对总体特征作出一种假设,然后根据样本信息对这一假设的支持程度作出描述(假设正确性的判断),主要运用反证法、小概率原则等思想。检验与估计构成统计推断内容的两面,鉴于思维上推与证的不同而分别提出。

拟合:拟合就是对现象之间的联系、发展规律、变化趋势给予定量描述,是对事物间关系表现的一种抽象。也就是以一定的模型来反映现象及现象间的联系的发展变化,表现出联系的显性方面而抽象掉非显性方面。

相关:相关是客观事物普遍联系的哲学思想在统计上的具体化。统计所研究的对象之间往往表现出相随共变或相随共现的情况,相关便是对现象间这种联系的数量表现的描述、分析。通过对比关联现象变化的方向与程度,来研究它们之间是否有联系、联系的紧密程度和形式。

惯性:哲学上,客观现象都是有规律的辩证发展运动过程。任何运动都具有惯性,这种惯性表现为系统的动态性即记忆性。它反映现象未来行为与过去的行为有关这样一种动态思想,是“动态相关”,也是预测的思想基础,反映现象本身及现象之间关系发展、变化的规律性。

二、概率论引入统计学的启发

概率论引入统计学,使统计学思想方法有了质的飞跃,并成为统计学坚实的理论基础。这也给我们启发:统计学必须与时俱进,顺应时代而发展,不断完善方法体系,与其它定量分析工具、计算技术及其应用领域科学结合融会。

研究对象泛化:统计学是定量分析工具,首先便表现在对所研究的对象(社会经济现象、自然现象、精神思维等)的定量描述上(对象信息数据化),然后再做定量分析。最初统计学只能局限于现象数量信息做确定性的数量描述、分析,引入概率论之后,对研究对象便可以做随机性描述、分析。而实际工作中有时还必须对定性的、模糊的、混沌的甚至突变的等研究对象做定量的描述与分析,概率论便会有所局限,必须引入新的工具。比如引入模糊数学,对模糊性现象做定量描述分析;引入灰色理论,形成灰色统计思想等等。

电子技术发展:科技特别是计算机技术的发展使数据处理的手段得到提升,并对统计提出了新挑战。电脑、网络的出现一方面使统计学的研究对象(总体)成了一个结构复杂的系统,另一方面对数据的分析处理变成了算法。同时在我们面对的数量信息超大量化后,统计的“收集、分析数据”的任务、统计推断意义也就必然发生变化,等等。这一切都要求统计必须与计算机及其它科学联姻,如人工智能、神经网络理论等。

应用领域扩张:现代统计学是一多层次多门类的学科,几乎所有的科研都要借助这一定量分析工具。应用领域的不同,对这一工具的要求必然不尽相同。比如生物统计、保险统计与统计地理学在基础性方法一致的基础上各有与其相联系的实质性科学的特点。现代统计方法(包括概率论的成长、壮大)很大程度上来自一些实质性科研活动,这也就要求我们坚持以概率论等数理工具为基础的前提下紧密联系应用领域的实质性科学。