type
status
date
slug
summary
tags
category
icon
password

数据的离散趋势与集中趋势

计量资料的频数分布有集中趋势离散趋势两个主要特征。仅仅用集中趋势来描述数据的分布特征是不够的,只有把两者结合起来,才能全面地认识事物。

离散趋势

离散趋势是指一组数据背离分布中心值的特征,反映各变量值远离其中心值的程度。

极差

极差又称全距(Range),是指一组数据的观察值中的最大值和最小值之差。计算公式为:
极差的计算较简单,但是它只考虑了数据中的最大值和最小值,而忽略了全部观察值之间的差异。两组数据的最大值和最小值可能相同,于是它们的极差相等,但是离散的程度可能相当不一致。由此可见,极差往往不能反映一组数据的实际离散程度,极差所反映的仅仅是一组数据的最大的离散值

平均差

平均差(Mean deviation,MD,Average deviation)是总体各单位标志对其算术平均数的离差绝对值的算术平均数。它综合反映了总体各单位标志值的变动程度。平均差越大,则表示标志变动度越大,反之则表示标志变动度越小。计算公式为:

方差与标准差

在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。对比平均差需要求绝对值来说,使用平方操作便于运算。计算公式为:
为了使统计量的单位同观察值的单位相一致,通常将方差开平方,即得到标准差,标准差也称为均方差。其计算公式为:
不同方差下正态分布的概率分布图像
不同方差下正态分布的概率分布图像
由定义可知,方差和标准差所反映的是一组数据对其均值为代表的中心的某种偏离程度。从定义可知,标准差(或方差)较小的分布一定是比较集中在均值附近的,反之则是比较分散的。标准差也是根据全部数据来计算的,但是它也会受到极端值的影响

变异系数

标准差只能度量一组数据对其均值的偏离程度。但若要比较两组数据的离散程度,用两个标准差直接进行比较有时就显得不合适了。变异系数(离散系数,Coefficient of Variation,CV)是一个表示标准差相对于平均数的大小的相对量,即标准差相对于均值的百分比,其计算公式如下:

集中趋势

集中趋势是指频数分布数列中备观察值有一种向中心集中的趋势,在中心附近的观察值数目较多,远离中心的较少。

平均数

  1. 算数平均数(Arithmetic average)
    1. 算术平均数是指用于反映一组同质观测值的平均水平。适用于正态或近似正态分布的变量数据。若所得的数据较少且没有分组时,一般采用算术平均数算法,计算公式为:
  1. 加权平均数(Weighted average)
    1. 若遇到的数据是分组的,且各组数据重复出现过一定的数次(即频数)时,需要使用加权平均数来计算。加权平均数是指含有不同频数数据的平均数,它是把原始数据按照合理的频数来计算的,计算公式为:

中位数

中位数是指将一组数据按大小顺序排列起来,处于中间位置的那个数。计算时先要将数据按大小顺序排序,计算公式为:

众数

众数是指将一组数据按大小顺序排列出现次数最多的那个数值,通常通过观察法直接得到。

多元统计学方法

多元统计分析是经典统计学发展起来的一个分支,是一种多指标(也称多变量)综合分析方法,可以在多指标相互关联情况下分析其统计规律。

描述性方法

主成分分析

在研究多指标(变量)问题时,由于指标间存在一定相关性,导致信息冗余, 增加分析的难度。对此,主成分分析(Principal components analysis,PCA)通过将原有的多个变量进行线性变换,从而投影为一系列线性不相关变量的值(主成分),尽可能提取原有变量信息,达到指标简化目的。
需要注意,PCA对原始数据的正则化或预处理敏感(相对缩放)。
PCA的分析示意图
PCA的分析示意图
  1. 将坐标轴中心移到数据的中心,然后旋转坐标轴,使得数据在C1轴上的方差最大,即全部个数据个体在该方向上的投影最为分散。意味着更多的信息被保留下来。C1成为第一主成分
  1. C2第二主成分:找一个C2,使得C2与C1的协方差(相关系数)为0,以免与C1信息重叠,并且使数据在该方向的方差尽量最大。
  1. 以此类推,找到第三主成分,第四主成分……第个主成分。个随机变量可以有个主成分。
主成分分析经常用于减少数据集的维数,同时保留数据集当中对方差贡献最大的特征。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大
主成分个数选择标准:
  1. 保留的主成分使得方差贡献率达到80%以上
  1. Kaiser-Harris准则:保留的主成分的方差(特征值)大于1。
  1. Cattell碎石检验:在碎石图变化最大处之上的主成分都可保留
碎石图
碎石图

因子分析

因子分析是指研究从变量群中提取共性因子的统计技术,主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量(Latent variable,Latent factor)。
因子分析的方法有两类。一类是探索性因子分析法,另一类是验证性因子分析。探索性因子分析不事先假定因子与测度项之间的关系,而让数据“自己说话”。主成分分析和共因子分析是其中的典型方法。验证性因子分析假定因子与测度项的关系是部分知道的,即哪个测度项对应于哪个因子,虽然我们尚且不知道具体的系数。

聚类分析

聚类分析是将具有相似特征的个体归为一类,从而使同类的个体相似性较高,而不同类的个体之间差异较大。
衡量个体之间相似性采用“距离”测度和相似系数,常用的“距离”测度有:
  • 曼哈顿距离(1-norm):在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。计算公式为:
    • 欧氏距离(2-norm):在维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。计算公式为:
      • 无穷范数(Infinity norm):在维空间,两个点在各维度中的值之差绝对值最大的。计算公式为:
        • 马氏距离(Mahalanobis distance):欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题。计算公式为:
          • 单个数据点的
            数据点之间的
            其中,是多维随机变量的协方差矩阵,是样本均值。
        常用的相似系数有:
        • 余弦相似性(Cosine Similarity):余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。计算公式为:
          • 相关系数(Correlation coefficient):相关系数是用以反映变量之间相关关系密切程度的统计指标。计算公式为:
            • 其中,的协方差,的标准差。
          聚类分析中常用的方法有:
          • 系统聚类(Hierarchical cluster method):先将聚类的样本或变量各自看成一群,然后确定类与类间的相似统计量,并选择最接近的两类或若干个类合并成一个新类,计算新类与其他各类间的相似性统计量,再选择最接近的两群或若干群合并成一个新类,直到所有的样本或变量都合并成一类为止。
            • 对中国的省份进行系统聚类
              对中国的省份进行系统聚类
          • 动态聚类(Dynamical clustering methods):选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断地修改或迭代,直至分类比较合理或迭代稳定为止。典型方法:K-Means(K固定)、ISODATA(K不固定)。

          解析性方法

          多元回归分析

          多元回归分析是研究一个因变量与多个解释变量之间相互依存关系,揭示因变量与解释变量间的数量关系,从而对因变量进行估计或预测。
          • 线性回归(Linear Regression)
          • 多项式回归(Polynomial Regression)
          • 岭回归(Ridge Regression)
          • 套索回归(Lasso Regression)
          • 弹性回归(ElasticNet Regression)
          • 逐步回归(Stepwise Regression)选择变量,需要选定实际计算的回归方法

          判别分析

          判别分析,是一种统计判别和分组技术,就一定数量样本的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量信息所属的样本进行判别分组。
          • 距离判别:其基本思想是由训练样品得出每个分类的重心坐标,然后对新样品求出它们离各个类别重心的距离远近,从而归入离得最近的类(聚类思想)。
          • Fisher判别(线性判别分析,LDA):有监督的PCA。
          • Bayes判别:贝叶斯判别规则是把某特征矢量落入某类集群的条件概率当成分类判别函数(概率判别函数),落入某集群的条件概率最大的类为的类别。

          方差分析

          显著性检验

          显著性检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(原假设)是否合理,即判断总体的真实情况与原假设是否显著地有差异。或者说,显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异,还是由我们所做的假设与总体真实情况之间不一致所引起的。
          显著性检验是针对我们对总体所做的假设做检验,其原理就是“小概率事件实际不可能性原理”来接受或否定假设。

          方差齐性检验

          方差齐性检验是方差分析的重要前提,是方差可加性原则应用的一个条件。 方差齐性检验是对两样本方差是否相同进行的检验。 方差齐性检验和两样本平均数的差异性检验在假设检验的基本思想上是没有什么差异性的。只是所选择的抽样分布不一样。方差齐性检验所选择的抽样分布为F分布。

          方差分析

          一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想。

          更多

          还有更多的统计学分析方法,这里就不过多阐述了。
          • 功效分析
          • 假设检验分析
          • 列联表分析
          • 对应分析
           
          工业大数据分析算法(三):振动分析类GMM高斯混合模型与EM算法