春雨里洗过的太阳

世间所有的相遇,都是久别重逢

描述统计

一 统计学概述

  • 统计学(statistics):收集、处理、分析、解释数据并从数据中得出结论的科学。
  • **描述统计(discriptive statistics):**研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
    描述统计其实就是对数据进行总体特征的概述,例子:说一下班级这次考试的情况如何
  • **推断统计(inferential statistics):**是研究如何利用样本数据来推断总体特征的统计方法
    推断统计其实是建立在描述统计的基础之上,在对总体数据有了大致的了解之后,运用一些分析方法,对数据进行预测,并达到统计决策的目的,其实不管是在统计学上,还是在实际的业务分析中,我们做分析的终极目的就是用来得出我们结论,应用于决策。例如:房价预测,通过预测数据来进行销售,用户看到房价走势,如果一路走高,是不是要提早下手。

img

二 统计研究的步骤

1
2
3
4
1:统计设计。统计工作实践之前的准备工作,根据统计研究的目的,对统计工作的各个环节进行统筹安排,明确调查任务。
2:统计调查。组织统计工作开展的过程,按照统计计划和统计方案有计划组织向调查单位搜集材料的过程。
3:统计整理。整个工作包括对统计资料进行审核和订正、分组或分类、归类汇总、绘制图表。
4:统计资料的表现形式。分析整理后的统计资料,将最终的分析结果用统计图或者统计表的形式表现出来。

三 描述统计

​ 描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

3.1 集中趋势分析

1
2
3
4
5
6
7
8
9
10
11
1: 均值 u
优点:描述一组数据在数量上的平均水平,高度浓缩了数据的精华,使大量的观测数据转变成一个代表性的数值。
缺点:均数受极值的影响很大,把各个观测数据之间的差异性掩盖
适用性: 对称分布,特别是正态分布的数据,对于极端性数据均数绝对不适用
2: 中位数
在均数不好用的时候,我们可以考虑使用中位数
优点: 不受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比均数更具有代表性
缺点: 1.不是所有人都能理解 2.损失信息:只考虑居中位置,其他变量值比中位数大多少或小多少,它无法反映出来,所以 我们也是只能看到部分信息。
应用场景: 对于对称性的数据,优先均数,仅仅对于均数不能使用的情况才使用中位数加以描述。
3: 众数
一组数据当中,出现次数最多的那个数,工作中用的很少,常用于离散型变量而非连续性变量,众数不具有唯一性

3.2 离中趋势分析

1
2
3
4
5
6
7
8
9
10
11
12
13
如果用平均数来代表样本平均水平的话,对个体而言,什么指标可以代表其离散程度大小
1: 离均差 x-u
对个体而言,代表个体的离散程度
2: 方差/标准差(均方差)
代表了数据的离散程度
3: 变异系数 (解决了:比较身高和体重的变异程度,例如蚂蚁和大象的体重变异)
度量标准差相对于均值的离中趋势
cv=s/x*100% s-标准差,x均值
以上三种只适用于正态分布的的数据,对于非正态分布的数据可以使用分位数
1: 分位数
是一个位置指标,用Px表示,一个百分位数Px将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大,适用于各种分布
常用:四分位数
四分位数间距既排除了两端极端值的影响,又能够反映较多数据的离散程度。

3.3 分布形状

1
针对某种分布进行进一步的特征描述,常见的是用于正态分布的两个指标
  • 偏度系数 正态 正偏态 负偏态
  • 峰度系数 正态 平阔峰 尖峭峰

3.3.1 峰度

​ 是衡量离群数据离群度的指标,与随机分布的四阶中心距对应,是数据序列的四阶中心距与标准差的四次幂之比。正态分布的峰度值为 3 ,称作常峰态,对应 I (beta=0);峰度值大于 3 被称作尖峰态,对应 II (beta>0);峰度值小于 3 被称作低峰态,对应 III (beta<0)。峰度系数越大,数据越集中。

一般来说,不希望峰度过大或过小,主要考虑因子的区分度和稳定性,峰度过大,观察值很集中,尾部短且薄,不稳定,峰度过小,类似均匀分布,缺少区分度

img

3.3.2 偏度

​ 是衡量数据偏斜方向和程度的度量,即非对称程度,是三阶中心距与标准差的三次幂之比。偏度为 0 时,概率密度函数左右对称;偏度为正,对应分布正偏/左偏;偏度为负,对应分布负偏/右偏。偏度系数的绝对值越大,数据偏离度越大,中位数和平均值显著偏离。

​ 可以借助偏度去理解一个因子的一些特性。比如新闻类的情绪因子,可能会发现该类因子会往正向偏离,它隐含的信息是,新闻的主要作用是传播正能量

img

1
2
3
4
Excel实现计算偏度和峰度
使用函数
偏度:skew()
峰度:kurt()