一 统计学概述
- 统计学(statistics):收集、处理、分析、解释数据并从数据中得出结论的科学。
- **描述统计(discriptive statistics):**研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
描述统计其实就是对数据进行总体特征的概述,例子:说一下班级这次考试的情况如何 - **推断统计(inferential statistics):**是研究如何利用样本数据来推断总体特征的统计方法
推断统计其实是建立在描述统计的基础之上,在对总体数据有了大致的了解之后,运用一些分析方法,对数据进行预测,并达到统计决策的目的,其实不管是在统计学上,还是在实际的业务分析中,我们做分析的终极目的就是用来得出我们结论,应用于决策。例如:房价预测,通过预测数据来进行销售,用户看到房价走势,如果一路走高,是不是要提早下手。
二 统计研究的步骤
1 | 1:统计设计。统计工作实践之前的准备工作,根据统计研究的目的,对统计工作的各个环节进行统筹安排,明确调查任务。 |
三 描述统计
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
3.1 集中趋势分析
1 | 1: 均值 u |
3.2 离中趋势分析
1 | 如果用平均数来代表样本平均水平的话,对个体而言,什么指标可以代表其离散程度大小 |
3.3 分布形状
1 | 针对某种分布进行进一步的特征描述,常见的是用于正态分布的两个指标 |
- 偏度系数 正态 正偏态 负偏态
- 峰度系数 正态 平阔峰 尖峭峰
3.3.1 峰度
是衡量离群数据离群度的指标,与随机分布的四阶中心距对应,是数据序列的四阶中心距与标准差的四次幂之比。正态分布的峰度值为 3 ,称作常峰态,对应 I (beta=0);峰度值大于 3 被称作尖峰态,对应 II (beta>0);峰度值小于 3 被称作低峰态,对应 III (beta<0)。峰度系数越大,数据越集中。
一般来说,不希望峰度过大或过小,主要考虑因子的区分度和稳定性,峰度过大,观察值很集中,尾部短且薄,不稳定,峰度过小,类似均匀分布,缺少区分度
3.3.2 偏度
是衡量数据偏斜方向和程度的度量,即非对称程度,是三阶中心距与标准差的三次幂之比。偏度为 0 时,概率密度函数左右对称;偏度为正,对应分布正偏/左偏;偏度为负,对应分布负偏/右偏。偏度系数的绝对值越大,数据偏离度越大,中位数和平均值显著偏离。
可以借助偏度去理解一个因子的一些特性。比如新闻类的情绪因子,可能会发现该类因子会往正向偏离,它隐含的信息是,新闻的主要作用是传播正能量
1 | Excel实现计算偏度和峰度 |