统计学,难在哪里

曾经有营销人员问我,统计学为什么这么难学?我的回答是:缺乏训练。一个经过训练和没有经过训练的营销人员的差别在于:训练有素的营销人员在不同的时间、地点讲同一件事情,陈述的要点和逻辑基本一致;没有经过训练的营销人员,容易东扯西拉,临场发挥。统计学本身就是一门逻辑思维比较严密的科学,而逻辑思考能力是需要时间训练和培养的。任何科学,只要是方法,尤其是可以通过公式展现的方法,都能够通过学习掌握。

 

 

抽象思维多于具象思维

 

在统计学中,大量的数学模型是建立在概率之上的。所谓概率,通俗一点就是模棱两可,可能是左,也可能是右。比如,我们讲到的数据分布类型。无论何种数据组类型,都只分为离散型的随机分布和连续型的随机分布。比如,在抽样调查中,随机抽取的被调查对象的年龄就属于离散型随机分布,收入就属于典型的连续型随机分布。

以离散型随机分布为例,我们可以将其理解为:在某个数据组内,数据之间缺乏相似性和关联性,随机抽取一个数据,在这个数据组内任意数据被抽取到的机会,都有固定的概率,且概率分布没有明显的集中趋势。

随机变量X的取值为:X1,X2,……,XN,其相应的概率为P(X=X1)=P1,P(X=X2)=P2,……,P(X=XN)=PN。将这些结果列表(表10-1)如下:

 

表10-1 随机变量X和概率P

 

X

X1

X2

……

Xi

……

XN

P

P1

P2

……

Pi

……

PN

 

对应折线图(图10-1)表现如下:

 

图10-1 对应折线图

 

从离散型数据的随机分布来看,需要我们将原来“1+1=2”的精确观念,转换成在一定的概率保证下,“1+1”有可能等于任何数的概念。这种从“一定”到“可能”的思维转变,是学习统计学的基础。

 

单一的数字分析变成大量数据库的处理

 

统计学的第二个难点,是数据处理突然呈现爆发式增长。

以平均数这个概念为例,仅从类型上来说,平均数就分为数值平均数和位置平均数两种,各种平均数的适用条件和应用范围又有所差别。比如,我们都知道1、2、3的算术平均数等于2,即(1+2+3)/3=2。这时候突然有人告诉你,在一个统计对象里,有50人养1只狗,40人养2只狗,25人养着3只狗,每个人平均养了几只狗?这时候,用简单的算术平均数统计出人均2只狗,就失去了现实意义。

 

表10-2 养狗人数信息表

 

狗数(单位:只)

养狗人数(单位:人)

1

50

2

40

3

25

 

人均平均养狗数

=(1只×50人+2只×40人+3只×25人)/(50人+40人+25人)

=(50只+80只+75只)/115人

≈1.78只

这其实就是一个调和平均数,也称倒数平均数。每一组狗的总数量就是调和平均数的权数。统计学的难点在于,大量数据出现,你如果不会分组或者分组不科学,这些数据就会弄得你焦头烂额。

 

经典假设限制了统计学的应用范围

 

 

以检验这个功能为例,小学数学里一元一次方程检验,我想大多数人应该还记得,这就是我们通常说的“代入检验”。

例如:1+2x=3,用一元一次方程解答,并检验。

解:因为1+2x=3

2x=3-1

x=1

所以  x=1

检验:当x=1时,方程式的左边为1+2×1=3;又因为,方程式的右边为3,所以左边=右边。

但是在统计学中涉及到的检验,以单变量的检验为例,分为参数检验和非参数检验。所谓的卡方检验只适合非参数检验,且是独立样本;符号检验虽然也适合非参数统计,但是必须是两个有依存度的样本。t检验和Z检验虽然同样适用于参数检验,但是Z检验只适合单样本和独立样本的情况;t检验虽然适用参数各种情况,但是样本情况的差异,也会影响到检测结果。如双样本的t检验,其假设条件就是两个样本的方差必须相等,如果这个条件被打破,检验结果就毫无意义。

真正要学统计学,理不清这些限制性条件,统计学依然一知半解。当然,你还有一个选择,那就是只选择你熟悉的限制条件,采用统计学里那些复杂的方法。换句话说,就是固定场景、固定条件、固定公式。

 

小贴士:统计学的难,难在无从下手。其实每个人都有自己的学习习惯,找到你最熟悉的点,先研究,然后在实践中不断尝试和修正;也可以选择你最熟悉的公式模型,确认使用条件后,先在实践中试用,后在使用中巩固。