一、分布分析

(一)集中程度分析

1.平均数

平均数即指标的平均水平。例如,客户、产品、作业、部门等多维组合的成本对象有100万个,总成本1000万元,则:

平均数=1000÷100=10

2.中位数

众多的成本对象,小于中位数的占一半,大于中位数的占一半。例如,客户、产品、作业、部门等多维组合的成本对象有100万个,成本的中位数为10元。即100万个成本对象中,成本大于10元的有50万个,成本小于10元的也有50万个。

3.众数

众数是成本指标最普遍出现的值。例如,客户、产品、作业、部门等多维组合的成本对象有100万个,成本为10元的有8万个,数量最多,则成本的众数为10元。

(二)离散程度分析

1.极差

即成本指标的最大值与最小值之差。例如,客户、产品、作业、部门等多维组合的成本对象有100万个,成本最大的为88元,最小的为33元,则:

极差=88-33=55元。

2.四分位差

它是剔除1/4最大指标和1/4最小指标的成本对象后,剩余对象的极差除以2。例如,客户、产品、作业、部门等多维组合的成本对象有100万个,剔除25万个成本最大和25万个成本最小的成本对象,剩余50万个成本对象成本最大的为66元,最小的为44元,则:

四分位差=66-44=22元。

3.平均差

即各成本对象的成本指标与平均数的差额的绝对值的平均数。例如,从客户、产品等维度组合中选择5个分析对象,成本分别为8、9、10、11、12,则:

平均数=(8+9+10+11+12)÷5=10

平均差=(|8-10|+|9-10|+|10-10|+|11-10|+|12-10|)÷5=1.2

4.方差

即各成本对象的成本指标与平均数的差额的平方的平均数。例如,从客户、产品等维度组合中选择5个分析对象,成本分别为8、9、10、11、12,则:

平均数=(8+9+10+11+12)÷5=10

方差=((8-10)2+(9-10)2+(10-10)2+(11-10)2+(12-10)2)÷5=2

5。标准差

即方差的平方根。例如,从客户、产品等维度组合中选择5个分析对象,方差为2,则:

标准差=20.5=1.414。

6.变异系数

即标准差除以平均数。例如,从客户、产品等维度组合中选择5个分析对象,标准差为1.414,平均数为10,则:

变异系数=1.414÷10×100%=14.14%。

(三)斜尖程度分析

1.偏度

即对象指标的不对称水平,用于衡量分布的偏斜程度,等于三阶中心动差除以标准差三次方。三阶中心动差,等于各对象指标与平均数的差额的三次方的平均数。

例如,从客户、产品等维度组合中选择5个分析对象,如果成本分别为8、9、10、21、12,则:

平均数=(8+9+10+21+12)÷5=12

三阶中心动差=((8-12)3+(9-12)3+(10-12)3+(21-12)3+(12-12)3)÷5=126

方差=((8-12)2+(9-12)2+(10-12)2+(21-12)2+(12-12)2)÷5=22

标准差=220.5=4.69

偏度=126÷4.693=1.221

偏度大于0代表正偏斜,如图7-1所示。

图7-1 偏度大于零

再如从客户、产品等维度组合中选择5个分析对象,如果成本分别为8、9、10、11、12,则:

平均数=(8+9+10+11+12)÷5=10

三阶中心动差=((8-10)3+(9-10)3+(10-10)3+(11-10)3+(12-10)3)÷5=0

偏度=0

偏度等于0代表正态分布,如图7-2所示。

图7-2 偏度等于零

再如从客户、产品等维度组合中选择5个分析对象,如果成本分别为1、6、10、11、12,则:

平均数=(1+6+10+11+12)÷5=8

三阶中心动差=((1-8)3+(6-8)3+(10-8)3+(11-8)3+(12-8)3)÷5=-50.4

方差=((1-8)2+(6-8)2+(10-8)2+(11-8)2+(12-8)2)÷5=16.4

标准差=16.40.5=4.05

偏度=-50.4÷4.053=-0.759

偏度小于0代表负偏斜,如图7-3所示。

图7-3 偏度小于零

2.峰度

即对象指标的集中水平,用于衡量分布的尖峭程度,等于四阶中心动差除以标准差四次方再减3。四阶中心动差,等于各对象指标与平均数的差额的四次方的平均数。

例如,从客户、产品等维度组合中选择5个分析对象,如果成本分别为8、9、100、11、12,则:

平均数=(8+9+100+11+12)÷5=28

四阶中心动差=((8-28)4+(9-28)4+(100-28)4+(11-28)4+(12-28)4)÷5=5462647

方差=((8-28)2+(9-28)2+(100-28)2+(11-28)2+(12-28)2)÷5=1298

标准差=12980.5=36.03

峰度=5462647÷36.034-3=0.242

峰度大于0表示分布比正态分布更集中,呈尖峰状,如图7-4所示。

图7-4 峰度大于零

再如,从客户、产品等维度组合中选择5个分析对象,如果成本分别为8、9、10、11、12,则:

平均数=(8+9+10+11+12)÷5=10

四阶中心动差=((8-10)4+(9-10)4+(10-10)4+(11-10)4+(12-10)4)÷5=6.8

方差=((8-10)2+(9-10)2+(10-10)2+(11-10)2+(12-10)2)÷5=2

标准差=20.5=1.414

峰度=6.8÷1.4144-3=-1.3

峰度小于0表示分布比正态分布更分散,呈平坦状,如图7-5所示。

图7-5 峰度小于零

分布分析可以结合比较、趋势等分析,例如对于选择的众多成本对象,可以计算各类成本项目的各类分布指标,如表7-1所示。

表7-1 各类成本项目的各分布指标

基于成本项目的分布指标,可进行比较、趋势等分析,如图7-6所示。

图7-6 成本项目的分布指标比较分析

在进行分布分析时,我们可以针对关注的重点,选择或大或小的成本对象范围,选择或多或少的成本项目。可供选择的成本对象数量很多,成本项目很多,总的来说计算工作量很大,不仅对算法要求高,而且对性能要求高。对于这把深度挖掘数据特征的瑞士军刀,我们可以不去掌握它的加工过程,但至少要知道它的应用场景和业务意义。