数据分布研究:频率分布直方图
数据分布是我们日常中最常用的分析方法,频率分布直方图是展示数据分布最好的形式。
你也可能会说你很少使用频率分布直方图,但我敢保证你经常使用频率分布表,只是没有将表以图的形式展现而已。来看一下下边这个表,这个表其实就是频率分布表,拿这个表做出的分布图就是直方图。这下就知道了频率分布在我们日常工作中有多常见了吧。
那么什么是频率分布直方图呢?
它是用柱状图展现一组数据的分布情况,表示不同数据出现的频率(如购买10-20元价格段的用户数量有多少)。
它以组距为横坐标轴,以频数/组距为纵轴连接组合成一个个矩形图。由于每个矩形图的横轴是组距,纵轴是频数/组距,因此每个矩形图的面积代表的就是频数。
频率分布直方图有什么用处?
可以直观、快速观察数据的分散程度和中心趋势;可以据此看出数据是否成正态分布,数据是左倾斜还是右倾斜;数据是否围绕某个值紧密聚集,数据是否位于设定的限制中。
频率分布直方图有哪些类型?
主要有七种类型,分别是标准型、锯齿型、偏锋型、陡壁型、平顶型、双峰型和孤岛型等,每种类型的形状和释义见下表。
如何绘制直方图?
- 使用Excel的“图表”中“柱形图”的功能绘制
(1) 求出一组数据的最大值和最小值。
(2)将数据分成若干组,具体分成多少组,要据具体情况而定,而且可能需要多次调整。
(3) 计算组距的宽度。用最大值和最小值之差(极差)去除组数,求出组距的宽度。
(4)计算各组的边界。从第一组开始,第一组的下边界理论上应为最小值,但在做图的时候,最好将第一组的下边界设置成小于最小值,用最小值减去最小值的一半;第一组的上边界为其下边界加上组距。第二组的下边界位为第一组的上边界,上边界为下边界加上组。第三组及以后的上下边界以此类推。
(5) 统计各组数据出现的频数,整理成下图的表格形式。
(6)以组距为横轴,以频数/组距为纵轴,点击“插入”->"图表"->"柱形图"做出频率分布直方图。
相关数据的计算公式和函数如下
2. 使用Excel中的“数据分析”工具分析
(1)单击“数据”选项卡的“数据分析”功能,选择“直方图”。
(2)在“直方图”对话框中输入【输入区域】(即存放原始数据的位置)、【接收区域】(即设置的区域分割点)、【输出区域】(存放频率统计结果的位置),勾选【图表输出】即可绘制出直方图。
使用直方图注意的问题
1. 直方图适用于连续数据的分析,一般要求数据量在50个以上,若数据量较少则不适合采用直方图,此时可用散点图展示。
2. 分组的数量不宜过少也不宜过多,以5-12组为最佳。
3. 分组的数量可根据分布情况进行多次调整,如果分布的结果看不出任何规律或分布异常,就需要调整了。