数据的正态分布
一个正态分布是很常见的概率分布。它的形状通常被称为“钟形曲线”。
许多日常数据集通常遵循正态分布:例如,成年人的身高,给一大群人的测试分数,测量误差。
正态分布总是与均值对称。
的标准偏差是一组正态分布的数据分布的度量。它是一种统计量,告诉你数据集中所有样本与平均值的接近程度。正态分布的形状由平均值和标准差决定。钟形曲线越陡,标准差越小。如果样本分布得很远,钟形曲线就会平坦得多,这意味着标准差很大。
一般来说,大约正态分布曲线下的面积有一半位于离平均值一个标准差的范围内。
也就是说,如果是均值和是分布的标准差吗的值落在两者之间的范围和。在下面的图中,这对应于粉红色阴影区域。
关于其中的值位于平均值的两个标准差以内,即在和。
(图中,这是粉色和蓝色区域的总和:。)
关于其中一个值位于平均值的三个标准差以内,即在和。(图中粉色、蓝色和绿色区域)
(请注意,这些值是近似值。)
示例1:
一组数据正态分布,均值为。小于百分之几的数据?
正态分布是关于均值对称的。一半的数据小于均值,一半的数据大于均值。
因此,数据的百分比小于。
示例2:
充满电的手机电池的寿命呈正态分布,平均值为小时,标准差为小时。一个电池至少能持续使用的概率是多少小时?
平均值是标准差是。
正态分布的右侧,所以的时间,电池将持续比个小时。
从来小时代表均值左边的一个标准差。所以,关于时间的推移,电池将持续之间和个小时。
因此,电池续航时间至少为Hours是关于或。
示例3:
树莓的平均重量是Gm,标准差为随机选择的树莓重量至少为一般但不超过通用汽车吗?
平均值是标准差是。
请注意,
和
那么,区间在均值下一个标准差和高于平均值的标准差。
在正态分布数据中,约在平均值和低于平均值一个标准差之间的值,和在平均值和平均值上一个标准差之间。
此外,其中一个值位于平均值以上的第一个和第二个标准差之间。
面积相加,得到。
因此,随机选择的树莓的重量至少为一般但不超过通用汽车或。
示例4:
一个城镇有成年人。它们的高度呈正态分布,平均值为和的方差厘米 你认为自己比多少人高厘米吗?
的方差给定数据集的厘米 。所以标准差是或厘米。
现在,,所以身高比的人的数量Cm对应于大于的数据子集高于平均值的标准差。
上图显示,这代表了大约数据。然而,这个百分比是近似值,在这种情况下,我们需要更高的精度。实际百分比,正确到小数点,是。
所以,会有大约镇上的人比厘米。