数据正态分布
一种正常分布是一种常见的概率分布.它的形状通常被称为“钟形曲线”。
许多日常数据集通常遵循正态分布:例如,成年人的身高、对一大群人的测试得分、测量误差。
正常分布始终对称对称。
这标准偏差是衡量如何展开通常分布式数据的数据。这是一个统计数据,告诉您所有示例都在数据集中的平均值周围收集了所有示例。正常分布的形状由平均值和标准偏差确定。钟曲线陡峭,标准偏差越小。如果示例远远差距,钟曲线将会大得多,这意味着标准差很大。
一般来说,关于在正常分布曲线下的区域内位于平均值的一个标准偏差范围内。
那是,如果为平均值然后是分布的标准偏差值的范围和.在下图中,这对应于粉红色区域。
关于的值位于均值的两个标准差范围内,即介于之间和.
(在图中,这是粉红色和蓝色区域的总和:.)
关于这些值在于平均值的三个标准偏差范围内,即和.(图中的粉色、蓝色和绿色区域)
(注意这些值都是近似值。)
示例1:
一组数据通常以平均值分发.数据的百分比是多少?
正态分布是关于均值的对称分布。一半数据小于均值一半数据大于均值。
因此,数据的百分比小于.
示例2:
充满电的手机电池的寿命是正态分布的,平均值为标准偏差的小时数小时。电池至少能持续使用的概率是多少小时?
的意思是标准偏差是.
正态分布在均值的右边,所以其中,电池将持续长时间个小时。
间隔到小时代表平均值左边的一个标准差。所以,关于时间,电池将持续到和个小时。
因此,电池持续至少的概率几个小时就是或.
示例3:
覆盆子的平均重量是GM具有标准偏差随机选择的树莓至少重的概率是多少通用汽车,但不超过GM?
的意思是标准偏差是.
注意
和
所以,时间间隔实际上是在一个标准偏差低于均值和高于均值的标准差。
在正态分布数据中,约值在平均值和一个标准偏差下方的平均值和一个标准偏差之间在平均值上方的平均值和一个标准偏差之间。
此外,值在于均值之上的第一和第二标准偏差之间。
加上面积,我们得到.
因此,随机选择覆盆子的概率将至少占通用汽车,但不超过通用汽车或.
例4:
一个小镇成年人。他们的高度通常用含义分发cm和一个方差厘米 。你希望多少人比这更高厘米?
这方差的数据集厘米 .标准差是或厘米。
现在,,所以人数高于Cm对应的数据子集大于高于均值的标准差。
上图的图表显示了这一点数据。但是,这一百分比是近似的,在这种情况下,我们需要更精确。实际百分比,正确小数点,是.
所以,会有镇上的人比厘米。