数据正态分布

一种正常分布是一种常见的概率分布．它的形状通常被称为“钟形曲线”。

许多日常数据集通常遵循正态分布:例如，成年人的身高、对一大群人的测试得分、测量误差。

正常分布始终对称对称。

这标准偏差是衡量如何展开通常分布式数据的数据。这是一个统计数据，告诉您所有示例都在数据集中的平均值周围收集了所有示例。正常分布的形状由平均值和标准偏差确定。钟曲线陡峭，标准偏差越小。如果示例远远差距，钟曲线将会大得多，这意味着标准差很大。

一般来说，关于 $68. ％$ 在正常分布曲线下的区域内位于平均值的一个标准偏差范围内。

那是，如果 $\bar{X}$ 为平均值 $σ$ 然后是分布的标准偏差 $68. ％$ 值的范围 $（ \bar{X} - σ ）$ 和 $（ \bar{X} + σ ）$ ．在下图中，这对应于粉红色区域。

关于 $95 ％$ 的值位于均值的两个标准差范围内，即介于之间 $（ \bar{X} - 2 σ ）$ 和 $（ \bar{X} + 2 σ ）$ ．

（在图中，这是粉红色和蓝色区域的总和： $34. ％ + 34. ％ + 13.5 ％ + 13.5 ％ = 95 ％$ ．）

关于

99.7 ％

这些值在于平均值的三个标准偏差范围内，即

（ \bar{X} - 3. σ ）

和

（ \bar{X} + 3. σ ）

．

(图中的粉色、蓝色和绿色区域)

(注意这些值都是近似值。)

示例1:

一组数据通常以平均值分发 $5.$ ．数据的百分比是多少 $5.$ ？

正态分布是关于均值的对称分布。一半数据小于均值一半数据大于均值。

因此, $50. ％$ 数据的百分比小于 $5.$ ．

示例2:

充满电的手机电池的寿命是正态分布的，平均值为 $14.$ 标准偏差的小时数 $1$ 小时。电池至少能持续使用的概率是多少 $13.$ 小时？

的意思是 $14.$ 标准偏差是 $1$ ．

$50. ％$ 正态分布在均值的右边，所以 $50. ％$ 其中，电池将持续长时间 $14.$ 个小时。

间隔 $13.$ 到 $14.$ 小时代表平均值左边的一个标准差。所以,关于 $34. ％$ 时间，电池将持续到 $13.$ 和 $14.$ 个小时。

因此，电池持续至少的概率 $13.$ 几个小时就是 $34. ％ + 50. ％$ 或 $0.84$ ．

示例3:

覆盆子的平均重量是 $4.4$ GM具有标准偏差 $1．3$ 随机选择的树莓至少重的概率是多少 $3．1$ 通用汽车，但不超过 $7.0$ GM？

的意思是 $4.4$ 标准偏差是 $1．3$ ．

注意

$4.4 - 1．3 = 3．1$

和

$4.4 + 2 （ 1．3 ） = 7.0$

所以,时间间隔 $3．1 \leq. X \leq. 7.0$ 实际上是在一个标准偏差低于均值和 $2$ 高于均值的标准差。

在正态分布数据中，约 $34. ％$ 值在平均值和一个标准偏差下方的平均值和一个标准偏差之间 $34. ％$ 在平均值上方的平均值和一个标准偏差之间。

此外, $13.5 ％$ 值在于均值之上的第一和第二标准偏差之间。

加上面积，我们得到 $34. ％ + 34. ％ + 13.5 ％ = 81.5 ％$ ．

因此，随机选择覆盆子的概率将至少占 $3．1$ 通用汽车，但不超过 $7.0$ 通用汽车 $81.5 ％$ 或 $0.815$ ．

例4：

一个小镇 $330000年$ 成年人。他们的高度通常用含义分发 $175.$ cm和一个方差 $One hundred.$ 厘米^$2$。你希望多少人比这更高 $205$ 厘米？

这方差的数据集 $One hundred.$ 厘米^$2$．标准差是 $\sqrt{One hundred.}$ 或 $10.$ 厘米。

现在， $175. + 3. （ 10. ） = 205$ ，所以人数高于 $205$ Cm对应的数据子集大于 $3.$ 高于均值的标准差。

上图的图表显示了这一点 $0.15 ％$ 数据。但是，这一百分比是近似的，在这种情况下，我们需要更精确。实际百分比，正确 $4.$ 小数点，是 $0.1318 ％$ ．

$330 那 000. \times 0.001318 \approx 435$

所以，会有 $435$ 镇上的人比 $205$ 厘米。