常见的8个概率分布公式和可视化

如题所述

第1个回答 2022-07-27

概率和统计知识是数据科学和机器学习的核心；我们需要统计和概率知识来有效地收集、审查、分析数据。

现实世界中有几个现象实例被认为是统计性质的（即天气数据、销售数据、财务数据等）。这意味着在某些情况下，我们已经能够开发出方法来帮助我们通过可以描述数据特征的数学函数来模拟自然。

“概率分布是一个数学函数，它给出了实验中不同可能结果的发生概率。”

了解数据的分布有助于更好地模拟我们周围的世界。它可以帮助我们确定各种结果的可能性，或估计事件的可变性。所有这些都使得了解不同的概率分布在数据科学和机器学习中非常有价值。

在本文中，我们将介绍一些常见的分布并通过Python 代码进行可视化以直观地显示它们。

最直接的分布是均匀分布。均匀分布是一种概率分布，其中所有结果的可能性均等。例如，如果我们掷一个公平的骰子，落在任何数字上的概率是 1/6。这是一个离散的均匀分布。

但是并不是所有的均匀分布都是离散的——它们也可以是连续的。它们可以在指定范围内取任何实际值。 a 和 b 之间连续均匀分布的概率密度函数 (PDF) 如下：

让我们看看如何在 Python 中对它们进行编码：

高斯分布可能是最常听到也熟悉的分布。它有几个名字：有人称它为钟形曲线，因为它的概率图看起来像一个钟形，有人称它为高斯分布，因为首先描述它的德国数学家卡尔·高斯命名，还有一些人称它为正态分布，因为早期的统计学家注意到它一遍又一遍地再次发生。

正态分布的概率密度函数如下：

σ 是标准偏差，μ 是分布的平均值。要注意的是，在正态分布中，均值、众数和中位数都是相等的。

当我们绘制正态分布的随机变量时，曲线围绕均值对称——一半的值在中心的左侧，一半在中心的右侧。并且，曲线下的总面积为 1。

对于正态分布来说。经验规则告诉我们数据的百分比落在平均值的一定数量的标准偏差内。这些百分比是：

68% 的数据落在平均值的一个标准差内。

95% 的数据落在平均值的两个标准差内。

99.7% 的数据落在平均值的三个标准差范围内。

对数正态分布是对数呈正态分布的随机变量的连续概率分布。因此，如果随机变量 X 是对数正态分布的，则 Y = ln(X) 具有正态分布。

这是对数正态分布的 PDF：

对数正态分布的随机变量只取正实数值。因此，对数正态分布会创建右偏曲线。

让我们在 Python 中绘制它：

泊松分布以法国数学家西蒙·丹尼斯·泊松的名字命名。这是一个离散的概率分布，这意味着它计算具有有限结果的事件——换句话说，它是一个计数分布。因此，泊松分布用于显示事件在指定时期内可能发生的次数。

如果一个事件在时间上以固定的速率发生，那么及时观察到事件的数量（n）的概率可以用泊松分布来描述。例如，顾客可能以每分钟 3 次的平均速度到达咖啡馆。我们可以使用泊松分布来计算 9 个客户在 2 分钟内到达的概率。

下面是概率质量函数公式：

λ 是一个时间单位的事件率——在我们的例子中，它是 3。k 是出现的次数——在我们的例子中，它是 9。这里可以使用 Scipy 来完成概率的计算。

泊松分布的曲线类似于正态分布，λ 表示峰值。

指数分布是泊松点过程中事件之间时间的概率分布。指数分布的概率密度函数如下：

λ 是速率参数，x 是随机变量。

可以将二项分布视为实验中成功或失败的概率。有些人也可能将其描述为抛硬币概率。

参数为 n 和 p 的二项式分布是在 n 个独立实验序列中成功次数的离散概率分布，每个实验都问一个是 - 否问题，每个实验都有自己的布尔值结果：成功或失败。

本质上，二项分布测量两个事件的概率。一个事件发生的概率为 p，另一事件发生的概率为 1-p。

这是二项分布的公式：

可视化代码如下：

学生 t 分布（或简称 t 分布）是在样本量较小且总体标准差未知的情况下估计正态分布总体的均值时出现的连续概率分布族的任何成员。它是由英国统计学家威廉·西利·戈塞特（William Sealy Gosset）以笔名“student”开发的。

PDF如下：

n 是称为“自由度”的参数，有时可以看到它被称为“d.o.f.” 对于较高的 n 值，t 分布更接近正态分布。

卡方分布是伽马分布的一个特例；对于 k 个自由度，卡方分布是一些独立的标准正态随机变量的 k 的平方和。

PDF如下：

这是一种流行的概率分布，常用于假设检验和置信区间的构建。

让我们在 Python 中绘制一些示例图：

掌握统计学和概率对于数据科学至关重要。在本文展示了一些常见且常用的分布，希望对你有所帮助。

作者：Kurtis Pykes

相似回答

统计概率知识点归纳答：概率分布的可视化</：使用matplotlib和scipy，我们可以直观地呈现这些分布。例如，图形展示二项分布时，如n=10, p=0.3，第k次成功的概率</可以通过 stats.geom.pmf(k, p) 计算。正态分布则可以通过指定 μ=1.5, σ=0.8</ 来绘制。还有幂律分布，它常用于描述数据的不均衡性，如财富分布...

彻底弄懂常见的几种概率分布答：接着，如同大自然的恩赐，正态分布以其优雅的身姿，揭示了大多数现象的概率分布规律。它的中心是μ（期望值），如同舞台的焦点；而σ（标准差）则描绘了其曲线的宽度，标准正态分布（μ=0, σ=1）则是它的轻盈化身。通过scipy，我们可以直观地观察这美妙的分布特性。想象一下，当我们投掷一枚骰子，...

数据分析必备的统计学知识大梳理!立刻收藏答：我的理解,《概率论与数理统计》更专业一些,偏理工科,会有大量公式的推导,知其然,知其所以然;而统计学这本书更基础,侧重于概念现象的解释,一般会直接给出结论,而不要求掌握结论的数理推导过程,文理科皆可用。但不管是哪门课程,前期都是先讲概率和概率分布。概率论是统计学的基础,而随机事件的概率是概率论研究...

概率统计(共4篇)——3 常见分布与假设检验答：几何分布：0-1分布首次成功负二项分布：0-1分布第k次成功 超几何分布：从n种里抽指定种类的k个（不放回）简记为：天女散花，每个面积上落下花的概率相等记为：X~U(a，b）x在[a,b]区间内概率密度函数相等，等于1/(b-a)。正态分布X~N(u,d) u:均值，d:标准差，通过下式...

如何可视化条件概率和无条件概率答：条件概率和无条件概率可以通过几何图形进行可视化，具体如下：无条件概率：在几何图形上，无条件概率通常表示为一个形状相同的基本图形，其中每个元素都有相同的概率。例如，在一个正方形中，每个点的概率相等，因此这个正方形可以表示为无条件概率分布。条件概率：在几何图形上，条件概率通常表示为一个形状...

甲乙两个生产小组人均月工资分别为420元和537元,其方差均为80元,则...答：甲乙两个生产小组人均月工资分别为420元和537元，其方差均为80元，则两小组人均甲大于乙。我们可以将概率定义为一些事件将要发生的可能性大小，以百分数来表示。在数据科学领域中，这通常被量化到0到1的区间范围内，其中0表示事件确定不会发生，而1表示事件确定会发生。那么，概率分布就是表示所有可能值...

如何利用累积概率分布来理解随机变量的行为?答：概率分布的可视化：累积概率分布函数是一个非递减的函数，它的图形通常是一个从左下方向右上方递增的曲线。通过绘制CDF的图像，我们可以直观地看到随机变量的取值倾向，例如，CDF图像的陡峭部分表明随机变量在该区域内取值的可能性较大。确定事件的概率：累积概率分布可以用来确定随机变量落在特定区间内的概率...

用matlab画出概率密度分布图答：3、第三步，完成上述步骤后，需要根据图标的输入绘制图像，见下图红框处代码，转到下面的步骤。4

可以用来查看数值型变量的分布的可视化方法是答：1. 直方图（Histogram）直方图是一种非常直观的方式来查看数值型变量的分布。它将数据分成若干个连续的区间，然后统计每个区间内的数据频数或频率。在直方图中，每个矩形的高度代表该区间内的数据频数或频率，而矩形的宽度则代表区间的范围。通过直方图，我们可以很容易地观察到数据是否呈现正态分布、偏态分布...

大家正在搜

泊松分布的概率公式概率分布公式二项分布概率公式正态分布概率计算公式古典概型的概率公式二项分布公式的理解分布列和数学期望公式两点分布的D(X)与E(X)公式随机事件的概率公式