泊松分布公式(每个人都能看懂的泊松分布)
2023-11-22 本站作者 【 字体:大 中 小 】
今天是概率统计话题的第五篇。这篇文章的出现,意味着高等数学的话题告一段落。高数留下的内容很多,比如多重积分,解微分方程等等。但是对于算法领域,基本微积分基本够用了,就不继续扩展了。如果以后有相关内容涉及,我们会开一个文章列表。
我们这篇文章的内容是关于统计学中的泊松分布。
举个栗子
泊松分布在概率统计中非常重要,可以很容易地用来计算一些困难的概率。很多书都会说泊松分布的本质是二项分布,泊松分布只是用来简化二项分布的计算。概念上是这样,但我们这些初学者很难完全理解其中的本质。
所以我们举个栗子通俗的理解一下。
假设我们有一棵栗子树。有时候栗子可能会因为风或者小动物的活动而从树上掉下来。很明显是偶然事件,发生的概率很低。那么如何才能找到它的概率分布呢?泊松分布解决了这样一个问题。
似乎没有一个模型可以直接描述这个问题,它必须经历一些转换。
其实我们可以把事件分开,把这个问题变成一个二项分布问题。
比如我们把一天的时间分成几个部分,那么对于每个部分的时间栗子会不会掉下来就是一个会发生的事件。所以这就变成了一个二项分布问题。理论上没有两个栗子会在完全相同的时间落下,所以只要我们把时间划分的足够细,就可以保证一段时间内最多落下一个栗子(否则不满足二项分布)。
假设我们把一天分成n份,我们想知道一天内有k个栗子落下的概率。根据二项式分布的公式,这个概率是:
至此,我们向前迈出了坚实的一步,写出了概率的表达式。
导出泊松分布
虽然我们有公式,但是好像没什么用,因为我们只知道P是单位时间内栗子落下的概率。我们怎么知道这个概率是多少?真的要量吗?
为了解决这个问题,我们必须回到二项分布。我们可以用二项分布来求每天掉栗子数的期望值。显然,对于每个单位时间,栗子落下的概率是p,所以总体期望是:
我们把这个值设为λ,那么根据这个公式,我们就可以表示p。
我们把p的这个公式带入原始公式,我们可以得到:
前面说过,为了满足二项分布,我们需要让单位时间尽可能的小,以防止两个栗子同时落下。所以,n越大越好。我们可以用之前学过的极限使n趋于无穷大,所以这个问题就变成了求极限的问题。
让我们来计算这个极限:
让我们拆分这个限制,其中:
所以,我们代入,我们可以得到:
这是泊松分布的概率密度函数,也就是说一天掉K个例子的概率是
也就是说,泊松分布是将时间无限分割,然后应用二项式分布通过数学极限推导出来的结果。本质上,它的核仍然是二项分布。之所以要用泊松分布,是因为当n很大,p很小时,我们用二项分布来计算会非常困难,因为用幂计算出来的值会非常巨大。这时候我们用泊松分布来近似这个概率就很方便了。
结尾和升华
根据推导的结果,我们觉得泊松分布可以用在n大p小的场景中,但这毕竟只是一个感性的认知,统计学上对这个问题有严格的定义。我们来看看使用条件的严格限制,大概是三条。
当我们无线划分时间时,事件在一个接近于零的时间段内发生的概率与时间成正比。
在每个无穷小的时间段内,同一事件发生两次的概率无限接近于0。
事件是否在不同时间段独立发生。
最后,我们来看一个书上的例子,实际感受一下泊松分布的应用。假设我们有一批零件,它的不良率是0.1%,是千分之一。我们生产的1000个产品中至少有两个次品的概率是多少?
这个问题应该很简单,要求两个或两个以上不良品的概率。我们只需要计算出只有零件和一个不良品的概率,然后从1中减去。我们首先从n和p计算λ:
我们带入泊松分布的公式:
如果要用二项分布来计算,那么就需要计算0.999的幂,这显然是非常复杂的,这也是泊松分布的意义。