贝叶斯定理

如题所述

第1个回答  2022-06-26

引入:

定义: (英语:Bayes' theorem)是概率论中的一个定理,描述在已知一些条件下,某事件的发生几率。比如,如果已知某癌症与寿命有关,使用贝叶斯定理则可以透过得知某人年龄,来更加准确地计算出他罹患癌症的几率。———— wiki解释

贝叶斯公式:

事件B发生的条件下,事件A发生的概率为:

事件A发生的条件下,事件B发生的概率为:

由此可得:

得贝叶斯公式如下:

贝叶斯公式:

上式可以理解为:

所以贝叶斯的底层思想为:
如果掌握了一个事情的全部信息,就可以计算出一个客观概率(古典概率、正向概率),但是绝大多数决策面临的信息都是不全的,在有限信息的条件下,尽可能预测一个好的结果,也就是在主观判断的基础上,可以 先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数) 。

问题 :有两个一模一样的碗,1号碗里有30个巧克力和10个水果糖,2号碗里有20个巧克力和20个水果糖。然后把碗盖住。随机选择一个碗,从里面摸出一个巧克力。 这颗巧克力来自1号碗的概率是多少?

求解问题:

已知信息:

应用贝叶斯:

问题 :假设艾滋病的发病率是0.001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。 现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?

求解问题:

已知信息:

应用贝叶斯定理:

造成这么不靠谱的误诊的原因,是我们无差别地给一大群人做筛查,而不论测量准确率有多高,因为正常人的数目远大于实际的患者,所以误测造成的干扰就非常大了。 根据贝叶斯定理,我们知道提高先验概率,可以有效的提高后验概率。 所以解决的办法倒也很简单,就是先锁定可疑的样本,比如10000人中检查出现问题的那10个人,再独立重复检测一次,因为正常人连续两次体检都出现误测的概率极低,这时筛选出真正患者的准确率就很高了,这也是为什么许多疾病的检测,往往还要送交独立机构多次检查的原因。

问题 :最初的垃圾邮件过滤是靠静态关键词加一些判断条件来过滤,效果不好,漏网之鱼多,冤枉的也不少。2002年,Paul Graham提出 使用"贝叶斯推断"过滤垃圾邮件 。因为 典型的垃圾邮件词汇在垃圾邮件中会以更高的频率出现 ,所以在做贝叶斯公式计算时,肯定会被识别出来。之后用最高频的15个垃圾词汇做联合概率计算,联合概率的结果超过90%将说明它是垃圾邮件。

不过这里还涉及到一个问题,就是单个关键词的概率(单个条件)无论如何再高,这封邮件仍然有可能不是垃圾邮件,所以在此处应用贝叶斯定理时,我们显然要用到多个条件,也就是计算这个概率:

Paul Graham 的做法是,选出邮件中 P(垃圾邮件|检测到“X”关键词) 最高的 15个词 ,计算它们的 联合概率 。(如果关键词是第一次出现,Paul Graham 就假定这个值等于 0.4 ,也即认为是negative normal)。

后续更新……

参考文章1:(知乎)小白之通俗易懂的贝叶斯定理(Bayes' Theorem)
参考文章2:()贝叶斯公式/贝叶斯法则/贝叶斯定理

相似回答