责任编辑:

2. 贝叶斯法则

2.1 基本术语

D :训练数据;

H : 假设空间;

h : 假设;

P(h):假设h的先验概率(Prior Probability)

        即没有训练数据前假设h拥有的初始概率

P(D):训练数据的先验概率

        即在没有确定某一假设成立时D的概率

P(D|h):似然度,在假设h成立的情况下,观察到D的概率;

P(h|D):后验概率,给定训练数据D时h成立的概率;

2.2 贝叶斯定理(条件概率的应用)

图片 1

公式

        后验概率正比于P(h)和P(D|h)

        反比于P(D):D独立于h出现的概率越大,则D对h的支持度越小

2.3 相关概念

极大后验假设MAP:给定数据D和H中假设的先验概率,具有最大后验概率的假设h:

图片 2

计算公式

极大似然假设ML:当H中的假设具有相同的先验概率时,给定h,使P(D|h)最大的假设hml:

图片 3

计算公式

下面举一个自然语言的不确定性的例子。当你看到这句话:

上式中的 Pants 和 Boy/Girl 可以指代一切东西,所以其一般形式就是:

4. 文本分类

算法描述:

图片 4

图片 5

The girl saw the boy with a telescope.

两边求对数,将右式的乘积变成相加:

直观地说,它与假设的正确性或表示能力有关。给定一个假设,它支配着数据的“推断”能力。如果假设很好地生成了数据,并且我们可以无错误地测量数据,那么我们就根本不需要数据。

贝叶斯推理

贝叶斯法则

朴素贝叶斯分类器

应用:文本分类

1.1一个例子:自然语言的二义性

吴军的文章中这里省掉没说的是,s1, s2, s3, ..
这个句子的生成概率同时又取决于一组参数,这组参数决定了 s1, s2, s3, ..
这个马可夫链的先验生成概率。如果我们将这组参数记为 λ
,我们实际上要求的是:P(S|O, λ) (其中 O 表示 o1,o2,o3,.. ,S表示
s1,s2,s3,..)

Why Machine Learning Works:

3. 贝叶斯分类器

图片 6

图片 7

图片 8

图片 9

类似地,对于我们的猜测2,则是P(h2 | D)。不妨统一记为:

图片 10

这是否一劳永逸地证明了短的假设就是最好的?

1. 贝叶斯推理

–提供了推理的一种概率手段

–两个基本假设:

(1)待考察的量遵循某概率分布

(2)可根据这些概率以及观察到的数据进行推理,以作作出最优的决策

–贝叶斯推理对机器学习十分重要:

        为衡量多个假设的置信度提供了定量的方法

        为直接操作概率的学习算法提供了基础

        为其他算法的分析提供了理论框架

–机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设

        最佳假设:
在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设

–概率学习系统的一般框架

图片 11

吴军的文章中这里省掉没说的是,s1, s2, s3,
..这个句子的生成概率同时又取决于一组参数,这组参数决定了s1, s2, s3,
..这个马可夫链的先验生成概率。如果我们将这组参数记为 λ
,我们实际上要求的是:P(S|O,λ)(其中O表示o1,o2,o3,..,S表示s1,s2,s3,..)

问题是什么?统计机器翻译的问题可以描述为:给定一个句子 e
,它的可能的外文翻译 f 中哪个是最靠谱的。即我们需要计算:P(f|e)
。一旦出现条件概率贝叶斯总是挺身而出:

让我们剥茧抽丝,看看这个术语多么有用……

首先是视觉系统提取图形的边角特征,然后使用这些特征自底向上地激活高层的抽象概念(比如是E还是F还是等号),然后使用一个自顶向下的验证来比较到底哪个概念最佳地解释了观察到的图像。

P(B|A) = P(AB) / P(A)

我们真正得出的结论是什么?

注意,以上做的是似然估计(即只看P(D |
h)的大小),不含先验概率。通过这两个例子,尤其是那个树后面的箱子的例子我们可以看到,似然估计里面也蕴含着奥卡姆剃刀:树后面的箱子数目越多,这个模型就越复杂。单个箱子的模型是最简单的。似然估计选择了更简单的模型。

P(f|e) ∝ P(f) * P(e|f)

那么我们需要一个关于假设的长度的例子吗?

然而,后面我们会逐渐发现,看似这么平凡的贝叶斯公式,背后却隐含着非常深刻的原理。

首先,我们需要询问的是:“问题是什么?

这就是为什么你不需要记住所有可能的加速度数字,你只需要相信一个简洁的假设,即F=ma,并相信所有你需要的数字都可以在必要时从这个假设中计算出来。它使得Length(D
| h) 非常小。

P(h1 | D)

学过线性代数的大概都知道经典的最小二乘方法来做线性回归。问题描述是:给定平面上
N
个点,(这里不妨假设我们想用一条直线来拟合这些点——回归可以看作是拟合的特例,即允许误差的拟合),找出一条最佳描述了这些点的直线。

图片 12

P(h | D)∝P(h) * P(D | h)

以下我们再举一些实际例子来说明贝叶斯方法被运用的普遍性,这里主要集中在机器学习方面,因为我不是学经济的,否则还可以找到一堆经济学的例子。

图片 13

贝叶斯网络的建造是一个复杂的任务,需要知识工程师和领域专家的参与。在实际中可能是反复交叉进行而不断完善的。面向设备故障诊断应用的贝叶斯网络的建造所需要的信息来自多种渠道,如设备手册,生产过程,测试过程,维修资料以及专家经验等。首先将设备故障分为各个相互独立且完全包含的类别(各故障类别至少应该具有可以区分的界限),然后对各个故障类别分别建造贝叶斯网络模型,需要注意的是诊断模型只在发生故障时启动,因此无需对设备正常状态建模。通常设备故障由一个或几个原因造成的,这些原因又可能由一个或几个更低层次的原因造成。建立起网络的节点关系后,还需要进行概率估计。具体方法是假设在某故障原因出现的情况下,估计该故障原因的各个节点的条件概率,这种局部化概率估计的方法可以大大提高效率。

  1. 前言 
  2. 历史 
        1.1 一个例子:自然语言的二义性 
        1.2 贝叶斯公式 
  3. 拼写纠正 
  4. 模型比较与贝叶斯奥卡姆剃刀 
        3.1 再访拼写纠正 
        3.2 模型比较理论(Model Comparasion)与贝叶斯奥卡姆剃刀(Bayesian
    Occam’s Razor) 
        3.3 最小描述长度原则 
        3.4 最优贝叶斯推理 
  5. 无处不在的贝叶斯 
        4.1 中文分词 
        4.2 统计机器翻译 
        4.3 贝叶斯图像识别,Analysis by Synthesis    
        4.4 EM 算法与基于模型的聚类 
        4.5 最大似然与最小二乘 
  6. 朴素贝叶斯方法(又名“愚蠢者的贝叶斯(idiot’s bayes)”) 
        5.1 垃圾邮件过滤器 
        5.2 为什么朴素贝叶斯方法令人诧异地好——一个理论解释 
  7. 层级贝叶斯模型 
        6.1 隐马可夫模型(HMM) 
  8. 贝叶斯网络

听起来十分简单而且直观是吧?很好。

即可。

显然,最大化 P(h | D) 也就是最大化 ln P(h | D)。而 ln P(h) + ln P(D | h)
则可以解释为模型(或者称“假设”、“猜测”)h 的编码长度加上在该模型下数据 D
的编码长度。使这个和最小的模型就是最佳模型。

香农和信息熵

用自然语言来说就是这种分词方式(词串)的可能性乘以这个词串生成我们的句子的可能性。我们进一步容易看到:可以近似地将P(X|Y)看作是恒等于1的,因为任意假想的一种分词方式之下生成我们的句子总是精准地生成的(只需把分词之间的分界符号扔掉即可)。于是,我们就变成了去最大化P(Y),也就是寻找一种分词使得这个词串(句子)的概率最大化。而如何计算一个词串:

  1. 南京市/长江大桥

  2. 南京/市长/江大桥

将所有这些结合起来

1.2贝叶斯公式

不管怎样,一个最常见的替代方案就是,选择离 thew
的编辑距离最近的。然而 the
和 thaw 离 thew 的编辑距离都是 1
。这可咋办捏?你说,不慌,那还是好办。我们就看到底哪个更可能被错打为
thew 就是了。我们注意到字母 e 和字母 w
在键盘上离得很紧,无名指一抽筋就不小心多打出一个 w 来,the 就变成 thew
了。而另一方面 thaw 被错打成 thew 的可能性就相对小一点,因为 e 和 a
离得较远而且使用的指头相差一个指头(一个是中指一个是小指,不像 e 和 w
使用的指头靠在一块——神经科学的证据表明紧邻的身体设施之间容易串位)。OK,很好,因为你现在已经是在用最大似然方法了,或者直白一点,你就是在计算那个使得
P(D | h) 最大的 h 。

在统计推理的世界里,假设就是信念。这是一种关于过程本质(我们永远无法观察到)的信念,在一个随机变量的产生背后(我们可以观察或测量到随机变量,尽管可能有噪声)。在统计学中,它通常被称为概率分布。但在机器学习的背景下,它可以被认为是任何一套规则(或逻辑/过程),我们认为这些规则可以产生示例或训练数据,我们可以学习这个神秘过程的隐藏本质。

P(我们猜测他想输入的单词|他实际输入的单词)

现在我们回到问题的贝叶斯方面,我们要想最大化的后验概率是:

因此,贝叶斯推理告诉我们,最好的假设就是最小化两个项之和:假设的长度和错误率

下面的事情就很简单了,对于我们猜测为可能的每个单词计算一下P(h) * P(D |
h)这个值,然后取最大的,得到的就是最靠谱的猜测。

一点注记:还是那个问题:难道我们人类真的是用这种方式进行翻译的?highly
unlikely
。这种计算复杂性非常高的东西连三位数乘法都搞不定的我们才不会笨到去使用呢。根据认知神经科学的认识,很可能我们是先从句子到语义(一个逐层往上(bottom-up)抽象的
folding
过程),然后从语义根据另一门语言的语法展开为另一门语言(一个逐层往下(top-down)的具体化
unfolding
过程)。如何可计算地实现这个过程,目前仍然是个难题。(我们看到很多地方都有
bottom-up/top-down
这样一个对称的过程,实际上有人猜测这正是生物神经网络原则上的运作方式,对视觉神经系统的研究尤其证明了这一点,Hawkins
在 《On Intelligence》
里面提出了一种 HTM (Hierarchical
Temporal Memory)模型正是使用了这个原则。)

  • 最大化对于对数与原始函数的作用类似,即采用对数不会改变最大化问题
  • 乘积的对数是各个对数的总和
  • 一个量的最大化等于负数量的最小化

3.3最小描述长度原则

这个式子的抽象含义是:对于给定观测数据,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior
)”和“这个猜测生成我们观测到的数据的可能性大小”(似然,Likelihood
)的乘积。具体到我们的那个 thew 例子上,含义就是,用户实际是想输入 the
的可能性大小取决于 the
本身在词汇表中被使用的可能性(频繁程度)大小(先验概率)和 想打 the
却打成 thew 的可能性大小(似然)的乘积。

没有。

3.1再访拼写纠正

的可能性呢?我们知道,根据联合概率的公式展开:P(W1,
W2, W3, W4 ..) = P(W1) * P(W2|W1) * P(W3|W2, W1) * P(W4|W1,W2,W3) *
..
于是我们可以通过一系列的条件概率(右式)的乘积来求整个联合概率。然而不幸的是随着条件数目的增加(P(Wn|Wn-1,Wn-2,..,W1)
的条件有 n-1
个),数据稀疏问题也会越来越严重,即便语料库再大也无法统计出一个靠谱的
P(Wn|Wn-1,Wn-2,..,W1)
来。为了缓解这个问题,计算机科学家们一如既往地使用了“天真”假设:我们假设句子中一个词的出现概率只依赖于它前面的有限的
k 个词(k 一般不超过
3,如果只依赖于前面的一个词,就是2元语言模型(2-gram),同理有
3-gram 、 4-gram
等),这个就是所谓的“有限地平线”假设。虽然这个假设很傻很天真,但结果却表明它的结果往往是很好很强大的,后面要提到的朴素贝叶斯方法使用的假设跟这个精神上是完全一致的,我们会解释为什么像这样一个天真的假设能够得到强大的结果。目前我们只要知道,有了这个假设,刚才那个乘积就可以改写成:
P(W1) * P(W2|W1) * P(W3|W2) * P(W4|W3) ..
(假设每个词只依赖于它前面的一个词)。而统计 P(W2|W1)
就不再受到数据稀疏问题的困扰了。对于我们上面提到的例子“南京市长江大桥”,如果按照自左到右的贪婪方法分词的话,结果就成了“南京市长/江大桥”。但如果按照贝叶斯分词的话(假设使用
3-gram),由于“南京市长”和“江大桥”在语料库中一起出现的频率为 0
,这个整句的概率便会被判定为 0 。
从而使得“南京市/长江大桥”这一分词方式胜出。

我们从最小描述长度(MDL)原理的分析中得出什么结论?

这两个分词,到底哪个更靠谱呢?

1.1 一个例子:自然语言的二义性

图片 14

4.1中文分词

1. 历史

这句话几乎涵盖了所有(有监督)机器学习

以上只是最大似然的一个问题,即并不能提供决策的全部信息。

P(h | D) = P(h) * P(D | h) / P(D)

1941年,香农去了贝尔实验室,在那里他从事战争事务,包括密码学。他还研究信息和通信背后的原始理论。1948年,贝尔实验室研究期刊发表了他的研究,也就是划时代的题为“通信的一个数学理论”论文。

3.4最优贝叶斯推理

4.2 统计机器翻译

即使没有一个对假设的“长度”的精确定义,我相信你肯定会认为左边的树(A)看起来更小或更短。当然,你是对的。因此,更短的假设就是,它要么自由参数更少,要么决策边界更不复杂,或者这些属性的某种组合可以表示它的简洁性。

你说,这还不简单:算出学校里面有多少穿长裤的,然后在这些人里面再算出有多少女生,不就行了?

这个概率。并找出那个使得这个概率最大的猜测单词。显然,我们的猜测未必是唯一的,就像前面举的那个自然语言的歧义性的例子一样;这里,比如用户输入:
thew ,那么他到底是想输入 the ,还是想输入 thaw
?到底哪个猜测可能性更大呢?幸运的是我们可以用贝叶斯公式来直接出它们各自的概率,我们不妨将我们的多个猜测记为
h1 h2 .. ( h 代表 hypothesis),它们都属于一个有限且离散的猜测空间 H
(单词总共就那么多而已),将用户实际输入的单词记为 D ( D 代表 Data
,即观测数据),于是

让我们进入克劳德·香农(Claude Shannon)的世界吧!

到底是The girl saw-with-a-telescope the boy这一语法结构,还是The girl
saw
the-boy-with-a-telescope呢?两种语法结构的常见程度都差不多(你可能会觉得后一种语法结构的常见程度较低,这是事后偏见,你只需想想The
girl saw the boy with a
book就知道了。当然,实际上从大规模语料统计结果来看后一种语法结构的确稍稍不常见一丁点,但是绝对不足以解释我们对第一种结构的强烈倾向)。那么到底为什么呢?

吴军在数学之美系列里面介绍的隐马可夫模型(HMM)就是一个简单的层级贝叶斯模型:

图片 15

图中有多少个箱子?特别地,那棵书后面是一个箱子?还是两个箱子?还是三个箱子?还是..你可能会觉得树后面肯定是一个箱子,但为什么不是两个呢?如下图:

我们将 P(d1,d2,..,dn|h+)  扩展为: P(d1|h+) * P(d2|d1, h+) *
P(d3|d2,d1, h+) * ..
。熟悉这个式子吗?这里我们会使用一个更激进的假设,我们假设 di 与 di-1
是完全条件无关的,于是式子就简化为 P(d1|h+) * P(d2|h+) * P(d3|h+) *
..
。这个就是所谓的条件独立假设,也正是朴素贝叶斯方法的朴素之处。而计算
P(d1|h+) * P(d2|h+) * P(d3|h+) * .. 就太简单了,只要统计 di
这个单词在垃圾邮件中出现的频率即可。关于贝叶斯垃圾邮件过滤更多的内容可以参考这个条目,注意其中提到的其他资料。

这个公式实际上告诉你,在看到数据/证据(可能性)之后更新你的信念(先验概率),并将更新后的信念程度赋予后验概率。你可以从一个信念开始,但每个数据点要么加强要么削弱这个信念,你会一直更新你的假设

6.层级贝叶斯模型

4.3 贝叶斯图像识别,Analysis by Synthesis

倒计时8**天**

问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢?”用刚才我们形式化的语言来叙述就是,我们需要求:

而究竟如何定义一个模型的编码长度,以及数据在模型下的编码长度则是一个问题。更多可参考
Mitchell 的 《Machine Learning》的 6.6 节,或 Mackay 的 28.3 节)

香农在MIT电子工程系完成的硕士论文被誉为20世纪最重要的硕士论文:在这篇论文中,22岁的香农展示了如何使用继电器和开关的电子电路实现19世纪数学家乔治布尔(George
Boole)的逻辑代数。数字计算机设计的最基本的特征——将“真”和“假”、“0”和“1”表示为打开或关闭的开关,以及使用电子逻辑门来做决策和执行算术——可以追溯到香农论文中的见解。

P(Y|X)∝P(Y)*P(X|Y)

一堆机器学习,一堆概率统计,一堆 Google ,和一堆 Wikipedia 条目,一堆
paper 。

实质上,它是错误分类(misclassication)或错误率(
error
rate)的概念。对于一个完美的假设,它是很短的,在极限情况下它为零。对于一个不能完美匹配数据的假设,它往往很长。

这里只是提供一个关于贝叶斯奥卡姆剃刀的科普,强调直观解释,更多理论公式请参考MacKay的著作
《Information Theory : Inference and Learning Algorithms》第28章。

到底是 The girl saw-with-a-telescope the boy 这一语法结构,还是 The girl
saw the-boy-with-a-telescope
呢?两种语法结构的常见程度都差不多(你可能会觉得后一种语法结构的常见程度较低,这是事后偏见,你只需想想
The girl saw the boy with a book
就知道了。当然,实际上从大规模语料统计结果来看后一种语法结构的确稍稍不常见一丁点,但是绝对不足以解释我们对第一种结构的强烈倾向)。那么到底为什么呢?

但这还不是他最伟大的成就。

托马斯·贝叶斯(Thomas
Bayes)同学的详细生平在这里。以下摘一段wikipedia上的简介:

然后我们遍历所有的对齐方式,并将每种对齐方式之下的翻译概率 ∑
求和。便可以获得整个的 P(e|f) 是多大。

自那以后,统计科学的两个派别——贝叶斯学派和频率学派(Frequentists)之间发生了许多争论。但为了回归本文的目的,让我们暂时忽略历史,集中于对贝叶斯推理的机制的简单解释。请看下面这个公式:

这个就是所谓的贝叶斯奥卡姆剃刀(Bayesian Occam’s
Razor),因为这个剃刀工作在贝叶斯公式的似然(P(D |
h))上,而不是模型本身(P(h))的先验概率上,后者是传统的奥卡姆剃刀。关于贝叶斯奥卡姆剃刀我们再来看一个前面说到的曲线拟合的例子:如果平面上有N个点,近似构成一条直线,但绝不精确地位于一条直线上。这时我们既可以用直线来拟合(模型1),也可以用二阶多项式(模型2)拟合,也可以用三阶多项式(模型3),..,特别地,用N-1阶多项式便能够保证肯定能完美通过N个数据点。那么,这些可能的模型之中到底哪个是最靠谱的呢?前面提到,一个衡量的依据是奥卡姆剃刀:越是高阶的多项式越是繁复和不常见。然而,我们其实并不需要依赖于这个先验的奥卡姆剃刀,因为有人可能会争辩说:你怎么就能说越高阶的多项式越不常见呢?我偏偏觉得所有阶多项式都是等可能的。好吧,既然如此那我们不妨就扔掉P(h)项,看看P(D
|
h)能告诉我们什么。我们注意到越是高阶的多项式,它的轨迹弯曲程度越是大,到了八九阶简直就是直上直下,于是我们不仅要问:一个比如说八阶多项式在平面上随机生成的一堆N个点偏偏恰好近似构成一条直线的概率(即P(D
|
h))有多大?太小太小了。反之,如果背后的模型是一条直线,那么根据该模型生成一堆近似构成直线的点的概率就大得多了。这就是贝叶斯奥卡姆剃刀。

问题是什么?问题是,给定一封邮件,判定它是否属于垃圾邮件。按照先例,我们还是用
D 来表示这封邮件,注意 D 由 N 个单词组成。我们用 h+ 来表示垃圾邮件,h-
表示正常邮件。问题可以形式化地描述为求:

人们总是喜欢更短的假设。

5.朴素贝叶斯方法

所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。

而这正是在贝叶斯定理中的最大后验表达式中出现的那些术语的本质!

只不过实际上我们是基本不会使用这个框架的,因为计算模型可能非常费时间,二来模型空间可能是连续的,即有无穷多个模型(这个时候需要计算模型的概率分布)。结果还是非常费时间。所以这个被看作是一个理论基准。

为了回答这个问题,一个常见的思路就是想想:非得这样吗?因为如果你想到了另一种做法并且证明了它也是靠谱的,那么将它与现在这个一比较,也许就能得出很有价值的信息。那么对于拼写纠错问题你能想到其他方案吗?

如果你用奥卡姆剃刀刮掉你的假设,你很可能会得到一个简单的模型,一个无法获得所有数据的模型。因此,你必须提供更多的数据以获得更好的一致性。另一方面,如果你创建了一个复杂的(长的)假设,你可能可以很好地处理你的训练数据,但这实际上可能不是正确的假设,因为它违背了MAP
原则,即假设熵是小的。

2.南京/市长/江大桥

如何对这个句子进行分词(词串)才是最靠谱的。例如:

Thomas Bayes

2.拼写纠正

而贝叶斯方法计算的是什么?是 P(h) * P(D | h) 。多出来了一个 P(h)
。我们刚才说了,这个多出来的 P(h)
是特定猜测的先验概率。为什么要掺和进一个先验概率?刚才说的那个最大似然不是挺好么?很雄辩地指出了
the
是更靠谱的猜测。有什么问题呢?既然这样,我们就从给最大似然找茬开始吧——我们假设两者的似然程度是一样或非常相近,这样不就难以区分哪个猜测更靠谱了吗?比如用户输入tlp
,那到底是 top 还是 tip ?(这个例子不怎么好,因为 top 和 tip
的词频可能仍然是接近的,但一时想不到好的英文单词的例子,我们不妨就假设
top 比 tip
常见许多吧,这个假设并不影响问题的本质。)这个时候,当最大似然不能作出决定性的判断时,先验概率就可以插手进来给出指示——“既然你无法决定,那么我告诉你,一般来说
top 出现的程度要高许多,所以更可能他想打的是 top ”)。

罗素说:“只要有可能,用已知实体的结构去替代未知实体的推论。”

一些认知科学的研究表明(《决策与判断》以及《Rationality for
Mortals》第12章:小孩也可以解决贝叶斯问题),我们对形式化的贝叶斯问题不擅长,但对于以频率形式呈现的等价问题却很擅长。在这里,我们不妨把问题重新叙述成:你在校园里面随机游走,遇到了N个穿长裤的人(仍然假设你无法直接观察到他们的性别),问这N个人里面有多少个女生多少个男生。

这个就是所谓的贝叶斯奥卡姆剃刀(Bayesian Occam’s
Razor)
,因为这个剃刀工作在贝叶斯公式的似然(P(D | h)
)上,而不是模型本身( P(h)
)的先验概率上,后者是传统的奥卡姆剃刀。关于贝叶斯奥卡姆剃刀我们再来看一个前面说到的曲线拟合的例子:如果平面上有
N
个点,近似构成一条直线,但绝不精确地位于一条直线上。这时我们既可以用直线来拟合(模型1),也可以用二阶多项式(模型2)拟合,也可以用三阶多项式(模型3),..
,特别地,用 N-1 阶多项式便能够保证肯定能完美通过 N
个数据点。那么,这些可能的模型之中到底哪个是最靠谱的呢?前面提到,一个衡量的依据是奥卡姆剃刀:越是高阶的多项式越是繁复和不常见。然而,我们其实并不需要依赖于这个先验的奥卡姆剃刀,因为有人可能会争辩说:你怎么就能说越高阶的多项式越不常见呢?我偏偏觉得所有阶多项式都是等可能的。好吧,既然如此那我们不妨就扔掉
P(h) 项,看看 P(D | h)
能告诉我们什么。我们注意到越是高阶的多项式,它的轨迹弯曲程度越是大,到了八九阶简直就是直上直下,于是我们不仅要问:一个比如说八阶多项式在平面上随机生成的一堆
N 个点偏偏恰好近似构成一条直线的概率(即 P(D | h)
)有多大?太小太小了。反之,如果背后的模型是一条直线,那么根据该模型生成一堆近似构成直线的点的概率就大得多了。这就是贝叶斯奥卡姆剃刀。

图片 16

其中P(h+)和P(h-)这两个先验概率都是很容易求出来的,只需要计算一个邮件库里面垃圾邮件和正常邮件的比例就行了。然而P(D|h+)却不容易求,因为D里面含有N个单词d1,
d2, d3, ..,所以P(D|h+) =
P(d1,d2,..,dn|h+)。我们又一次遇到了数据稀疏性,为什么这么说呢?P(d1,d2,..,dn|h+)就是说在垃圾邮件当中出现跟我们目前这封邮件一模一样的一封邮件的概率是多大!开玩笑,每封邮件都是不同的,世界上有无穷多封邮件。瞧,这就是数据稀疏性,因为可以肯定地说,你收集的训练数据库不管里面含了多少封邮件,也不可能找出一封跟目前这封一模一样的。结果呢?我们又该如何来计算P(d1,d2,..,dn|h+)呢?

收缩起来就是:

想想牛顿的运动定律。

现在我们可以回到那个自然语言二义性的例子,并给出一个完美的解释了:如果语法结构是The
girl saw
the-boy-with-a-telecope的话,怎么那个男孩偏偏手里拿的就是望远镜——一个可以被用来saw-with的东东捏?这也忒小概率了吧。他咋就不会拿本书呢?拿什么都好。怎么偏偏就拿了望远镜?所以唯一的解释是,这个“巧合”背后肯定有它的必然性,这个必然性就是,如果我们将语法结构解释为The
girl saw-with-a-telescope the
boy的话,就跟数据完美吻合了——既然那个女孩是用某个东西去看这个男孩的,那么这个东西是一个望远镜就完全可以解释了(不再是小概率事件了)。

图中有多少个箱子?特别地,那棵书后面是一个箱子?还是两个箱子?还是三个箱子?还是..
你可能会觉得树后面肯定是一个箱子,但为什么不是两个呢?如下图:

原标题:当贝叶斯,奥卡姆和香农一起来定义机器学习

P(B|A) = P(A|B) * P(B) / [P(A|B) * P(B) + P(A|~B) * P(~B) ]

3. 模型比较与奥卡姆剃刀

来源:towardsdatascience

这个式子的右端很容易解释:那些先验概率较高,并且更可能生成句子e的外文句子f将会胜出。我们只需简单统计(结合上面提到的N-Gram语言模型)就可以统计任意一个外文句子f的出现概率。然而P(e|f)却不是那么好求的,给定一个候选的外文局子f,它生成(或对应)句子e的概率是多大呢?我们需要定义什么叫
“对应”,这里需要用到一个分词对齐的平行语料库,有兴趣的可以参考
《Foundations of Statistical Natural Language
Processing》第13章,这里摘选其中的一个例子:假设e为:John loves
Mary。我们需要考察的首选f是:Jean aime
Marie(法文)。我们需要求出P(e|f)是多大,为此我们考虑e和f有多少种对齐的可能性,如:

P(h | D) ∝ P(h) * P(D | h)

  • 线性模型的模型复杂度——选择多项式的程度,如何减少平方和残差。
  • 神经网络架构的选择——如何不公开训练数据,达到良好的验证精度,并且减少分类错误。
  • 支持向量机正则化和kernel选择——软边界与硬边界之间的平衡,即用决策边界非线性来平衡精度

就是其中的一种(最靠谱的)对齐,为什么要对齐,是因为一旦对齐了之后,就可以容易地计算在这个对齐之下的P(e|f)是多大,只需计算:

难怪拉普拉斯说概率论只是把常识用数学公式表达了出来

4.2统计机器翻译

参考资料

如果要描述克劳德·香农的天才和奇特的一生,长篇大论也说不完。香农几乎是单枪匹马地奠定了信息论的基础,引领我们进入了现代高速通信和信息交流的时代。

其实这个就等于:

对于不同的具体猜测 h1 h2 h3 .. ,P(D) 都是一样的,所以在比较 P(h1 | D)
和 P(h2 | D) 的时候我们可以忽略这个常数。即我们只需要知道:

其他杰出人物响应了类似的原则。

P(f|e)∝P(f) * P(e|f)

P(B|A) * P(A) = P(AB)

这就是知识表示和领域专业知识变得无比重要的地方。它使(通常)无限大的假设空间变小,并引导我们走向一组高度可能的假设,我们可以对其进行最优编码,并努力找到其中的一组MAP假设。

以下我们再举一些实际例子来说明贝叶斯方法被运用的普遍性,这里主要集中在机器学习方面,因为我不是学经济的,否则还可以找到一堆经济学的例子。

下面的事情就很简单了,对于我们猜测为可能的每个单词计算一下 P(h) * P(D |
h) 这个值,然后取最大的,得到的就是最靠谱的猜测。

相关文章

网站地图xml地图