贝叶斯网络
七月算法 邹博
2015年4月12日
复习:换个角度看对偶
给定M个整数和某定值s,要求从M个数中选择若干个数(同一个整数不能多次选择),使得被选中的数的和为s。输出满足条件的选择数目。
如:从1、2、3、4、5、6、7、8、9中选择若干数,使得它们的和为40。
对偶图:Voronoi图和Delaunay剖分
Delaunay三角剖分
K近邻图的有趣结论
K近邻图中,结点的度至少是K
K互近邻图中,结点的度至多是K
相对熵
相对熵,又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等
设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是
说明:
相对熵可以度量两个随机变量的“距离”
一般的,D(p||q) ≠D(q||p)
D(p||q)≥0、 D(q||p) ≥0
提示:凸函数中的Jensen不等式
相对熵的应用思考
假定已知随机变量P,求相对简单的随机变量Q,使得Q尽量接近P
方法:使用P和Q的K-L距离。
难点:K-L距离是非对称的,两个随机变量应该谁在前谁在后呢?
假定使用KL(Q||P),为了让距离最小,则要求在P为0的地方,Q尽量为0。会得到比较“窄”的分布曲线;
假定使用KL(P||Q),为了让距离最小,则要求在P不为0的地方,Q也尽量不为0。会得到比较“宽”的分布曲线;
复习:互信息
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
I(X,Y)=D(P(X,Y) || P(X)P(Y))
复习:信息增益
信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。
定义:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:
g(D,A)=H(D) – H(D|A)
显然,这即为训练数据集D和特征A的互信息。
主要内容和目标
掌握朴素贝叶斯分类的原理和具体步骤
掌握概率图模型PGM的思想
理解贝叶斯网络
链式网络
树形网络
因子图
非树形网络转换成树形网络的思路
Summary-Product算法
了解马尔科夫模型、隐马尔科夫模型的网络拓扑和含义
概率
条件概率:
全概率公式:
贝叶斯(Bayes)公式:
贝叶斯公式的应用
8支步枪中有5支已校准过,3支未校准。一名射手用
网络/随机/距离/概率/分布/贝叶斯/选择/条件/假定/变量/
网络/随机/距离/概率/分布/贝叶斯/选择/条件/假定/变量/
-->