ML概率相关的几个名词
概率中的各种概率名词,统一整理。
先验概率: 事件X发生的概率P(X)叫做先验概率。一般通过统计获得
条件概率: 事件X在条件Y的情况下发生的概率P(X | Y)叫做条件Y下X的条件概率,又叫似然概率,一般通过统计获得 |
后验概率: 事件X发生的条件下Y发生的概率P(Y | X)叫做X的后验概率。事件发生后求的反向条件概率 |
贝叶斯公式:
P(X | Y) = P(X,Y)/P(Y) |
P(Y | X) = P(X,Y)/P(X) |
P(Y | X) = P(X | Y)P(Y)/P(X) |
贝叶斯决策: 若Y是Y样本X的分类标签,P(Y | X)最大的类别作为判别结果。P(Y | X)=P(X | Y)P(Y)/P(X) |
一般的,先验概率可以通过统计得到。条件概率P(X | Y)由于条件组合多,一般无法使用统计获取。解决的办法就是,把估计完全未知的条件概率分布转化为估计参数。这里就将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法。 |
最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
对于函数:P(x | θ) |
输入有两个:x表示某一个具体的数据;θ表示模型的参数。
如果θ是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。
如果xx是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。
最大似然估计(MLE)
给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参,即“模型已定,参数未知”。例如,我们知道这个分布是正态分布,但是不知道均值和方差;MLE的目标是找出一组参数,使得模型产生出观测数据的概率最大:
其中$p(X;\mu)$叫做似然函数,表示在参数$\mu$下出现观测数据的概率.
为了计算方便,一般取对数似然:
对对数似然函数求导,使得导数为0,求出参数$\mu$
最大后验概率估计(MAP)
最大似然估计是求参数$\mu$, 使似然函数$p(X;\mu)$最大。最大后验概率估计则是想求$\mu$使$ p(X | \mu)p(\mu) $最大。求得的$\mu$不单单让似然函数大,$\mu$自己出现的先验概率也得大。 |
实际上,最大后验概率是求$p(\mu | X)=\frac{p(X | \mu)p(\mu)} {p(X)} $最大,由于$p(x)$是常数,因此最大后验概率估计在于求$ p(X | \mu)p(\mu) $最大。 |
随着我们观测到越来越多的数据,MAP估计逐步逼近MLE。当我们观测到的数据越来越多的时候,我们从数据中获取的信息的置信度是越高的。
贝叶斯参数估计
在估计参数之前对参数已经有了了解称为参数的先验知识。贝叶斯估计即在估计过程中将先验知识也考虑了进去。先验知识可以是一个具体的值,也可以是取值范围(函数)。实际应用中,通常会将参数的先验知识视作一个分布。
贝叶斯估计的目的是结合参数的先验知识,使得估计出来的参数能令贝叶斯风险达到最小。简单说就是最小化贝叶斯风险。
贝叶斯风险是风险函数在θ上的期望
评论