机器学习笔记之贝叶斯线性回归(三)预测任务推导过程
创始人
2024-02-21 02:34:46
0

机器学习笔记之贝叶斯线性回归——预测任务推导过程

  • 引言
    • 回顾:贝叶斯线性回归——推断任务
    • 预测任务
    • 贝叶斯线性回归小结

引言

上一节介绍了贝叶斯线性回归推断任务的推导过程,本节将介绍预测任务(Prediction)的推导过程

回顾:贝叶斯线性回归——推断任务

通过贝叶斯定理,关于后验分布P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)的推断结果表示如下:
P(W∣X)\mathcal P(\mathcal W \mid \mathcal X)P(W∣X)表示关于模型参数W\mathcal WW的先验概率,与X\mathcal XX无关,因而省略。
P(W∣Data)=P(Y∣W,X)⋅P(W∣X)P(Y∣X)∝P(Y∣W,X)⋅P(W)\begin{aligned} \mathcal P(\mathcal W \mid Data) & = \frac{\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W \mid \mathcal X)}{\mathcal P(\mathcal Y \mid \mathcal X)} \\ & \propto \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) \end{aligned}P(W∣Data)​=P(Y∣X)P(Y∣W,X)⋅P(W∣X)​∝P(Y∣W,X)⋅P(W)​
其中,根据线性回归模型,得知似然P(Y∣W,X)\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X)P(Y∣W,X)服从均值为000,方差为σ2\sigma^2σ2的一维高斯分布
该高斯分布维度和标签y(i)(i=1,2,⋯,N)\mathcal y^{(i)}(i=1,2,\cdots,N)y(i)(i=1,2,⋯,N)的维度相同
需要注意的点:这个高斯分布是关于Y\mathcal YY的条概率分布。
P(Y∣W,X)∼N(Y∣WTX+μ,σ2)μ=0\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \sim \mathcal N(\mathcal Y \mid \mathcal W^T\mathcal X + \mu,\sigma^2) \quad \mu = 0P(Y∣W,X)∼N(Y∣WTX+μ,σ2)μ=0
P(W)\mathcal P(\mathcal W)P(W)是模型参数W\mathcal WW的先验概率分布,这里假设P(W)\mathcal P(\mathcal W)P(W)服从均值为0,协方差为Σprior\Sigma_{prior}Σprior​的高斯分布:
同上,这里的高斯分布是ppp维高斯分布,和W\mathcal WW的维度相同。
P(W)∼N(0,Σprior)\mathcal P(\mathcal W) \sim \mathcal N(0,\Sigma_{prior})P(W)∼N(0,Σprior​)
因而基于高斯分布的自共轭性质,后验分布P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)同样服从高斯分布。这里定义P(W∣Data)∼N(μW,ΣW)\mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W})P(W∣Data)∼N(μW​,ΣW​)并表示如下:
详见指数族分布介绍中的指数族分布共轭性质。
P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)也可以写成P(W∣X,Y)\mathcal P(\mathcal W \mid \mathcal X,\mathcal Y)P(W∣X,Y).
N(μW,ΣW)∝N(WTX,σ2)⋅N(0,Σprior)\mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \propto \mathcal N(\mathcal W^T\mathcal X,\sigma^2) \cdot \mathcal N(0,\Sigma_{prior})N(μW​,ΣW​)∝N(WTX,σ2)⋅N(0,Σprior​)
通过推断,得到μW,ΣW\mu_{\mathcal W},\Sigma_{\mathcal W}μW​,ΣW​表示如下:
{μW=1σ2(A−1XY)ΣW=A−1A=[1σ2XTX+Σprior−1]p×p\begin{cases} \mu_{\mathcal W} = \frac{1}{\sigma^2}\left(\mathcal A^{-1} \mathcal X\mathcal Y \right) \\ \Sigma_{\mathcal W} = \mathcal A^{-1} \\ \mathcal A = \left[\frac{1}{\sigma^2}\mathcal X^T\mathcal X + \Sigma_{prior}^{-1}\right]_{p \times p} \end{cases}⎩⎪⎨⎪⎧​μW​=σ21​(A−1XY)ΣW​=A−1A=[σ21​XTX+Σprior−1​]p×p​​

预测任务

贝叶斯方法中,求解模型参数的概率分布只是一个中间步骤,最终目标是基于W\mathcal WW概率分布P(W∣X,Y)\mathcal P(\mathcal W \mid \mathcal X,\mathcal Y)P(W∣X,Y),给定 未知样本x^\hat xx^,对它的 标签y^\hat yy^​ 进行预测
观察一下,P(W∣X,Y)\mathcal P(\mathcal W \mid \mathcal X,\mathcal Y)P(W∣X,Y)已求解的条件下,未知样本x^\hat xx^标签的预测过程:

  • 基于线性回归模型
    这里xxx是’单个样本‘的宏观表示,yyy是单个标签的宏观表示。
    {f(x)=WTx=xTW=∑i=1pwi⋅xiy=f(x)+ϵϵ∼N(0,σ2)\begin{cases} f(\mathcal x) = \mathcal W^Tx = x^T\mathcal W = \sum_{i=1}^p w_i \cdot x_i\\ y = f(x) + \epsilon \quad \epsilon \sim \mathcal N(0,\sigma^2) \end{cases}{f(x)=WTx=xTW=∑i=1p​wi​⋅xi​y=f(x)+ϵϵ∼N(0,σ2)​
    其中这里的W\mathcal WW表示W\mathcal WW的后验概率分布P(W∣X,Y)\mathcal P(\mathcal W \mid \mathcal X,\mathcal Y)P(W∣X,Y),是已经通过数据结合DataDataData学习好了的参数。
  • 未知样本x^\hat xx^看做一个不含概率分布的向量,因而x^TW{\hat x}^T \mathcal Wx^TW的概率分布表示如下:
    x^TW{\hat x}^T \mathcal Wx^TW这种表示相当于给W\mathcal WW乘了一个系数,相当于x^TW{\hat x}^T \mathcal Wx^TWW\mathcal WW之间存在线性关系。根据高斯分布的相关定理介绍,有:(常数B\mathcal BB的方差是0)
    Y=AX+B→{μY=EP(Y)[Y]=AEP(X)[X]+B=Aμ+BΣY=Var(Y)=Var(AX)=AΣAT\mathcal Y = \mathcal A \mathcal X + \mathcal B \to \begin{cases} \mu_{\mathcal Y} = \mathbb E_{\mathcal P(\mathcal Y)}[\mathcal Y] = \mathcal A \mathbb E_{\mathcal P(\mathcal X)}[\mathcal X] + \mathcal B = \mathcal A \mu + \mathcal B \\ \Sigma_{\mathcal Y} = \text{Var}(\mathcal Y) = \text{Var}(\mathcal A\mathcal X) = \mathcal A\Sigma\mathcal A^T \end{cases}Y=AX+B→{μY​=EP(Y)​[Y]=AEP(X)​[X]+B=Aμ+BΣY​=Var(Y)=Var(AX)=AΣAT​
    这里将x^T{\hat x}^Tx^T看作A;B=0\mathcal A;\mathcal B = 0A;B=0:
    由于[x^T]1×p[W]p×1[{\hat x}^T]_{1 \times p}[\mathcal W]_{p \times 1}[x^T]1×p​[W]p×1​本身是一个实数(一维向量),因而对应分布同样是一维高斯分布。该分布仅仅是’无高斯分布噪声‘(noise-free)的分布结果。
    x^TW∼N(x^TμW,x^T⋅ΣW⋅x^)\begin{aligned} {\hat x}^T \mathcal W & \sim \mathcal N({\hat x}^T\mu_{\mathcal W},{\hat x}^T \cdot \Sigma_{\mathcal W}\cdot {\hat x}) \end{aligned}x^TW​∼N(x^TμW​,x^T⋅ΣW​⋅x^)​
  • x^\hat xx^对应标签y^\hat yy^​的概率分布表示如下:
    y^=x^TW+ϵϵ∼N(0,σ2)P(y^∣Data,x^)∼N(x^TμW,x^T⋅ΣW⋅x^)+N(0,σ2)=N(x^TμW,x^T⋅ΣW⋅x^+σ2)\begin{aligned} & \hat y = {\hat x}^T\mathcal W + \epsilon \quad \epsilon \sim \mathcal N(0,\sigma^2) \\ & \begin{aligned} \mathcal P(\hat y \mid Data,\hat x) & \sim \mathcal N({\hat x}^T\mu_{\mathcal W},{\hat x}^T \cdot \Sigma_{\mathcal W}\cdot {\hat x}) + \mathcal N(0,\sigma^2) \\ & = \mathcal N({\hat x}^T\mu_{\mathcal W},{\hat x}^T \cdot \Sigma_{\mathcal W}\cdot {\hat x} + \sigma^2) \end{aligned} \end{aligned}​y^​=x^TW+ϵϵ∼N(0,σ2)P(y^​∣Data,x^)​∼N(x^TμW​,x^T⋅ΣW​⋅x^)+N(0,σ2)=N(x^TμW​,x^T⋅ΣW​⋅x^+σ2)​​
    至此,关于样本x^\hat xx^的预测标签y^\hat yy^​的概率分布求解完毕。

贝叶斯线性回归小结

使用贝叶斯方法求解线性回归,它主要分为两大步骤:

  • 模型参数W\mathcal WW的推断过程。即基于数据集合DataDataData,求解W\mathcal WW的后验概率分布(Psoterior):
    这里先验概率分布P(W)\mathcal P(\mathcal W)P(W)给定一个均值为0的高斯分布。
    P(W∣Data)∝P(Y∣W,X)⋅P(W)∼N(μW,ΣW)\begin{aligned} \mathcal P(\mathcal W \mid Data) & \propto \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) \\ & \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \end{aligned}P(W∣Data)​∝P(Y∣W,X)⋅P(W)∼N(μW​,ΣW​)​
  • 基于已求解的关于W\mathcal WW的后验分布,给定未知样本x^\hat xx^,对标签y^\hat yy^​的概率分布进行预测:
    将训练好的(已求解的)W\mathcal WW带入x^\hat xx^进行预测。
    P(y^∣Data,x^)=∫W∣DataP(W∣Data)⋅P(y^∣W,Data,x^)dW=EW∣Data[P(y^∣W,Data,x^)]\begin{aligned} \mathcal P(\hat y \mid Data,\hat x) & = \int_{\mathcal W \mid Data} \mathcal P(\mathcal W \mid Data) \cdot \mathcal P(\hat y \mid \mathcal W,Data,\hat x) d\mathcal W \\ & = \mathbb E_{\mathcal W \mid Data} \left[P(\hat y \mid \mathcal W,Data,\hat x)\right] \end{aligned}P(y^​∣Data,x^)​=∫W∣Data​P(W∣Data)⋅P(y^​∣W,Data,x^)dW=EW∣Data​[P(y^​∣W,Data,x^)]​

至此,贝叶斯线性回归介绍结束。

相关参考:
机器学习-贝叶斯线性回归(4)-推导Prediction
机器学习-贝叶斯线性回归(4)-小结

上一篇:RS232和RS485

下一篇:zabbix基础环境部署

相关内容

热门资讯

喜欢穿一身黑的男生性格(喜欢穿... 今天百科达人给各位分享喜欢穿一身黑的男生性格的知识,其中也会对喜欢穿一身黑衣服的男人人好相处吗进行解...
发春是什么意思(思春和发春是什... 本篇文章极速百科给大家谈谈发春是什么意思,以及思春和发春是什么意思对应的知识点,希望对各位有所帮助,...
网络用语zl是什么意思(zl是... 今天给各位分享网络用语zl是什么意思的知识,其中也会对zl是啥意思是什么网络用语进行解释,如果能碰巧...
为什么酷狗音乐自己唱的歌不能下... 本篇文章极速百科小编给大家谈谈为什么酷狗音乐自己唱的歌不能下载到本地?,以及为什么酷狗下载的歌曲不是...
家里可以做假山养金鱼吗(假山能... 今天百科达人给各位分享家里可以做假山养金鱼吗的知识,其中也会对假山能放鱼缸里吗进行解释,如果能碰巧解...
华为下载未安装的文件去哪找(华... 今天百科达人给各位分享华为下载未安装的文件去哪找的知识,其中也会对华为下载未安装的文件去哪找到进行解...
四分五裂是什么生肖什么动物(四... 本篇文章极速百科小编给大家谈谈四分五裂是什么生肖什么动物,以及四分五裂打一生肖是什么对应的知识点,希...
怎么往应用助手里添加应用(应用... 今天百科达人给各位分享怎么往应用助手里添加应用的知识,其中也会对应用助手怎么添加微信进行解释,如果能...
苏州离哪个飞机场近(苏州离哪个... 本篇文章极速百科小编给大家谈谈苏州离哪个飞机场近,以及苏州离哪个飞机场近点对应的知识点,希望对各位有...
客厅放八骏马摆件可以吗(家里摆... 今天给各位分享客厅放八骏马摆件可以吗的知识,其中也会对家里摆八骏马摆件好吗进行解释,如果能碰巧解决你...