机器学习笔记之贝叶斯线性回归(一)线性回归背景介绍
创始人
2024-02-17 23:51:19
0

机器学习笔记之贝叶斯线性回归——线性回归背景介绍

  • 引言
    • 回顾:线性回归
      • 场景构建
      • 从概率密度函数认识最小二乘法
      • 回顾:最小二乘估计
      • 回顾:线性回归与正则化
      • 关于线性回归的简单小结
    • 贝叶斯线性回归
      • 贝叶斯方法
      • 贝叶斯方法在线性回归中的任务
      • 贝叶斯线性回归推断任务介绍

引言

本节开始,介绍贝叶斯线性回归(Bayesian Linear Regression)。

回顾:线性回归

场景构建

给定数据集合Data={(x(i),y(i))}i=1N\mathcal Data = \left\{\left(x^{(i)},y^{(i)}\right)\right\}_{i=1}^NData={(x(i),y(i))}i=1N​,其中样本x(i)(1=1,2,⋯,N)x^{(i)}(1 = 1,2,\cdots,N)x(i)(1=1,2,⋯,N)是ppp维随机变量,对应的标签信息y(i)y^{(i)}y(i)是一维随机变量:
x(i)∈Rp,y(i)∈Ri=1,2,⋯,NX=(x(1),x(2),⋯,x(N))T=(x1(1),x2(1),⋯,xp(1)x1(2),x2(2),⋯,xp(2)⋮x1(N),x2(N),⋯,xp(N))N×pY=(y(1)y(2)⋮yN×1(N))\begin{aligned} x^{(i)} & \in \mathbb R^p,y^{(i)} \in \mathbb R \quad i=1,2,\cdots,N \\ \mathcal X & = \left(x^{(1)},x^{(2)},\cdots,x^{(N)}\right)^T = \begin{pmatrix} x_1^{(1)},x_2^{(1)},\cdots,x_p^{(1)} \\ x_1^{(2)},x_2^{(2)},\cdots,x_p^{(2)} \\ \vdots \\ x_1^{(N)},x_2^{(N)},\cdots,x_p^{(N)} \\ \end{pmatrix}_{N \times p} \quad \mathcal Y = \begin{pmatrix} y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(N)}_{N \times 1} \end{pmatrix} \end{aligned}x(i)X​∈Rp,y(i)∈Ri=1,2,⋯,N=(x(1),x(2),⋯,x(N))T=⎝⎜⎜⎜⎜⎛​x1(1)​,x2(1)​,⋯,xp(1)​x1(2)​,x2(2)​,⋯,xp(2)​⋮x1(N)​,x2(N)​,⋯,xp(N)​​⎠⎟⎟⎟⎟⎞​N×p​Y=⎝⎜⎜⎜⎛​y(1)y(2)⋮yN×1(N)​​⎠⎟⎟⎟⎞​​

从概率密度函数认识最小二乘法

给定数据集合DataDataData以及相应拟合直线表示如下:
线性回归——示例
其中直线的表达式为:
这里‘偏置信息’bbb忽略掉,xi(i=1,2,⋯,p)x_i(i=1,2,\cdots,p)xi​(i=1,2,⋯,p)表示样本的第iii维特征信息。
f(X)=WTX=XTW=∑i=1pwi⋅xif(\mathcal X) = \mathcal W^T \mathcal X = \mathcal X^T \mathcal W = \sum_{i=1}^p w_i \cdot x_if(X)=WTX=XTW=i=1∑p​wi​⋅xi​
从概率密度函数角度观察,标签分布可看作是f(x)f(x)f(x)的基础加上均值为0的高斯分布噪声
X\mathcal XX是包含ppp维特征的随机变量集合;Y\mathcal YY是一个一维随机变量;ϵ\epsilonϵ表示一维高斯分布(它和Y\mathcal YY的维数相同)。
Y=f(X)+ϵX∈Rp,Y∈R,ϵ∼N(0,σ2)\mathcal Y = f(\mathcal X) + \epsilon \quad \mathcal X \in \mathbb R^p,\mathcal Y \in \mathbb R,\epsilon \sim \mathcal N(0,\sigma^2)Y=f(X)+ϵX∈Rp,Y∈R,ϵ∼N(0,σ2)

回顾:最小二乘估计

关于线性回归问题求解模型参数W\mathcal WW时,使用的是最小二乘估计(Least Square Estimation,LSE):
L(W)=∑i=1N∣∣WTx(i)−y(i)∣∣2\mathcal L(\mathcal W) = \sum_{i=1}^N ||\mathcal W^Tx^{(i)} - y^{(i)}||^2L(W)=i=1∑N​∣∣WTx(i)−y(i)∣∣2
并且通过最小二乘估计,求解模型参数W\mathcal WW的矩阵形式表达
矩阵表达的弊端

  • XTX\mathcal X^T\mathcal XXTX是一个p×pp \times pp×p的对称矩阵,它至少是半正定矩阵,但不一定是正定矩阵。从而导致(XTX)−1(\mathcal X^T\mathcal X)^{-1}(XTX)−1可能是不可求的。
  • 由于X\mathcal XX是样本集合,如果X\mathcal XX的样本量较大,会导致XTX\mathcal X^T\mathcal XXTX的计算代价极高。
    W=(XTX)−1XTY\mathcal W = (\mathcal X^T \mathcal X)^{-1} \mathcal X^T \mathcal YW=(XTX)−1XTY

从概率密度函数角度观察,最小二乘估计本质是极大似然估计(Maximum Likelihood Estimate,MLE)
给定样本x(i)x^{(i)}x(i)和对应标签y(i)y^{(i)}y(i)之间的关联关系,可以得到P(y(i)∣x(i))\mathcal P(y^{(i)} \mid x^{(i)})P(y(i)∣x(i))的概率分布:
这里先将μ\muμ写在上面。
y(i)=WTx(i)+ϵϵ∼N(μ,σ2)→P(y(i)∣x(i);W)∼N(WTx(i)+μ,σ2)\begin{aligned} & y^{(i)} = \mathcal W^Tx^{(i)} + \epsilon \quad \epsilon \sim \mathcal N(\mu,\sigma^2) \\ & \to \mathcal P(y^{(i)} \mid x^{(i)};\mathcal W) \sim \mathcal N(\mathcal W^Tx^{(i)} + \mu,\sigma^2) \end{aligned}​y(i)=WTx(i)+ϵϵ∼N(μ,σ2)→P(y(i)∣x(i);W)∼N(WTx(i)+μ,σ2)​
似然函数L(W)\mathcal L(\mathcal W)L(W)进行构建:
将高斯分布的概率密度函数带入~
L(W)=log⁡∏i=1NP(y(i)∣x(i);W)=∑i=1Nlog⁡[1σ2πexp⁡(−[y(i)−(WTx(i)+μ)]22σ2)]\begin{aligned} \mathcal L(\mathcal W) & = \log \prod_{i=1}^N \mathcal P(y^{(i)} \mid x^{(i)};\mathcal W) \\ & = \sum_{i=1}^N \log \left[\frac{1}{\sigma \sqrt{2 \pi}} \exp \left(- \frac{[y^{(i)} - \left(\mathcal W^Tx^{(i)} + \mu\right)]^2}{2\sigma^2}\right)\right] \end{aligned}L(W)​=logi=1∏N​P(y(i)∣x(i);W)=i=1∑N​log[σ2π​1​exp(−2σ2[y(i)−(WTx(i)+μ)]2​)]​
使用极大似然估计对最优模型参数W^\hat {\mathcal W}W^进行计算:
其中∑i=1Nlog⁡1σ2π,12σ2\sum_{i=1}^N \log \frac{1}{\sigma \sqrt{2\pi}},\frac{1}{2\sigma^2}∑i=1N​logσ2π​1​,2σ21​均是与x(i)x^{(i)}x(i)无关的量,视作常数。
W^=arg⁡max⁡WL(W)=arg⁡max⁡W{∑i=1Nlog⁡[1σ2πexp⁡(−[y(i)−(WTx(i)+μ)]22σ2)]}=arg⁡max⁡W{∑i=1Nlog⁡1σ2π−∑i=1N[y(i)−(WTx(i)+μ)]22σ2}∝arg⁡min⁡W∑i=1N[y(i)−(WTx(i)+μ)]2μ=0→arg⁡min⁡W∑i=1N[y(i)−WTx(i)]2\begin{aligned} \hat {\mathcal W} & = \mathop{\arg\max}\limits_{\mathcal W} \mathcal L(\mathcal W) \\ & = \mathop{\arg\max}\limits_{\mathcal W}\left\{\sum_{i=1}^N \log \left[\frac{1}{\sigma \sqrt{2 \pi}} \exp \left(- \frac{[y^{(i)} - \left(\mathcal W^Tx^{(i)} + \mu\right)]^2}{2\sigma^2}\right)\right]\right\} \\ & = \mathop{\arg\max}\limits_{\mathcal W}\left\{\sum_{i=1}^N \log \frac{1}{\sigma\sqrt{2\pi}} - \sum_{i=1}^N\frac{[y^{(i)} - \left(\mathcal W^T x^{(i)} + \mu\right)]^2}{2\sigma^2}\right\} \\ & \propto \mathop{\arg\min}\limits_{\mathcal W}\sum_{i=1}^N \left[y^{(i)} - \left(\mathcal W^Tx^{(i)} + \mu\right)\right]^2 \\ \quad & \mu = 0 \to \mathop{\arg\min}\limits_{\mathcal W} \sum_ {i=1}^N \left[y^{(i)} - \mathcal W^Tx^{(i)}\right]^2 \end{aligned}W^​=Wargmax​L(W)=Wargmax​{i=1∑N​log[σ2π​1​exp(−2σ2[y(i)−(WTx(i)+μ)]2​)]}=Wargmax​{i=1∑N​logσ2π​1​−i=1∑N​2σ2[y(i)−(WTx(i)+μ)]2​}∝Wargmin​i=1∑N​[y(i)−(WTx(i)+μ)]2μ=0→Wargmin​i=1∑N​[y(i)−WTx(i)]2​
这里令μ=0\mu=0μ=0关于极大似然估计关于W^\hat{\mathcal W}W^的求解公式与最小二乘估计相同

回顾:线性回归与正则化

针对最小二乘估计的过拟合 问题,引入正则化(Regularized)。常见的正则化有两种方式:

  • Lasso回归(L1\mathcal L_1L1​正则化)
    arg⁡min⁡W[∑i=1N∣∣WTx(i)−y(i)∣∣2+λ∣∣W∣∣1]∣∣W∣∣1=∣w1∣+⋯+∣wp∣\mathop{\arg\min}\limits_{\mathcal W} \left[\sum_{i=1}^N ||\mathcal W^Tx^{(i)} - y^{(i)}||^2 + \lambda ||\mathcal W||_1\right] \quad ||\mathcal W||_1 = |w_1| + \cdots + |w_p|Wargmin​[i=1∑N​∣∣WTx(i)−y(i)∣∣2+λ∣∣W∣∣1​]∣∣W∣∣1​=∣w1​∣+⋯+∣wp​∣
  • 岭回归(Ridge回归;L2\mathcal L_2L2​正则化)
    arg⁡min⁡W[∑i=1N∣∣WTx(i)−y(i)∣∣2+λ∣∣W∣∣22]∣∣W∣∣22=∣w1∣2+⋅+∣wp∣2\mathop{\arg\min}\limits_{\mathcal W} \left[\sum_{i=1}^N ||\mathcal W^Tx^{(i)} - y^{(i)}||^2 + \lambda ||\mathcal W||_2^2\right] \quad ||\mathcal W||_2^2 = \sqrt{|w_1|^2 + \cdot + |w_p|^2}Wargmin​[i=1∑N​∣∣WTx(i)−y(i)∣∣2+λ∣∣W∣∣22​]∣∣W∣∣22​=∣w1​∣2+⋅+∣wp​∣2

从概率密度函数角度考虑基于正则化的最小二乘估计,可将其视作关于W\mathcal WW的最大后验概率估计(Maximum a Posteriori Probability,MAP):
W^MAP=arg⁡max⁡WP(Y∣W)⋅P(W)P(Y)∝arg⁡max⁡WP(Y∣W)⋅P(W)\begin{aligned} \hat {\mathcal W}_{MAP} & = \mathop{\arg\max}\limits_{\mathcal W} \frac{\mathcal P(\mathcal Y \mid \mathcal W) \cdot \mathcal P(\mathcal W)}{\mathcal P(\mathcal Y)} \\ & \propto \mathop{\arg\max}\limits_{\mathcal W} P(\mathcal Y \mid \mathcal W) \cdot \mathcal P(\mathcal W) \\ \end{aligned}W^MAP​​=Wargmax​P(Y)P(Y∣W)⋅P(W)​∝Wargmax​P(Y∣W)⋅P(W)​
由于样本间独立同分布,因而有:
增加一个log⁡\loglog函数,不影响最值的取值结果。
W^MAP∝arg⁡max⁡W[log⁡∏i=1NP(y(i)∣W)⋅P(W)]\hat {\mathcal W}_{MAP} \propto \mathop{\arg\max}\limits_{\mathcal W} \left[\log \prod_{i=1}^N \mathcal P(y^{(i)} \mid \mathcal W) \cdot \mathcal P(\mathcal W)\right]W^MAP​∝Wargmax​[logi=1∏N​P(y(i)∣W)⋅P(W)]
先验分布P(W)∼N(μ0,σ02)\mathcal P(\mathcal W) \sim \mathcal N(\mu_0 ,\sigma_0^2)P(W)∼N(μ0​,σ02​),将P(Y∣W)∼N(WTX,σ2)\mathcal P(\mathcal Y \mid \mathcal W) \sim \mathcal N(\mathcal W^T \mathcal X,\sigma^2)P(Y∣W)∼N(WTX,σ2)一同代入上式,有:
这里既包含对W\mathcal WW分布的假设。也包含关于高斯噪声Y∣W\mathcal Y \mid \mathcal WY∣W的假设。该假设完全写法是Y∣X;W\mathcal Y \mid \mathcal X;\mathcal WY∣X;W只不过这里X\mathcal XX是已知量,省略掉了。
W^MAP=arg⁡min⁡W∑i=1N[(y(i)−WTx(i))2+σ2σ02(W−μ0)2]\hat {\mathcal W}_{MAP} = \mathop{\arg\min}\limits_{\mathcal W} \sum_{i=1}^N \left[\left(y^{(i)} - \mathcal W^T x^{(i)}\right)^2 + \frac{\sigma^2}{\sigma_0^2}(\mathcal W - \mu_0)^2\right]W^MAP​=Wargmin​i=1∑N​[(y(i)−WTx(i))2+σ02​σ2​(W−μ0​)2]
令λ=σ2σ02,μ0=0\lambda = \frac{\sigma^2}{\sigma_0^2},\mu_0 = 0λ=σ02​σ2​,μ0​=0时,上式将转化为:
W^MAP=arg⁡min⁡W∑i=1N[(y(i)−WTx(i))2+λ∣∣W∣∣22]\hat {\mathcal W}_{MAP} = \mathop{\arg\min}\limits_{\mathcal W} \sum_{i=1}^N \left[\left(y^{(i)} - \mathcal W^T x^{(i)}\right)^2 + \lambda ||\mathcal W||_2^2\right]W^MAP​=Wargmin​i=1∑N​[(y(i)−WTx(i))2+λ∣∣W∣∣22​]
上述是关于岭回归W\mathcal WW分布的假设,如果是Lasso回归,将W\mathcal WW分布假设为拉普拉斯分布(Laplace Distribution)。

关于线性回归的简单小结

无论是最小二乘估计还是包含了正则化的最小二乘估计,其本质均是频率派的求解方式,将模型参数W\mathcal WW视作未知常量,通过极大似然估计最大后验概率估计等方式对W\mathcal WW进行优化,从而使目标函数达到最值
本质上是‘优化问题’。

并且这种估计方式是点估计(Point Estimation),由于概率模型能够源源不断的生成样本,理论上无法完美地、精确描述概率模型的分布信息,只能通过有限的样本集合来估计模型参数
也就是说,使用‘统计得到的样本集合’估计总体参数。
假设某概率模型服从高斯分布:N(μ,σ2)\mathcal N(\mu,\sigma^2)N(μ,σ2),这里的μ,σ2\mu,\sigma^2μ,σ2是描述概率分布的参数,是固定的。但是该概率模型可以生成无穷无尽的样本,假设某样本集合X={x(1),x(2),⋯,x(N)}\mathcal X =\left\{x^{(1)},x^{(2)},\cdots ,x^{(N)}\right\}X={x(1),x(2),⋯,x(N)}是生成出的一部分样本,我们通过统计的方式得到该样本的均值、方差μX,σX2\mu_{\mathcal X},\sigma_{\mathcal X}^2μX​,σX2​去估计真正的参数μ,σ2\mu,\sigma^2μ,σ2。

贝叶斯线性回归

区别于频率派点估计方式,贝叶斯派使用的是贝叶斯估计(Bayesian Estimation)。此时的参数W\mathcal WW不再是一个未知的常量,而是一个随机变量

对于W\mathcal WW的估计过程中,需要通过给定数据估计出W\mathcal WW的后验概率分布P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)。

贝叶斯方法

在变分推断——基本介绍中介绍过贝叶斯学派角度认识问题。其核心是:不同于频率派将模型参数W\mathcal WW看作未知的常量,而是将W\mathcal WW看作随机变量,从而求解W\mathcal WW的后验概率分布P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data),基于该分布,对新样本进行预测:
令新样本为x^\hat xx^,预测任务可表示为P(x^∣Data)\mathcal P(\hat x \mid Data)P(x^∣Data).
P(x^∣Data)=∫W∣DataP(x^,W∣Data)dW=∫W∣DataP(W∣X)⋅P(x^∣W)dW=EW∣Data[P(x^∣W)]\begin{aligned} \mathcal P(\hat x \mid Data) & = \int_{\mathcal W \mid Data} \mathcal P(\hat x,\mathcal W \mid Data) d \mathcal W \\ & = \int_{\mathcal W \mid Data} \mathcal P(\mathcal W \mid \mathcal X) \cdot \mathcal P(\hat x \mid \mathcal W) d\mathcal W \\ & = \mathbb E_{\mathcal W \mid Data} \left[\mathcal P(\hat x \mid \mathcal W)\right] \end{aligned}P(x^∣Data)​=∫W∣Data​P(x^,W∣Data)dW=∫W∣Data​P(W∣X)⋅P(x^∣W)dW=EW∣Data​[P(x^∣W)]​

贝叶斯方法在线性回归中的任务

针对上述贝叶斯方法的描述,在线性回归中的任务包含以下两个:

  • 推断任务(Inference):通过贝叶斯定理,求解后验概率P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)。
  • 预测任务(Prediction):基于后验概率P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data),对新样本的后验P(x^∣Data)\mathcal P(\hat x \mid Data)P(x^∣Data)进行估计。

贝叶斯线性回归推断任务介绍

后验概率P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)表示如下:
数据集合DataDataData包含样本集合X\mathcal XX和对应标签集合Y\mathcal YY.
P(W∣Data)=P(W∣X,Y)=P(W,Y∣X)P(Y∣X)=P(Y∣W,X)⋅P(W)∫WP(Y∣W,X)⋅P(W)dW\begin{aligned} \mathcal P(\mathcal W \mid Data) & = \mathcal P(\mathcal W \mid \mathcal X,\mathcal Y) \\ & = \frac{\mathcal P(\mathcal W,\mathcal Y \mid \mathcal X)}{\mathcal P(\mathcal Y \mid \mathcal X)} \\ & = \frac{\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W)}{\int_{\mathcal W} \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) d\mathcal W} \end{aligned}P(W∣Data)​=P(W∣X,Y)=P(Y∣X)P(W,Y∣X)​=∫W​P(Y∣W,X)⋅P(W)dWP(Y∣W,X)⋅P(W)​​
其中P(Y∣W,X)\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X)P(Y∣W,X)是似然(Likelihood),P(W)\mathcal P(\mathcal W)P(W)是先验分布(Piror Distribution)。
P(W)\mathcal P(\mathcal W)P(W)实际上是P(W∣X)\mathcal P(\mathcal W \mid \mathcal X)P(W∣X),由于X\mathcal XX不对W\mathcal WW产生影响,这里省略。这个先验分布是推断之前给定的某一种分布。

由于样本之间独立同分布,因而似然P(Y∣W,X)\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X)P(Y∣W,X)可表示为如下形式:
根据上面介绍的线性回归模型,样本x(i)x^{(i)}x(i)和对应标签y(i)y^{(i)}y(i)之间是‘包含均值为0高斯噪声的线性关系’
P(y(i)∣W,x(i))∼N(WTx(i),σ2)P(Y∣W,X)=∏i=1NP(y(i)∣W,x(i))=∏i=1NN(WTx(i),σ2)\mathcal P(y^{(i)} \mid \mathcal W,x^{(i)}) \sim \mathcal N(\mathcal W^Tx^{(i)},\sigma^2)\\ \begin{aligned}\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) & = \prod_{i=1}^N \mathcal P(y^{(i)} \mid \mathcal W,x^{(i)}) \\ & = \prod_{i=1}^N \mathcal N(\mathcal W^T x^{(i)},\sigma^2) \end{aligned}P(y(i)∣W,x(i))∼N(WTx(i),σ2)P(Y∣W,X)​=i=1∏N​P(y(i)∣W,x(i))=i=1∏N​N(WTx(i),σ2)​
关于先验分布P(W)\mathcal P(\mathcal W)P(W),我们同样假设它是一个 均值为0的高斯分布
其中Σprior\Sigma_{prior}Σprior​表示先验高斯分布的‘协方差矩阵’,由于W\mathcal WWX\mathcal XX维度相同,因而[Σprior]p×p[\Sigma_{prior}]_{p \times p}[Σprior​]p×p​.
P(W)∼N(0,Σpiror)\mathcal P(\mathcal W) \sim \mathcal N(0,\Sigma_{piror})P(W)∼N(0,Σpiror​)
至此,关于W\mathcal WW的后验概率分布P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)可表示为:
贝叶斯定理的分母部分称作’证据‘(Evidence),它可看作关于数据集合DataDataData的一个常量(因为数据集合是已知的),和参数W\mathcal WW无关。
P(W∣Data)=P(Y∣W,X)⋅P(W)∫WP(Y∣W,X)⋅P(W)dW∝P(Y∣W,X)⋅P(W)\begin{aligned} \mathcal P(\mathcal W \mid Data) & = \frac{\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W)}{\int_{\mathcal W} \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) d\mathcal W} \\ & \propto \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) \end{aligned}P(W∣Data)​=∫W​P(Y∣W,X)⋅P(W)dWP(Y∣W,X)⋅P(W)​∝P(Y∣W,X)⋅P(W)​
观察,由于似然P(Y∣W,X)\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X)P(Y∣W,X)服从高斯分布,并且先验分布同样假设为高斯分布,因而后验分布P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)同样服从高斯分布

  • 这里用到了指数族分布的共轭性质,具体描述是:似然P(Y∣W,X)\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X)P(Y∣W,X)存在一个共轭的先验分布P(W)\mathcal P(\mathcal W)P(W),对应效果是:后验分布P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)与先验分布形成相同的分布形式。
  • 并且高斯分布是一个包含’自共轭性质‘的指数族分布。即高斯分布是高斯分布自身的’共轭分布‘。

定义后验的高斯分布为N(μW,ΣW)\mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W})N(μW​,ΣW​),具体表示如下:
N(μW,ΣW)∝[∏i=1NN(y(i)∣WTx(i),σ2)]⋅N(0,Σpiror)\mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \propto \left[\prod_{i=1}^N \mathcal N(y^{(i)} \mid \mathcal W^Tx^{(i)},\sigma^2)\right] \cdot \mathcal N(0,\Sigma_{piror})N(μW​,ΣW​)∝[i=1∏N​N(y(i)∣WTx(i),σ2)]⋅N(0,Σpiror​)

下一节将介绍μW,ΣW\mu_{\mathcal W},\Sigma_{\mathcal W}μW​,ΣW​的求解过程

相关参考:
机器学习-贝叶斯线性回归(1)-背景介绍
机器学习-贝叶斯线性回归(2)-推导介绍

相关内容

热门资讯

喜欢穿一身黑的男生性格(喜欢穿... 今天百科达人给各位分享喜欢穿一身黑的男生性格的知识,其中也会对喜欢穿一身黑衣服的男人人好相处吗进行解...
发春是什么意思(思春和发春是什... 本篇文章极速百科给大家谈谈发春是什么意思,以及思春和发春是什么意思对应的知识点,希望对各位有所帮助,...
网络用语zl是什么意思(zl是... 今天给各位分享网络用语zl是什么意思的知识,其中也会对zl是啥意思是什么网络用语进行解释,如果能碰巧...
为什么酷狗音乐自己唱的歌不能下... 本篇文章极速百科小编给大家谈谈为什么酷狗音乐自己唱的歌不能下载到本地?,以及为什么酷狗下载的歌曲不是...
家里可以做假山养金鱼吗(假山能... 今天百科达人给各位分享家里可以做假山养金鱼吗的知识,其中也会对假山能放鱼缸里吗进行解释,如果能碰巧解...
华为下载未安装的文件去哪找(华... 今天百科达人给各位分享华为下载未安装的文件去哪找的知识,其中也会对华为下载未安装的文件去哪找到进行解...
四分五裂是什么生肖什么动物(四... 本篇文章极速百科小编给大家谈谈四分五裂是什么生肖什么动物,以及四分五裂打一生肖是什么对应的知识点,希...
怎么往应用助手里添加应用(应用... 今天百科达人给各位分享怎么往应用助手里添加应用的知识,其中也会对应用助手怎么添加微信进行解释,如果能...
苏州离哪个飞机场近(苏州离哪个... 本篇文章极速百科小编给大家谈谈苏州离哪个飞机场近,以及苏州离哪个飞机场近点对应的知识点,希望对各位有...
客厅放八骏马摆件可以吗(家里摆... 今天给各位分享客厅放八骏马摆件可以吗的知识,其中也会对家里摆八骏马摆件好吗进行解释,如果能碰巧解决你...