潜在因子模型是一种常用的多元统计方法,用于探索观测数据中的潜在结构。其基本假设是观测变量之间存在一些未被观察到的潜在因子或隐变量,这些潜在因子通过载荷矩阵与观测变量相关联。
载荷矩阵(loading matrix)是指描述每个潜在因子与观测变量之间关系的矩阵。具体而言,如果有 ppp 个观测变量和 kkk 个潜在因子,则载荷矩阵为 p×kp \times kp×k 的矩阵,其中第 jjj 列表示第 jjj 个观测变量与所有潜在因子之间的相关系数。
潜在因子矩阵(latent factor matrix)则是一个 n×kn \times kn×k 的矩阵,其中第 iii 行表示第 iii 个观测样本在所有潜在因子上的得分。
潜在因子模型通常使用最小二乘法进行参数估计,其推导过程可以分为以下几步:
假设观测数据服从如下线性模型:
X=ΛF+Ψ\boldsymbol{X} = \boldsymbol{\Lambda F} + \boldsymbol{\Psi}X=ΛF+Ψ
其中 X\boldsymbol{X}X 是观测数据 n×pn \times pn×p 的矩阵,Λ\boldsymbol{\Lambda}Λ 是载荷矩阵,F\boldsymbol{F}F 是潜在因子矩阵,Ψ\boldsymbol{\Psi}Ψ 是误差项。
假设潜在因子之间相互独立,且与观测变量无关。即,
cov(F)=Ik\text{cov}(\boldsymbol{F}) = \boldsymbol{I}_kcov(F)=Ik
并且,
cov(F,Ψ)=0\text{cov}(\boldsymbol{F}, \boldsymbol{\Psi}) = \boldsymbol{0}cov(F,Ψ)=0
将模型转化为矩阵形式,并对误差项进行标准化处理,使其满足方差为单位 p×pp \times pp×p 矩阵的多元正态分布。经过简单的矩阵运算后,可以得到如下形式的最小二乘拟合函数:
F^=(ΛTΣ−1Λ)−1ΛTΣ−1X\boldsymbol{\hat{F}} = (\boldsymbol{\Lambda}^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\Lambda})^{-1}\boldsymbol{\Lambda}^T\boldsymbol{\Sigma}^{-1}\boldsymbol{X}F^=(ΛTΣ−1Λ)−1ΛTΣ−1X
其中 Σ\boldsymbol{\Sigma}Σ 是误差项的协方差矩阵。
将最小二乘拟合函数代入原始模型中,可以得到观测数据的估计值:
X^=ΛF^+Ψ^\boldsymbol{\hat{X}} = \boldsymbol{\Lambda\hat{F}} + \boldsymbol{\hat{\Psi}}X^=ΛF^+Ψ^
最后,通过比较观测数据和其估计值的残差平方和来评价模型的拟合优度。