PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。
这种降维的思想首先减少数据集的维数,同时还保持数据集的对方差贡献最大的特征,最终使数据直观呈现在二维坐标系。
在处理高维数据时,通常会应用降维技术,但应用时很可能忽略了高维变量之间的相互作用。为了很好地利用交互信息,RDE框架建立了一个由数量众多的低维嵌入组成的分布。虽然每个低维嵌入都保留了整个系统的一部分信息,但这些低维嵌入形成了一个概率分布,可以用来获得最终的一维变量(或值)。
随机分布嵌入(RDE)的无模型框架,以实现基于短期高维数据的准确未来状态预测。具体来说,从高维变量的观测数据中,RDE框架随机生成足够数量的低维“非延迟嵌入”,并将每个嵌入映射到“延迟嵌入”,该嵌入是由要预测的目标变量的数据构建的。这些映射中的任何一个都可以作为未来状态预测的低维弱预测器,并且所有这些映射都会生成预测未来状态的分布。这种分布实际上将来自各种嵌入的所有关联信息无偏或偏地修补到目标变量的整个动态中,在通过适当的估计策略操作后,为以更可靠和稳健的形式实现预测创建了更强的预测因子。通过将RDE框架应用于来自代表性模型和现实世界系统的数据,我们发现高维特征不再是障碍,而是对准确预测短期数据至关重要的信息来源,即使在噪声恶化的情况下也是如此。
综上所述,我们建立了一个框架,可以从短期高维数据中准确做出预测。该RDE框架的新颖性源于充分利用嵌入在大量低维非延迟吸引子中的信息,以及适当使用目标变量的利用分布进行预测。一方面,RDE框架创建一个分布,将来自各种嵌入的所有信息片段修补到预测变量的整个动态中。另一方面,基于分布信息选择合适的估计方案可以显著提高预测的可靠性和鲁棒性,即使对于噪声恶化的短期数据也是如此。经基准模型和真实世界系统生成的数据集验证,该方法对观察到的短期高维时间序列特别有效。这一优点使得RDE框架在从现实世界系统中挖掘大数据集方面可能很有用。
下一篇:C语言深度解剖-关键字(2)