近十年来,编码器在图像以及自然语言处理等方面得到了广泛应用。然而,由于图数据的复杂性,使得在图上的编码器技术难以发展。本文基于监督信号的不同,将图编码器划分为生成式学习和对比式学习两类。我们分别对这两类中最近提出的模型进行了介绍,并对比了个模型之间构成的不同。接着,我们在6个不同数据集上对比了不同模型在节点分类任务和图分类任务中的效果。最后,我们对图编码器未来发展的方向进行了展望。
在过去十年中,自监督编码器技术在图像[1]以及自然语言处理[2][3]等方面得到了广泛应用。然而对于不规则的图结构数据,如社交网络、电子商务网络、生物学网络和交通网络等,自监督编码器的应用还较少。这些图结构数据有着复杂的结构和大量待挖掘的信息。当前,对图数据的分析存在着以下难点:
1)图结构的不规则性。与语音、图片以及文本这些有着清晰网格结构的数据不同,图数据的结构是不规则的。这导致了一些基本的数学操作难以被推广到图中。
2)图的异质性和多样性。图本身包括了不同的类型和属性。例如,图可以是异质图或者同质图;可以是加权图或者非加权图;可以是有向图或者无向图。另外,在图上的任务也是多样的,其中最重要的两大任务分别是节点分类和链路预测。
3)图的规模庞大。在当前,真实的图数据常常会有数千万乃至上亿的节点和边,这给图数据的分析带来了复杂度上的要求。
为了解决以上问题,研究者们在该领域做出了巨大的努力。然而,图结构中庞大的数据量使得对数据进行标记的代价极为昂贵,这导致许多监督学习的方法在实际应用中变得不可取。因此,本文主要关注于图数据上自监督学习方法的发展。
我们将图上的自监督学习方法主要分为两类,分别是对比式学习和生成式学习[4]。生成式学习的自监督方法主要思路是通过图中的部分信息,对图中缺失部分的信息进行重构,再将重构出的部分与原本的信息计算损失函数。对比式学习的方法则依赖于构建负样本,将负样本和原样本得到的嵌入向量间差距扩大化,以此完成训练。
此前,有不少研究者对图数据的处理方式进行了调查。Battaglia等人[5]总结了在图网络的统一框架内,如何使用GNNs和GCNs进行关系推理。Lee等人[6]对图的注意力模型进行了调查。徐冰冰等人[7]梳理了谱方法和空间方法两大图卷积神经网络经典方法,并介绍了图卷积神经网络在异质图和大规模图上的最新进展。Zhang等人[8]对图数据上的深度学习方法进行了介绍,他们将图上的深度学习方法划分为图迭代神经网络、图卷积网络、图自动编码器、图强化学习和图对抗方法五大类,并分析了这五类方法的差异和组成。
本文主要注重于对自监督的图编码器进行调查。众所周知,编码器可以分为编码和解码两部分。当应用于图数据时,编码器常常用于上游图嵌入的工作,即将编码部分生成的向量取出,用于下游诸如节点分类和链路预测等应用。本文基于解码部分监督信号的不同,将自监督的图编码器分为对比式学习和生成式学习。
本文的第2节给定了全文的符号定义;第3节分别介绍了两类图编码器的发展和最新研究;第4节给出了部分图编码器效果间的对比;第5、6节中描述了自监督的图编码器未来发展和全文总结。
符号 | 含义 |
---|---|
G(A,X) | 图 |
X | 特征矩阵 |
A | 邻接矩阵 |
xi | i节点特征 |
hi | i节点表征向量 |
A(i,j) | 第i节点和j节点间是否有边 |
A(i,:) | 第i节点的邻域向量 |
生成式学习的方法更加关注数据内部的信息,一般基于特征/结构重建等代理任务,利用图本身丰富的的特征和结构作为一种自然的监督信号。在生成式方法中,图解码器常常被用于进行图重建的任务。
图 1 SDNE的模型结构图[9] 该模型利用深度自动编码器保持了节点间的一级和二级接近性
最初,研究者仅考虑对图结构的重建。2016年,Wang等人[9]在SDNE中第一次将深度学习方法带入到图嵌入任务。在该模型认为,如果两个节点的邻域相似,那么这两个节点的潜在表示向量也应该是相似的(二级接近性)。同时,该模型还考虑到如果两个节点相互链接,那么这两个节点也应当拥有相近的潜在表示向量(一级接近性)。这个模型中解码器和编码器部分都由非线性函数构成,具体的结构如图1所示。在损失函数部分,SDNE基于L2重构损失函数和拉普拉斯特征映射项建立了如下损失函数:
为了解决节点的领域信息稀疏的问题,SDNE在L2重构损失中增加了对0项的惩罚,如下所示:
完整版见: https://gitee.com/zhu-jingyu-cc/graph_embed