「图神经网络前沿进展与应用」最新2022综述

2022-10-09 19:37 来源：读者提供作者：网友发布浏览：9

核心提示图神经网络最新综述论文在图自编码器上,文献[54]提出基于深度神经网络的表示模型 .DNGR 采用随机游走模型获取图结构信息,生成概率共现矩阵,并在概率共现矩阵的基础上计算 PPMI矩阵.在图节点嵌

图神经网络最新综述论文

在图自编码器上,文献[54]提出基于深度神经网络的表示模型 .DNGR 采用随机游走模型获取图结构信息,生成概率共现矩阵,并在概率共现矩阵的基础上计算 PPMI矩阵.在图节点嵌入表示学习上,DNGR 设计了一个叠加去噪自编码器,输入 PPMI矩阵学习图节点低维表示,并且输入的一部分会被随机置零以提高模型的鲁棒性.DNGR的优点在于能学习到有向图中更多的结构信息,其生成的低维嵌入表示可以用于不同的下游任务.但缺点是忽略了图属性信息,没有将图属性和图结构信息一并纳入到模型框架中,因此图结构的轻微变化就会影响节点表示的好坏.针对节点内容信息的收集,Wang 等人[55]提出一种边缘图自编码器算法.其在自编码器中使用基于谱分解的图卷积网络层,整合节点属性特征和图结构信息,使得它们之间能进行数据交互.MGAE堆叠多层图形自编码器,以建立一个深层次的架构来学习有效的节点表示.Wang等人认为在训练中随机噪声引起的干扰可能会提供更有效的输出表示,因此会在节点内容特征中动态地加入一些干扰项.通过将某些特征值置为零,获得在大规模图上学习的能力.MGAE构建了优化器以确保编码的节点属性信息和真实属性信息之间的误差最小化.在得到每个节点的表示后, MGAE使用谱聚类算法得到图聚类结果。图循环网络图循环网络是最早出现的一种 GNN 模型.相较于其他的 GNN 算法,GRN 通常将图数据转换为序列,在训练的过程中序列会不断地递归演进和变化.GRN 模型一般使用双向循环神经网络和长短期记忆网络作为网络架构.图神经网络总结分析通过前文的归纳和分析, 从总体上看, 图神经网络可以分为五类: 图卷积网络、图自编码器、图生成网络、图循环网络和图注意力网络.每种图神经网络都有自己对图结构数据处理的一套算法和体系,其中的原理和适用的范围也有一定差别.当然它们之间不是相互孤立和排斥的,例如文献[59,65]的图自编码器中包含图卷积层,文献[91,95]的图循环网络为了图序列学习更有效,也会加入注意力模块.而图注意力网络也大多以其他图神经网络框架为基础, 构建合适的节点、边以及图注意力网络层.因此在实际操作当中,需要根据图的分布和特征信息,以及任务的实际需求,选择合适的图神经网络,来更加有效地学习图结构数据. 表7是 GNN 机制、优点、缺点、适用范围及实现成本汇总表。

图神经网络未来研究方向GNN 的核心在于规范化表示的图结构数据并用深度神经网络进行学习.经过近些年的不断发展, 通过大量数学证明和实验分析后,GNN 在理论上和实践上都被证实是对图结构数据处理的一种有效方法和框架.尽管 GNN 在各个领域的图数据上取得了不俗的表现和较好的普适性,但是 GNN 仍然存在一定的不足和需要完善的地方.根据目前国内外的研究现状,下面本文对 GNN 的一些制约因素和未来发展方向进行探讨.1 网络深度在计算机视觉、自然语言处理和音频处理中,神经网络的层数可以叠加多层.在一定范围内,神经网络层数的增加可以更好地提取数据中的特征信息. 例如深层残差网络 ResNet [150]可以达到152层.但是 GNN 的邻居节点聚合中,随着网络层数的增加, 邻居节点的阶数会不断扩张,导致中心节点聚合特征数量成指数变多.这在大规模数据集上,尤其是节点之间的边连接数量较多时表现的非常明显.随之而来的是训练过程中计算复杂度的剧增,并可能导致过拟合的现象发生.这也就意味着随着层数的增加,GNN 模型性能会急剧下降.如果想要加深网络层数,就必须限制每层节点数量.但是这也会使得特征聚集的量变少,导致节点之间信息传播受阻.如何解决这一矛盾性问题是将来研究的重点之一.2 动态性就目前来看,现有的 GNN 大多处理的是静态齐次图.一方面,GNN 框架会假定图结构是固定的; 另一方面,GNN 框架会假设图中的节点和边来自于单一源分布.然而,这两个假设在许多情况下并不能同时成立.在社交网络中,新的人可以随时进入网络,并且现有的人也可以退出网络.在推荐系统中, 产品可能有不同的类型,其输入可能有不同的形式, 如文本或图像.特别是在超大规模的图中,节点的个数和边的个数可能有百万、千万乃至上亿.尤其是随着数据的增加和改变,节点和边的个数以及节点和边的类型都可能发生动态的变化.在这些任务处理中,图的动态变化是不能忽视的.特别是在固定尺寸下,因为某个节点或者边发生改变而重新学习整个图将会使得代价十分昂贵.而大多数 GNN 对于大型图不具有很好的伸缩性.其主要原因是当堆叠 GNN 的多个层时,节点的最终状态涉及大量邻居的隐藏状态,导致反向传播的高复杂性.虽然目前有一定的文献[94-95,136-137]在研究图的时空动态性,但是面对更大规模和更加复杂的动态异质图数据时还不够有效.因此如何对图的动态性进行有效的适应是未来的研究方向之一.3 感受域一个节点的感受域是指一组节点集合,包括中心节点及其邻居节点.感受域大小是决定邻居节点数量的关键参数.在大规模图数据集中,平均每个节点周围有多个邻居节点存在.随着网络层数的增加, 邻居节点会递归增加数目,感受域也随之快速扩张. 这可能会超过存储空间的上限.此外,一些节点可能只有一个邻居,而另外节点可能有多达数千个邻居. 邻居节点分布不均衡使得每个中心节点的感受域大小不一致.尽管可以通过添加“哑结点”和删除邻居节点的方式保持数据大小和维度的一致,但是在特征的聚集和融合中不可避免的会有信息损失现象发生,而现有的采样方法还不能完全解决该问题.4 多网络的融合由于现实世界数据的复杂性,抽象出来的图结构也会有很多的种类和变体.有向无向、异质非异质、带权不带权等等,大部分的 GNN 仅能处理其中的某一种类型.而更普遍的情况是各种各样的图混杂在一起,并且希望 GNN 能满足诸如节点分类、图分类、可视化、图生成等多种任务需求.在这种复杂的高强度的任务要求下,单一的神经网络作用过于有限.因此对于更加复杂的情况,有必要进行多网络融合.目前比较主流的多网络融合方式是 GCN 与其他 GNN 算法相结合.例如在节点属性和图拓扑结构信息的获取上,GCN 明显具有较高的性能和良好的适应性,在节点分类问题上会表现良好.鉴于其优点,在 GAE中不乏部分模型使用 GCN 作为编码器,取得较好的效果.但如果还需要进行链接预测、节点生成或者图生成,GCN 则有点力不从心了.此时可以再增设一个 GGN,输入 GCN 处理后的节点嵌入向量,在 GGN 内生成概率分布,完成生成式任务.如果图在不断地递归演进,形成了图序列.则可以利用 GRN来处理,以攘括多个步骤下的图信息.因此在 GNN框架中构造不同用途的深度神经网络,从不同的侧面来提取和整合数据的特征是十分有必要的. 此外可以对诸如深度置信网络 [151]、Transformer [152]等神经网络进行改造,将其泛化和应用至图结构数据学习上。