当前位置：网站首页> 体育知识 > 在统计中超参数是什么(谷歌图表征学习创新：学习单个节点多个嵌入自动学习最优超参数)

在统计中超参数是什么(谷歌图表征学习创新：学习单个节点多个嵌入自动学习最优超参数)

更新时间：2022-09-06 20:01:02

选自Googleblog

作者：Alessandro Epasto、Bryan Perozzi

机器之心编译

参与：高璇、shooting

将机器学习方法应用在图中并不容易，因为图大多是由离散部分组成的组合结构，而 ML 方法更喜欢连续结构。为了解决这一难题，谷歌引入了新的技术来学习单个节点的多个嵌入，并提出了一种自动学习最优超参数的方法。代码皆已开源。

表示实体间关系的关系数据在网络世界（如在线社交网络）和现实世界（如蛋白质交互网络（protein interaction network）中无处不在。这些数据可以表示为带有节点（如用户或蛋白质）和连接它们的边（如亲密关系或蛋白质交互）的图。

由于数据图的普遍流行，图分析在机器学习中发挥着重要作用，已应用于聚类、链接预测、隐私保护和其它方向。为了将机器学习方法应用于图（如预测新的亲密关系或发现未知的蛋白质交互），我们需要学习适合在 ML 算法中使用的图表征。

然而，图本质上是由诸如节点和边等离散部分组成的组合结构，而许多常见的 ML 方法（如神经网络）更喜欢连续结构，特别是向量表征。向量表征在神经网络中尤为重要，因为它们可以直接用作输入层。

为了解决在 ML 中使用离散图表征的难题，图嵌入方法学习图的连续向量空间，将图中每个节点（和/或边）分配到向量空间中的特定位置。这方面的一种流行方法是基于随机游走的表征学习。

在统计中超参数是什么(谷歌图表征学习创新：学习单个节点多个嵌入自动学习最优超参数)

左图：代表社交网络的著名 Karate 图。右图：使用 DeepWalk 在图的连续空间嵌入节点。

这里有两篇关于图嵌入的论文：WWW 2019 的《Is a Single Embedding Enough? Learning Node Representations that Capture Multiple Social Contexts》和 NeurIPS 2018 的《Watch Your Step: Learning Node Embeddings via Graph Attention》。

第一篇论文引入了一种新的技术来学习单个节点的多个嵌入，从而能够更好地描述具有重叠社区的网络。第二篇解决了图嵌入中超参数调整的基本问题，使人们可以轻松地部署图嵌入方法。谷歌已经在 github 上开源了这两篇论文的代码。

github代码地址：
google-research/google-research/tree/master/graph_embedding

捕获多个社交上下文的学习节点表征

基本上，标准图嵌入方法的关键假设是必须为每个节点学习单个嵌入。因此，嵌入方法的目标是识别表征图几何中每个节点的单个角色或位置。

然而，最近的研究发现，真实网络中的节点属于多个重叠的社区，并在其中扮演着多个角色。想想你的社交网络，你既隶属你的家庭，又隶属你的工作社区中。

这一观察引发了以下研究问题：是否有可能开发出将节点嵌入多个向量的方法，以代表它们参与了重叠的社区？

在论文《Is a Single Embedding Enough? Learning Node Representations that Capture Multiple Social Contexts》中，谷歌开发了 Splitter。这是一种无监督的嵌入方法，允许图中的节点具有多个嵌入，以便更好地编码它们在多个社区的参与。

该方法来自于最近的基于自我网络分析的重叠聚类中的创新理念，特别是使用角色图概念。该方法获取一个图 G，并创建一个新的图 P（称为角色图），其中 G 中的每个节点都由一系列称为角色节点的复制品表示。

节点的每个角色代表了其所属的本地社区中节点的实例。对于图中的每个节点 U，分析节点的自我网络（即连接节点与其相邻节点的图，在本例中是 A、B、C、D），以发现节点所属的本地社区。

例如，在下图中，节点 U 属于两个社区：簇 1（与 U 的家人 A 和 B 一起）和簇 2（与 U 的同事 C 和 D 一起）。

在统计中超参数是什么(谷歌图表征学习创新：学习单个节点多个嵌入自动学习最优超参数)