“对称性,无论你如何定义它的含义,它都是人类历来试图理解和创造秩序、美丽和完美的一种理念。” 这是 19 世纪末德国数学家赫尔曼·外尔 (Hermann Weyl) 的名言。
过去十年见证了数据科学和机器学习的实验性革命,其中最典型的代表是深度学习方法。许多以前被认为遥不可及的高维学习任务(例如计算机视觉、围棋或蛋白质折叠)实际上只要有足够的计算能力就可以解决。
值得注意的是,深度学习的本质是由两个简单的算法原理构建的:首先,表示或特征学习的概念;其次,通过局部梯度下降类型的方法进行学习,通常以反向传播的方式实现。
虽然在高维度中学习通用函数是一个困难的估计问题,但由于物理世界的低维性和结构性,许多任务并不统一并且具有很强的重复模式。
几何深度学习从对称性和不变性的角度统一了一大类 ML 问题。这些原则不仅是卷积神经网络突破性性能和图神经网络近期成功的基础,而且还提供了一种构建新型问题特定归纳偏差的原则性方法。所以,事不宜迟,让我们开始吧。
目录
- 介绍
- 高维度学习
- 对称性、表示和不变性
- 同构和自同构
- 变形稳定性和尺度分离
- 几何深度学习的 5 个 G:图形、网格、群组、测地线和仪表
介绍
利用大型系统的已知对称性是解决维数灾难的有力而经典的补救措施,并构成大多数物理理论的基础。
深度学习系统也不例外,从早期开始,研究人员就已采用神经网络来利用物理测量产生的低维几何,例如图像中的网格、时间序列中的序列、或分子中的位置和动量,以及它们相关的对称性,如平移或旋转。
本着“几何统一”的精神,我们将研究最成功的神经网络架构(如 CNN、RNN、GNN 和 Transformer)的通用数学框架。这种观点有助于我们构建未来的架构,使其能够超越所有当前方法,并具有一定程度的可解释性。
高维度学习
让我们正式定义一下,监督机器学习处理高维数据空间,通常假设数据域X=R^d
具有较大的维度d
。目标是使用参数化函数类(例如神经网络)来估计f
映射数据 ->
标签的未知函数。F
深度学习通常在“插值设置”下工作,其中估计函数与训练数据完全匹配。成功的学习需要将适当的归纳偏差或规律性纳入函数类,这可以通过权重正则化F
等技术实现。
但问题在于,在高维中,准确估计一个函数所需的观测次数会随着维数的增加而呈指数增长,使得像Lipschitz 连续性d
这样的经典平滑假设对于高维问题来说并不切实际。
为了克服维数灾难,有必要利用数据域内的几何结构并将几何先验纳入学习中。
例如,图像具有自然的二维网格结构,其中相邻像素通常高度相关。这里的关键几何结构是特征的空间局部性,例如边缘或纹理。
CNN 采用了先验知识,即邻近像素之间的关联性比远距离像素之间的关联性更强。这是通过卷积层实现的,卷积层使用应用于整个图像的小过滤器(内核)。这些过滤器的权重在整个图像中共享,从而强制实现平移不变性 – 这意味着在图像的某个部分检测到的特征在其他地方同样相关。
对称性、表示和不变性
如果一定要简单地说,对称性是一种变换类型,它不会改变物体的某些属性。例如,如果我将正方形旋转 90 度,它仍然是正方形——这一属性在物理学和几何学的许多领域可能非常有用。
表征基本上是找到能够捕捉这些对称性本质的数学结构。在深度学习中,这意味着在神经网络中编码这些对称性,以便它们能够有效地处理数据中的变化。从数学上来说,
不变性是指模型的输出在输入经过某些变换后保持不变的特性。例如,人脸识别系统应该能够识别人脸,而不管其朝向如何。通过将不变性融入我们的模型(例如 CNN 对平移具有不变性),我们可以使模型更加稳健,并且数据消耗更少。
想象一下,如果 CNN 没有平移对称性,那么我们就需要对某人的脸部的每个方向进行采样,从而造成数据瓶颈。
这些类型的对称性可能会产生其他类型的问题,但总的来说,这是一件好事。
同构和自同构
同构是对象之间保持其结构的映射。简单来说,如果有一种方法可以将一个系统或数据集转换为另一个系统或数据集而不会丢失任何信息,则这两个系统或数据集是同构的。在神经网络中,识别同构有助于降低学习的复杂性,因为这样可以识别出两个看起来不同的数据结构本质上是相同的。
还有许多其他类型的态射。下图只是快速浏览了不同类型的态射。我们在这里可以看到两个主要类别:两个对象之间的态射和它们自身的态射,称为自同构。
变形稳定性和尺度分离
它是模型处理输入数据中微小变化或扭曲的能力。例如,如果您稍微变形图像(如拉伸或压缩),稳定的模型仍然应该能够识别图像中的对象。这一概念在图像识别等领域至关重要,因为数据可能并不总是完全对齐或标准化。
如果模型只能预测以前看到的内容,那么它就是无用的,我们希望创建本质上具有概括性的模型,而变形稳定性只是这种概括的一小部分。
图像空间中另一个常用的概念是尺度分离,它 涉及将问题分解为不同的尺度或细节层次。例如,在分析图像时,我们可能首先查看大图(整体形状),然后放大以关注细节(纹理、边缘)。
在几何深度学习中,这种思想用于设计能够有效处理多尺度信息的模型,这在处理复杂的分层数据时尤其有用。
所有最成功的视觉相关架构都以不同的尺度处理图像。EfficientNets 就是一个很好的例子。
下面是一份关于哪种类型的架构利用哪种类型的对称性的简短列表。
几何深度学习的 5 个 G:图形、网格、群组、测地线和仪表
图表
想象一下,尝试使用传统神经网络来理解社交网络或预测复杂分子的属性。这就像尝试使用 2D 工具来解决 3D 难题。这就是图形神经网络(GNN) 发挥作用的地方。通过将数据表示为节点和边,GNN 可以捕捉平面数据结构所遗漏的复杂关系。
例如,在药物研发中,GNN 可以将分子建模为图,以原子为节点,以键为边。这种方法在预测分子特性和设计新药方面取得了突破。然而,事情并非一帆风顺。与传统神经网络相比,图的不规则结构会使计算更加复杂和耗时。
网格
当我们思考计算机视觉时,首先想到的是图像识别。如上所述,卷积神经网络 (CNN) 也是在网格状结构上运行。图像中像素的规则排列使 CNN 能够有效地学习分层特征,从简单的边缘到复杂的对象。
但问题在于:虽然网格对图像和视频非常有用,但在处理不规则结构的数据时却显得力不从心。这一限制促使研究人员探索更灵活的几何方法。
群组
想一想,为什么神经网络需要在图像旋转时重新学习猫的样子?在许多视觉管道中,我们将旋转和其他类型的对称性添加到数据中作为数据增强的一部分。进入群等变神经网络。通过结合数学群论,这些网络可以识别物体,而不受旋转、平移或其他对称性的影响。
这种方法不仅优雅,而且高效。它减少了训练所需的数据量并提高了泛化能力。但是,对所有可能的对称性实施组等变性在计算上可能很昂贵,导致在不变性和效率之间进行权衡。
测地线和流形
在现实世界中,数据通常不是平放的。想象一下地球表面或所有可能的人类面孔的空间。这就是测地线和流形的用武之地。通过了解数据的内在几何形状,我们可以开发尊重其真实结构的模型。
t-SNE 和 UMAP 等流形学习技术彻底改变了数据可视化和降维。在深度学习中,这些概念使我们能够构建能够探索自然数据弯曲空间的模型。挑战在于平衡这些非欧几里得方法的复杂性与计算可行性。
仪表和捆绑
最后,在高等数学领域中,我们引入了规范和束。这些概念借鉴了微分几何和理论物理学,现在正应用于深度学习。这些方法使我们能够构建在复杂的局部数据变换下保持一致的模型。
虽然这一领域仍然主要停留在理论层面,但它有望解决物理模拟和其他局部对称性至关重要的领域的问题。主要障碍是什么?这些高级数学结构带来的学习难度高,计算复杂度高。
为了连接所有这些不同的概念,几何图形和网格将图形的关系能力与空间信息相结合。这种方法在 3D 建模、计算机图形学和物理模拟中尤其有效。
想象一下,训练一个神经网络来理解和处理 3D 物体,就像我们今天处理 2D 图像一样容易。这就是网格几何深度学习的前景。挑战在于开发能够处理这些结构日益复杂的高效算法。
真正理解这些对称性的应用是无穷无尽的,下一个可能将我们带入 AGI 的重大事件,可能是一个可以在单一架构中处理所有这些转换和对称性的系统。
RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/5391