AI如何进行新技能学习

“人们只能从书本和例子中得知某些事情是可以做到的。真正的学习需要你去做那些事情。” ——弗兰克·赫伯特

现代大型语言模型 (LLM)已展现出令人难以置信的能力。它们近年来在参数数量、计算或数据质量方面都有了显著增长。最有趣的特征之一是某些属性似乎是突然出现的。这些属性之所以被称为突发属性，是因为它们在某个时刻突然出现，然后呈线性增长。例如，当模型超出一定规模时，其中一些属性就会出现。这引起了人们对模型规模的兴趣，参数数量也增长到了 1000 亿个以上。

然而，并非所有人都同意这些新出现的属性。从某种意义上说，这个概念颇具争议（而且也未被完全理解）。它仍然特别令人感兴趣，因为它是模型缩放的主要理由之一。

一方面，一些研究人员对涌现属性持怀疑态度（正如我们在上一篇文章中讨论的那样）。然而，其他作者却报告说，这些涌现属性并不是人工制品。因此，这个问题存在争议。

如果它们存在，是什么导致了这种突发现象？

另外，突现属性到底是什么意思？它只是某种属性的突然增加吗？还是背后有更有趣的东西？

本文试图回答这些问题并深入探讨该主题。

涌现的渗透模型：分析在形式语言上训练的 Transformer

数据、大小或计算的增加可能导致神经网络突然学习特定的能力——…

arxiv.org

作者首先提出了这样一个观点：人们必须对涌现有一个正式的定义，尤其是在深度学习方面。他们将这个想法与物理学进行了比较，物理学中特别使用了涌现的概念。因此，如果满足以下条件，则属性（或能力 C）会根据变量（数据量、计算、参数）表现出涌现行为：

它具有在执行任务时发生的非线性改进。如前所述，当模型突然能够完成任务时（例如，解决特定大小的参数上的数学问题），就会注意到一种突发属性。与物理学的比较是固相和液相之间的突然变化作为温度的函数，液态水可以装入容器中，而冰则相反。
模型经历了结构变化，这有助于学习能力 C。这意味着模型经历了特殊的结构变化，只有这种变化才能让它在当时完成任务。当水改变阶段时，它的不同能力是由于分子结构的变化（结构的变化允许这样做）。因此，模型应该显示其内部状态的变化。
多个任务同时表现出非线性的性能提升。从一种状态到另一种状态的变化不仅使水适应容器，而且还改变了其他属性（例如，溶解盐）。这是因为水的分子结构发生了变化。这种变化还会影响其他功能。作者认为，这也必须发生在 ML 模型中；其结构的变化不仅影响一项任务

上述定义赋予了涌现更广泛的含义，而不仅仅是某一特定任务上突然的性能提升：它认为模型中应该存在精确的结构变化，这些变化会对多种能力产生下游影响，从而导致多项任务的性能突然提升。——来源

物理系统中结构变化的含义非常清楚。但不太清楚的是，在 ML 模型中必须改变什么，才能被视为结构变化。对于作者来说，这可以是 LLM电路的形成、感应头或学习语言的句法规则。特别是从学习的角度来看，这是有道理的，模型能力的突然变化意味着模型理解的突然变化。当然，问题在于，定义物理学中的相变并监控它们比学习神经网络要容易得多。例如，可以通过粒子密度的跳跃来测量液相到气相转变随温度变化的时间。

我们如何监控 LLM 中的这些“相变”？

作者定义了巧妙的任务来监控模型。他们定义了一种具有约束的形式语言（单词必须遵循特定的顺序，并且 LLM 必须遵循严格的规则）。使用这种语言的文本训练模型，并监控其学习情况。因此，要通过任务的模型必须学习这种刚性且可观察的语言结构。

更详细地说，作者采用了一个类似 GPT 的模型（LLM），在这个数据集（他们构建的语言）上对其进行了训练，并在三个任务上对其进行了监控：

自由生成。产生反映语法和类型约束的句子。
解读。语言中的一个句子被随机取出并排列（顺序随机改变）。模型必须重建正确的顺序。
条件生成。向模型提供一组单词，模型必须使用这些单词并遵守语法来生成句子。

现在，作者们有了一个系统来监控 LLM 中属性的出现。因此，目标是看看这种设置中是否也会出现属性，以及我们是否可以理解为什么会发生这种情况（机制）。

此时，作者研究模型学习过程中发生的情况并指出：

语法习得的初始阶段。模型学习生成语法正确的句子。这个过程也很快，经过几次交互后就会开始显现。然而，在这个阶段，模型无法进行解读和条件生成。因此，LLM 能够快速学习数据背后的广泛结构（语法）。
第二阶段是获得相对类型约束。经过大约 1000 次迭代后，模型性能突然从零提高到接近完美的准确度。自由生成能力的损失大幅下降，与模型掌握语法的能力相一致。一旦模型掌握了语法，它就会很快理解后续的约束。因此，一旦模型学习了这些概念，它就可以立即使用它们。
第三阶段，学习描述类型约束。在这个阶段，模型会不断增长（以线性和比例的方式）。这可以更准确地描述为在训练过程中所学内容的泛化阶段。在这个最后阶段，模型会学习更多关于它所见过的属性的上下文信息以及如何隐式地使用它们

作者还注意到在进行扩展时系统中的其他有趣特性：

随着属性数量（数据种类）的增加，从记忆到概括的转变会被延迟。
即使任务难度增加，行为也不会改变（学习动态）。这可以从曲线的几何形状保持不变这一事实中看出。

记忆和概括之间的这种联系很有趣，可能与 grokking 现象有关。然而，作者并没有探讨这一点。

在后续实验中，作者希望更深入地研究。在这种情况下，模型必须理解如何组合看不见的实体和描述性属性。据他们说，这个实验的目的是模型必须理解哪些实体和属性属于同一个概念类。因此，模型必须更多地理解实体背后的概念，而不是文本中的共现。然后可以将其可视化为一种二分图，其中一组节点代表实体，另一组节点代表属性（概念类是一组共享相同属性的实体，例如，概念类人类包含不同类型的实体（性别、职业、国籍等），这些实体仍具有人类属性）。换句话说，模型必须从共享属性中找出哪些实体属于同一个概念类（这可以从图中猜测和可视化，人类和物体不共享相同的属性）。作者询问模型是否可以理解这些概念并将看不见的实体分配给这些概念类。