模型的涌现属性

突现属性不仅是人工智能的一个概念，也是所有学科（从物理学到生物学）的一个概念。这一概念一直让科学家着迷，他们既在描述这一概念，也在试图理解其起源。诺贝尔物理学奖得主PW Anderson用“更多即不同”这一观点综合了这一思想。从某种意义上说，它可以被定义为一种突现属性，即随着系统复杂性的增加而出现的属性，并且无法预测。

例如，你可以用小分子编码信息，但 DNA（大分子）编码的是基因组。或者少量的铀不会引起核反应。

最近，人工智能模型也观察到了同样的行为，最常用的定义之一是：“如果某种能力在较小的模型中不存在，但在较大的模型中存在，那么这种能力就是新兴的。”

这意味着什么以及如何观察？

OpenAI 在一篇文章中指出，模型的性能遵循一个缩放定律：数据和参数越多，性能越好。在涌现属性的情况下，预期的是一种特定的模式：随着参数数量的增加，性能几乎是随机的，直到在某个阈值处观察到某种属性（性能开始明显改善）。基本上，我们会看到曲线的急剧转变（称为相变）。这也被称为涌现，因为通过检查小规模模型是无法预测的。

简而言之，如果一个属性满足以下两个条件，我们可以说它被认为是突发的：

锐度，存在与不存在之间的过渡是不连续的。
不可预测性，随着参数的增加，其出现无法预测

此外，扩展 Transformer 主要考虑三个因素：计算量、模型参数数量和训练数据集大小。

这三个因素使得模型成本高昂。另一方面，这些特性尤其受到追捧，也被用来作为增加参数数量的理由（尽管模型并没有得到最佳训练）。

一些研究也关注了为什么会出现这些特性，为什么会这样出现，以及为什么会出现在特定的阈值上。根据一些研究，可以预测某些特性的出现：

例如，如果多步骤推理任务需要 l 步连续计算，则可能需要深度至少为 O (l) 层的模型。（来源）

有人提出了其他解释，比如参数数量越多越有助于记忆。随着数据的增加，模型会获得知识，并在某个时候达到临界质量，从而能够支持该属性

此外，一些作者提出，不同的架构和更好的数据质量可能导致这些属性在更小的模型中出现。

LLaMA 就体现出了这一点，其中一个明显较小的 GPT-3 模型表现出了可比的特性和性能。

META 的 LLaMA：打败巨人的小型语言模型

META 开源模型将帮助我们理解 LM 偏见是如何产生的

medium.com

无论如何，问题仍然存在，为什么会出现这些属性？

Anthropic 在一项研究中指出：

大型生成模型具有高可预测性和高不可预测性（特定模型的能力、输入和输出无法提前预测）的矛盾组合。高可预测性是指模型损失随着训练资源的消耗而改善，并且往往与许多任务的性能提高呈松散相关。（来源）

简单来说，对于LLM来说，有些事情我们可以预测，有些事情我们无法预测。例如，缩放定律允许我们预测增加参数数量将提高规模性能，但同时，我们无法预测某些属性的出现，这些属性反而会随着参数的增加而突然出现。

因此根据这个原则，我们甚至不应该试图预测它们。

为什么我们对预测这些属性如此感兴趣？

第一个原因是纯粹的经济学：如果某个属性仅在一定数量的参数下出现，我们就不能使用较小的模型。这会大大增加训练和硬件的成本。另一方面，如果无法预测某个属性，我们甚至无法估算获得该属性的成本。

其次，它证明了在寻找新属性的过程中参数过度增加的合理性，这些新属性出现在数万亿个参数中。毕竟，这可能是获得某些属性的唯一方法。

此外，这还会带来安全问题，因为我们无法预测模型在一定规模下会具有什么属性。模型可能会产生有问题的属性，并且可能不适合部署。此外，如此大的模型更难测试是否存在偏见和危害。

此外，缩放定律和突现特性一直是人们热衷于大型模型的原因之一。

这开启了一个可怕的场景，一方面，我们拥有大量开源模型，其训练成本降低，聊天机器人的使用增加。但另一方面，我们无法预测这些模型的属性。

无限巴别法学硕士图书馆

开源、数据和关注：法学硕士的未来将如何改变

towardsdatascience.com

如果新兴房地产只是海市蜃楼怎么办？

2020 年，谷歌研究人员意识到了法学硕士的潜力，并预测法学硕士将带来变革。因此，他们要求社区提供既不同又困难的任务示例，然后可以用来测试法学硕士的能力。因此，超越模仿游戏基准(BIG-bench) 项目诞生了。

该项目实际上也专注于研究突发事件和令人惊讶的特性并试图了解它们的起源。

事实上，数据集和文章讨论了概率的出现并试图提供解释。例如，超过一百亿个参数的模型可以解决三位数加法或两位数乘法问题。

基于这篇文章，斯坦福大学的研究人员在最近的一篇论文中对语言模型的突现属性的概念本身提出了质疑。

大型语言模型的突发能力只是幻象吗？

最近的研究表明，大型语言模型表现出新兴能力，这种能力在小规模模型中并不存在……

arxiv.org

事实上，作者注意到，突现属性似乎仅出现在非线性或不连续的度量中。

作者为这些特性的出现提供了另一种假设。他们认为，关键在于性能测量的选择。换句话说，随着模型规模的增加，每个标记的错误率平稳、连续且可预测地增长。但随后，研究作者使用不连续的指标来衡量任务的性能，因此看起来模型执行任务的速度突然加快了。

换句话说，小模型在某项任务上表现不错，但我们无法检测到它，因为所选的指标是不连续的，并且只有在一定的误差（在一定的模型尺寸上实现）下我们才能观察到任务中的表现。

据作者称，测试示例数量较少也导致小模型无法得到正确的评估。

为了证明这一点，作者从缩放定律开始，根据该定律，性能（或错误）随着指标数量的增加而增加，并且确实在不同量级上表现出一致性。正如作者所指出的，许多指标要求序列中的所有标记都是正确的，尤其是在处理长序列时会导致急剧增加。

他们之所以能够使用 InstructGPT/GPT-3 进行这些实验，是因为遗憾的是无法访问 LaMDA、Gopher 和 Chinchilla 等模型。这阻止了他们对不同模型进行广泛的评估。由于 LLM 仅针对文本进行训练（而 GPT 针对预测下一个单词进行训练），因此 LLM 的令人惊讶的能力之一是整数算术任务。正如 GPT-3 介绍文章所示，此属性被定义为随尺度函数而出现的/