扩展语言，扩展思维：LLM 词汇量缩放

“我的语言的极限意味着我的世界的极限。”——维特根斯坦

大型语言模型 (LLM)已实现可靠的性能。这一切都归功于 Transformer 及其以自监督方式从大量文本中学习的能力。显然，这种简单的方法允许模型学习越来越复杂的文本表示，而无需人工解释。这使得收集大量文本语料库并使用越来越大的数据集训练模型成为可能。

随后，人们注意到，通过增加参数数量和训练集中的标记数量，模型的能力得到了改善。这导致研究人员专注于寻找模型能力与参数数量之间的关系。这些经验定律通常称为缩放定律：

一组经验公式，用于预测模型性能如何扩展，主要是随着计算浮点运算 (FLOP)、模型参数和训练数据量的变化而变化。这些研究表明，幂律拟合可以有效预测语言建模损失，进而预测下游性能。 —来源

这些缩放定律具有实际意义，因为它们不仅与性能有关，而且与所谓的突现属性有关（尽管这仍然是一个有争议的话题）。

无论如何，这些缩放定律似乎与性能有某种关系。问题是，今天我们在架构上存在差异，而且也有关于我们真正需要计算哪些参数的讨论。例如，与词汇表相关的参数通常不被考虑。词汇表的大小对模型的影响是无差别的，应该是需要考虑的重要参数。例如，更大的词汇表允许更大的标记化生育力（将文本减少为更少的标记的能力）。此外，更大的词汇量增加了模型的表示能力，使其能够捕捉文本中更多的概念和细微差别。但另一方面，更大的词汇量会导致较罕见的标记更缺乏代表性。因此，必须取得平衡，选择合适的词汇量。可惜的是，我们没有词汇量大小的缩放定律。

对于 LLM 来说，计算最优词汇量的大小是多少？

刚刚发表的一篇论文讨论了这个问题：尝试为词汇量定义一个缩放规律。

使用词汇表扩展规律：更大的模型需要更大的词汇表

扩展大型语言模型 (LLM) 的研究主要集中在模型参数和训练数据大小……

arxiv.org

如何定义缩放定律？

从经验上看。通常，您要做的是通过改变变量来训练不同的模型，然后选择损失较低的模型。例如，如果我们想通过词汇量定义缩放定律，我们会训练具有不断增加的参数数量的不同模型。同时，对于具有多个参数的模型，我们会训练几个变体，其中我们改变词汇量（称为 IsoFLOP）。完成后，我们可以拟合幂律并建立关联（这种方法并不便宜）。

对于一个模型，我们有参数的数量N（Nv 是词汇表参数，加上 Nnv 是与词汇无关的参数，如 Transformer 块）。训练数据可以用标记数量（D）或字符数量（H）来衡量。由于标记数量取决于词汇表大小，因此最好使用训练字符。D/H 的比率是标记器的压缩比（因此，我们用来表示 H 的标记越多，D 就越大）。然后我们必须校正损失，因为词汇表越大，预测的机会就越大，因此错误的可能性也就越大（因此，在计算损失时我们必须考虑词汇表的大小，这是一种标准化）。

作者提出的第一个问题是最佳词汇量是否受计算限制（换句话说，他们询问它是否取决于一个人的计算预算）。

作者注意到一些有趣的结果：

增加词汇量很容易提高标记化能力，换句话说，模型可以学习更多字符，从而表现更好。但是，当词汇量过大时，性能就会下降。换句话说，模型无法用有限的数据进行充分训练，因此词汇量过大是有害的。
有了更多的计算资源（更多的参数），你也可以扩大词汇量。损失先减少然后增加，因此词汇量的最佳值存在一个软点。这表明模型复杂度和计算约束之间存在权衡（如果模型太小，它就无法有效处理太大的词汇量）。

对于给定的 FLOPs 预算，非词汇参数、词汇参数和训练数据的最佳分配是什么？

作者测试了从 33M 到 1.13B 的模型，只改变了词汇量（从 4K 到 96K）。之后，他们根据获得的曲线进行拟合，得出参数大小、字符数和词汇量的比例定律。结果显示：

确认 LLM 需要大量数据，因此为训练数据分配计算预算非常重要（标记越多越好）。词汇量随幂律变化。
模型参数（而非词汇参数）的数量越多，词汇量就应该越大。然而，这些参数的扩展速度应该比其他参数慢（一旦拥有了具有大量词汇量的丰富嵌入空间，使用 transformer 块增加模型的大小就变得更加关键）。
你也可以进行逆向计算，给定一个损失值，你就可以计算出最佳词汇量