得益于大型语言模型(简称 LLM),人工智能现在吸引了几乎所有人的注意力。ChatGPT 可能是最著名的 LLM,由于自然语言是一种非常自然的界面,它使得人工智能领域最近的突破变得人人皆可访问,因此它的受欢迎程度迅速飙升。然而,除非您是数据科学家或从事其他与 AI 相关的工作,否则 LLM 的工作原理仍然不太为人所知。在本文中,我将尝试改变这种状况。
不可否认,这是一个雄心勃勃的目标。毕竟,我们今天拥有的强大的大型语言模型是数十年人工智能研究的结晶。不幸的是,大多数涉及它们的文章都属于以下两种类型:它们要么非常技术性并且需要大量的先验知识,要么太过琐碎以至于你最终不会比以前了解更多。
本文旨在在这两种方法之间取得平衡。或者让我换一种说法,它旨在带你从零开始,了解大型语言模型是如何培养的,以及为什么它们如此有效。我们将通过一路挑选所有相关的部分来做到这一点。
本文不会深入探讨所有细节,因此我们将尽可能依靠直觉而不是数学,并尽可能依靠视觉。但正如您所看到的,虽然 LLM 的详细内容非常复杂,但其主要机制非常直观,仅凭这一点就能让我们走得更远。
本文还可以帮助您更好地利用 ChatGPT 等 LLM。事实上,我们将学习一些巧妙的技巧,您可以应用这些技巧来增加获得有用回复的机会。或者正如著名人工智能研究员和工程师 Andrei Karparthy 最近尖锐地说的那样:“英语是最热门的新编程语言。”
但首先,让我们尝试了解大型语言模型 (LLM) 在人工智能领域中的地位。
人工智能领域通常以层次来表示:
- 人工智能(AI)是一个非常宽泛的术语,但通常它涉及智能机器。
- 机器学习(ML) 是人工智能的一个分支,专门用于数据中的模式识别。你可以想象,一旦你识别出一种模式,你就可以将该模式应用于新的观察结果。这就是这个想法的本质,但我们稍后会讲到这一点。
- 深度学习是机器学习中专注于非结构化数据(包括文本和图像)的领域。它依赖于人工神经网络,这是一种(大致)受人类大脑启发的方法。
- 大型语言模型(LLM) 专门处理文本,这将是本文的重点。
在我们继续讲解的过程中,我们会从每一层中挑选出相关的部分。我们只会跳过最外层的人工智能(因为它太笼统了),直接进入机器学习。
机器学习的目标是发现数据中的模式。或者更具体地说,是描述输入和结果之间关系的模式。最好用一个例子来解释这一点。
假设我们想区分我最喜欢的两种音乐流派:雷鬼音乐和R&B。如果你不熟悉这两种音乐流派,这里有一个非常简短的介绍,可以帮助我们理解这项任务。雷鬼音乐是一种拉丁都市音乐流派,以其活泼的节奏和舞曲节奏而闻名,而 R&B(节奏布鲁斯)是一种植根于非裔美国音乐传统的音乐流派,其特点是深情的歌声和欢快与慢节奏歌曲的混合。
假设我们有 20 首歌曲。我们知道每首歌曲的节奏和能量,这两个指标可以简单地测量或计算任何歌曲。此外,我们用流派标记它们,要么是雷鬼,要么是 R&B。当我们将数据可视化时,我们可以看到高能量、高节奏的歌曲主要是雷鬼,而低节奏、低能量的歌曲主要是 R&B,这是有道理的。
然而,我们希望避免总是手动标记流派,因为这很耗时,而且不可扩展。相反,我们可以了解歌曲指标(节奏、能量)与流派之间的关系,然后仅使用现成的指标进行预测。
用机器学习术语来说,我们称这是一个分类问题,因为结果变量(流派)只能采用一组固定的类别/标签之一 — — 此处为雷鬼和 R&B。这与回归问题相反,回归问题的结果是一个连续值(例如温度或距离)。
现在,我们可以使用标记的数据集(即使用一组我们确实知道其类型的歌曲)来“训练”机器学习模型(或“分类器”)。从视觉上讲,模型的训练在这里的作用是找到最能区分两个类别的界线。
这有什么用呢?好吧,既然我们知道了这条界线,对于任何一首新歌,我们都可以预测它是一首雷鬼歌曲还是一首 R&B 歌曲,这取决于这首歌属于哪一边。我们所需要的只是节奏和能量,我们认为这些更容易获得。这比让人类为每首歌分配流派要简单得多,也更具可扩展性。
此外,你可以想象,距离线越远,我们就越有把握预测是正确的。因此,我们通常也可以根据距离线的远近来判断我们对预测的正确性有多大信心。例如,对于我们新的低能量、低节奏的歌曲,我们可能有 98% 的把握认为这是一首 R&B 歌曲,而有 2% 的可能性认为它实际上是雷鬼音乐。
但当然,现实往往比这更复杂。
划分类别的最佳边界可能不是线性的。换句话说,输入和结果之间的关系可能更复杂。它可能像上图一样弯曲,甚至比上图复杂很多倍。
现实通常在另一个方面也更加复杂。与我们的例子中只有两个输入不同,我们通常有数十、数百甚至数千个输入变量。此外,我们通常有两个以上的类别。并且所有类别都可以通过极其复杂的非线性关系依赖于所有这些输入。
即使在我们的例子中,我们也知道现实中不止两种流派,除了节奏和能量,我们还需要更多的指标。它们之间的关系可能也不是那么简单。
我主要想让你记住的是:输入和输出之间的关系越复杂,我们为了学习这种关系所需要的机器学习模型就越复杂和强大。通常,复杂性会随着输入的数量和类别的数量而增加。
除此之外,我们还需要更多数据。稍后您就会明白为什么这很重要。
现在让我们来讨论一个略有不同的问题,但我们将尝试应用我们之前的思维模型。在我们的新问题中,我们将输入一张图片,例如,这张图片是一只在袋子里的可爱猫咪(因为有猫咪的例子总是最好的)。
至于我们的结果,假设这次我们有三个可能的标签:老虎、猫和狐狸。如果你需要一些动力来完成这项任务,假设我们可能想要保护一群羊,如果我们看到老虎就发出警报,但如果看到猫或狐狸就不发出警报。
我们已经知道这又是一个分类任务,因为输出只能采用几个固定类别中的一个。因此,就像以前一样,我们可以简单地使用一些可用的标记数据(即具有指定类别标签的图像)并训练机器学习模型。
然而,我们处理视觉输入的方式并不十分明确,因为计算机只能处理数字输入。我们的歌曲指标能量和节奏当然是数字的。幸运的是,图像也只是数字输入,因为它们由像素组成。它们有高度、宽度和三个通道(红色、绿色和蓝色)。因此,理论上,我们可以直接将像素输入机器学习模型(暂时忽略这里的空间元素,我们之前没有处理过)。
然而,现在我们面临两个问题。首先,即使是一张小的、低质量的 224×224 图像也包含超过 150,000 个像素(224x224x3)。请记住,我们之前讨论的是最多有数百个输入变量(很少超过一千个),但现在我们突然有至少 150,000 个。
其次,如果你考虑原始像素和类别标签之间的关系,就会发现它非常复杂,至少从机器学习的角度来看是这样。我们的人类大脑具有惊人的能力,通常可以很容易地区分老虎、狐狸和猫。但是,如果你逐个查看 150,000 个像素,你将不知道图像中包含什么。但这正是机器学习模型看待它们的方式,因此它需要从头开始学习这些原始像素和图像标签之间的映射或关系,这不是一项简单的任务。
让我们考虑另一种极其复杂的输入输出关系——句子和其情绪之间的关系。情绪通常是指句子所传达的情感,无论是积极的还是消极的。
让我们再次形式化问题设置:这里的输入是一系列单词,即一个句子,情绪是我们的结果变量。和以前一样,这是一个分类任务,这次有两个可能的标签,即正面或负面。
与前面讨论的图像示例一样,作为人类,我们自然而然地理解这种关系,但是我们能否教会机器学习模型做同样的事情呢?
在回答这个问题之前,我们一开始还不清楚如何将单词转换为机器学习模型的数字输入。事实上,这比我们在图像中看到的情况要复杂一两个层次,因为图像本质上已经是数字了。但单词不是这种情况。我们不会在这里详细介绍,但你需要知道的是,每个单词都可以转换成一个词嵌入。
简而言之,词向量表示单词的语义和句法含义,通常在特定上下文中。这些向量可以作为机器学习模型训练的一部分获得,也可以通过单独的训练程序获得。通常,每个单词的词向量由数十到数千个变量组成。
总而言之,从这里可以学到的是,我们可以把一个句子变成一个数字输入序列,即包含语义和句法意义的词嵌入。然后可以将其输入到机器学习模型中。(同样,如果你细心观察,你可能会注意到有一个新的顺序维度,它与我们之前的例子不同,但我们在这里也会忽略它。)
很好,但现在我们面临的挑战与视觉输入相同。你可以想象,对于一个长句子(或段落,甚至整个文档),由于词向量的大小很大,我们可以很快获得大量的输入。
第二个问题是语言和情感之间的关系,这种关系很复杂——非常复杂。想想“那真是一次伟大的跌倒”这样的句子,以及它的各种解读方式(更不用说讽刺了)。
我们需要的是极其强大的机器学习模型和大量数据。这就是深度学习的用武之地。
通过了解机器学习的基础知识和使用更强大模型背后的动机,我们已经朝着理解 LLM 迈出了重要一步,现在我们将通过介绍深度学习迈出另一大步。
我们讨论过这样一个事实:如果输入和输出之间的关系非常复杂,并且输入或输出变量的数量很大(之前的图像和语言示例都是这种情况),我们需要更灵活、更强大的模型。线性模型或任何接近线性模型的模型都无法解决这类视觉或情感分类任务。
这就是神经网络发挥作用的地方。
神经网络是一种强大的机器学习模型,可以对任意复杂的关系进行建模。它们是大规模学习此类复杂关系的引擎。
事实上,神经网络大致上是受大脑启发而来的,尽管两者之间的相似性尚有争议。它们的基本结构相对简单。它们由一系列相连的“神经元”层组成,输入信号通过这些神经元层来预测结果变量。你可以将它们视为堆叠在一起的多层线性回归,并在其间添加非线性,这使得神经网络能够模拟高度非线性的关系。
神经网络通常有多层深(因此得名深度学习),这意味着它们可以非常大。例如,ChatGPT 基于一个由 1760 亿个神经元组成的神经网络,这比人脑中大约 1000 亿个神经元还要多。
因此,从这里开始我们将假设神经网络作为我们的机器学习模型,并考虑到我们还学习了如何处理图像和文本。
最后,我们可以开始讨论大型语言模型,这才是真正有趣的地方。如果你已经读到这里,你应该已经掌握了所有的知识,可以理解 LLM。
有什么好的开始方法吗?也许可以解释一下大型语言模型的实际含义。我们已经知道大型的含义,在这种情况下,它只是指神经网络中神经元(也称为参数)的数量。大型语言模型的构成没有明确的数字,但您可能希望将超过 10 亿个神经元的一切都视为大型。
既然已经确定了这一点,那么什么是“语言模型”呢?接下来让我们来讨论一下这个问题——并且要知道,稍后我们还将了解 ChatGPT 中的 GPT 代表什么。但要一步一步来。
让我们将以下想法视为一个机器学习问题:给定单词序列(即句子或段落)中的下一个单词是什么?换句话说,我们只是想学习如何随时预测下一个单词。从本文前面的内容中,我们已经了解了将其视为机器学习问题所需的一切。事实上,这项任务与我们之前看到的情绪分类并无不同。
就像那个例子一样,神经网络的输入是一系列单词,但现在,输出只是下一个单词。同样,这只是一个分类任务。唯一的区别是,我们现在的类别不再只有两个或几个,而是和单词一样多——假设大约有 50,000 个。这就是语言建模的目的——学习预测下一个单词。
好吧,你可以想象,这比二元情绪分类复杂得多。但现在我们也了解了神经网络及其强大功能,对这个问题的唯一回应其实是“为什么不呢?”
快速免责声明:当然,我们在这里简化了许多事情(就像整篇文章所做的那样)。实际上事情要复杂一些,但这不应该妨碍我们理解主要机制,这就是我们简化并省略一些细节的原因。
我们知道了任务,现在我们需要数据来训练神经网络。为我们的“下一个单词预测”任务创建大量数据其实并不难。互联网、书籍、研究论文等都有大量的文本。我们可以轻松地从所有这些中创建一个庞大的数据集。我们甚至不需要标记数据,因为下一个单词本身就是标签,这就是为什么这也被称为自监督学习。
上图显示了如何做到这一点。只需一个序列就可以转换成多个序列进行训练。我们有很多这样的序列。重要的是,我们对许多短序列和长序列(有些序列多达数千个单词)执行此操作,以便在每个上下文中我们都能了解下一个单词应该是什么。
总而言之,我们在这里所做的就是训练一个神经网络 (LLM),让它预测给定单词序列中的下一个单词,无论该序列是长是短,是德语还是英语还是其他语言,无论是推文还是数学公式、诗歌还是代码片段。所有这些都是我们将在训练数据中找到的序列。
如果我们拥有足够大的神经网络以及足够的数据,那么 LLM 就会非常擅长预测下一个单词。它会完美吗?当然不会,因为通常有多个单词可以跟在一个序列后面。但它会擅长选择一个在句法和语义上合适的单词。
现在我们可以预测一个单词,我们可以将扩展的序列反馈给 LLM 并预测另一个单词,依此类推。换句话说,使用我们训练过的 LLM,我们现在可以生成文本,而不仅仅是单个单词。这就是为什么 LLM 是我们所说的生成式 AI 的一个例子。我们刚刚教会了 LLM 说话,也就是说,一次说一个单词。
我认为还有一个细节需要理解。我们不一定总是要预测最有可能的单词。我们可以从给定时间最有可能的五个单词中进行抽样。因此,我们可能会从 LLM 中获得更多创造力。一些 LLM 实际上允许您选择输出的确定性或创造性。这也是为什么在使用这种抽样策略的 ChatGPT 中,当您重新生成响应时通常不会得到相同的答案。
说到 ChatGPT,你现在可以问自己为什么它不叫 ChatLLM。事实证明,语言建模并不是故事的结束——事实上,这只是一个开始。那么 ChatGPT 中的 GPT 代表什么呢?
实际上,我们刚刚了解了 G 代表什么,即“生成”——这意味着它是以语言生成为借口进行训练的,我们已经讨论过了。但是 P 和 T 呢?
我们在这里将略过 T,它代表“transformer”——不是电影里的那个(抱歉),而是一种正在使用的神经网络架构类型。这实际上不应该困扰我们,但如果你很好奇,并且只想知道它的主要优势,那就是 transformer 架构之所以如此有效,是因为它可以将注意力集中在输入序列中任何时候最相关的部分上。你可以说这与人类的工作方式相似。我们也需要将注意力集中在与任务最相关的部分上,而忽略其余部分。
现在来谈谈 P,它代表“预训练”。接下来,我们将讨论为什么我们突然开始谈论预训练,而不仅仅是训练。
原因是像 ChatGPT 这样的大型语言模型实际上是分阶段训练的。
预训练
第一阶段是预训练,也就是我们刚才经历的阶段。这个阶段需要大量的数据来学习预测下一个单词。在这个阶段,模型不仅要学习掌握语言的语法和句法,还要获得大量关于世界的知识,甚至一些我们稍后会谈到的新兴能力。
但现在我有几个问题想问你:首先,这种预先培训可能存在什么问题?当然存在一些问题,但我想在这里指出的问题与 LLM 真正学到的东西有关。
也就是说,它主要学会了对某个话题滔滔不绝地讲个不停。它甚至可能做得非常好,但它无法很好地响应你通常想给人工智能的输入,比如问题或指令。问题是这个模型还没有学会如何成为一名助手,因此也没有表现得像一个助手。
例如,如果你问一个经过预训练的 LLM“你的名字是什么?”它可能会回答“你的姓氏是什么?”,因为这是它在预训练期间见过的数据类型,例如在许多空表格中。它只是试图完成输入序列。
它在遵循指令方面表现不佳,因为这种语言结构(即指令后跟响应)在训练数据中并不常见。也许 Quora 或 StackOverflow 是最接近这种结构的代表。
在这个阶段,我们说 LLM 与人类意图不一致。一致性是 LLM 的一个重要主题,我们将学习如何在很大程度上解决这个问题,因为事实证明,那些预先训练过的 LLM 实际上非常易于操控。因此,即使它们最初对指令的反应不好,它们也可以被教导这样做。
指令微调和 RLHF
这就是指令调整的作用所在。我们采用预先训练过的 LLM 及其当前的能力,基本上做我们以前所做的事情——即学习一次预测一个单词——但现在我们只使用高质量的指令和响应对作为我们的训练数据。
这样,模型就不再只是学习完成文本,而是学习成为一个有用的助手,遵循指令并以符合用户意图的方式做出响应。此指令数据集的大小通常比预训练集小很多。这是因为高质量的指令-响应对的创建成本要高得多,因为它们通常来自人类。这与我们在预训练中使用的廉价自监督标签非常不同。这就是为什么这个阶段也称为监督指令微调。
有些 LLM(例如 ChatGPT)还会经历第三个阶段,即通过人类反馈进行强化学习(RLHF)。我们不会在这里详细介绍,但其目的类似于指令微调。RLHF 还有助于对齐并确保 LLM 的输出反映人类的价值观和偏好。一些早期研究表明,这一阶段对于达到或超越人类水平的表现至关重要。事实上,将强化学习和语言建模领域结合起来被证明是特别有前景的,并且可能会对我们目前拥有的 LLM 带来巨大的改进。
现在让我们对一些常见用例测试一下我们的理解。
首先,为什么 LLM 可以对较长的文本进行总结?(如果你还不知道,它做得非常好。只需粘贴一份文档并让它进行总结。)
要理解原因,我们需要考虑训练数据。事实上,人们经常在互联网、研究论文、书籍等中进行总结。因此,接受过这些数据训练的大型语言模型也学会了如何做到这一点。它学会关注要点并将其压缩成短文。
请注意,生成摘要时,全文是 LLM 输入序列的一部分。这类似于一篇研究论文,它有一个结论,而全文出现在结论之前。
因此,该技能可能已经在预训练期间学习过了,尽管指令微调肯定有助于进一步提高该技能。我们可以假设这个阶段也包括一些总结示例。
第二,为什么LLM可以回答常识性的问题?
如上所述,能够充当助手并做出适当反应的能力归功于指令微调和 RLHF。但回答问题本身的所有(或大部分)知识都是在预训练期间获得的。
当然,这又引出了另一个大问题:如果 LLM 不知道答案怎么办?不幸的是,在这种情况下,它可能只是编造一个答案。要理解原因,我们需要再次思考训练数据和训练目标。
您可能听说过大型语言模型(LLM) 中的“幻觉”一词,它指的是大型语言模型 (LLM) 编造不该编造的事实的现象。
为什么会这样?因为 LLM 只学会生成文本,而不是生成真实的文本。训练过程中,模型无法判断训练数据的真实性或可靠性。然而,这甚至不是主要问题,主要问题在于,互联网和书籍中的文本通常听起来很可信,因此 LLM 当然也会学会这样,即使它是错误的。这样一来,LLM 就几乎没有不确定性的迹象。
话虽如此,这是一个活跃的研究领域,我们可以预期,随着时间的推移,LLM 出现幻觉的几率会降低。例如,在教学调整期间,我们可以尝试教 LLM 在一定程度上避免出现幻觉,但只有时间才能证明我们是否能完全解决这个问题。
你可能会惊讶于我们现在居然可以一起尝试解决这个问题。我们拥有所需的知识来找出至少能部分提供帮助的解决方案,而且该解决方案目前已被广泛使用。
假设你向大型语言模型提出以下问题:谁是哥伦比亚现任总统?大型语言模型很可能会回答错误的名字。这可能有两个原因:
- 第一个是我们已经提到的:LLM 可能只是出现幻觉并简单地用错误的名字甚至是假名来回应。
- 第二个我顺便提一下:大型语言模型只接受特定截止日期前的数据训练,而这个截止日期最早可能是去年。因此,大型语言模型甚至无法确切地知道现任总统是谁,因为自数据创建以来,情况可能已经发生了变化。
那么我们如何解决这两个问题呢?答案在于为模型提供一些相关的背景信息。这里的理由是,LLM 输入序列中的所有内容都可以随时供其处理,而它在预训练中获得的任何隐性知识对于它来说都更难且更难以检索。
假设我们将维基百科上关于哥伦比亚政治史的文章作为大型语言模型课程的背景。在这种情况下,它更有可能正确回答,因为它可以简单地从上下文中提取姓名(前提是它是最新的,并且当然包括现任总统)。
在上图中,您可以看到带有附加上下文的 LLM 的典型提示可能是什么样子。(顺便说一句,提示只是我们给予 LLM 的指令的另一个名称,即形成输入序列的指令。)
这个过程被称为将 LLM 置于上下文中,或者如果你愿意的话,置于现实世界中,而不是让它自由生成。
这正是 Bing Chat 和其他基于搜索的 LLM 的工作方式。它们首先使用搜索引擎从网络中提取相关上下文,然后将所有信息连同用户的初始问题一起传递给 LLM。请参阅上图以直观地了解这一过程。
现在我们已经达到了这样的程度,你几乎已经了解了最先进的 LLM 的主要机制(无论如何,截至 2023 年下半年)。
您可能会想“这其实没那么神奇”,因为所发生的只是一次预测一个单词。毕竟,这只是纯粹的统计。或者说,这是真的吗?
让我们回顾一下。这一切的神奇之处在于它的效果非常出色。事实上,每个人,甚至是 OpenAI 的研究人员,都对这种语言建模的进展感到惊讶。过去几年中,一个关键驱动因素就是神经网络和数据集的大规模扩展,这导致性能随之提高。例如,据报道,GPT-4 是一个总共拥有超过一万亿个参数的模型,它可以在律师资格考试或 AP 生物学考试中取得前 10% 的成绩。
令人惊讶的是,这些大型大型语言模型甚至表现出某些新兴能力,即解决任务和做他们没有经过明确训练的事情的能力。
在本文的最后一部分,我们将讨论一些新兴的能力,并向你展示一些如何使用它们来解决问题的技巧。
正如其名称所示,一种无处不在的新兴能力就是 LLM 可以执行训练中从未遇到过的全新任务,这被称为零样本。它所需要的只是一些关于如何解决任务的指令。
为了用一个愚蠢的例子来说明这种能力,你可以要求大型语言模型将一个句子从德语翻译成英语,同时只用以“f”开头的单词来回答。
例如,当被要求翻译一个仅使用以“f”开头的单词的句子时,一位大型语言模型将“Die Katze schläft gerne in der Box”(德语,字面意思是“猫喜欢睡在盒子里”)翻译为“猫科动物朋友找到了毛茸茸的堡垒”,我认为这是一个非常酷的翻译。
对于更复杂的任务,您可能很快就会意识到零样本提示通常需要非常详细的说明,即使这样,性能也往往远非完美。
为了与人类智能建立另一种联系,如果有人告诉你要执行一项新任务,你可能会要求提供一些示例或演示来说明如何执行该任务。大型语言模型 (LLM) 也可以从中受益。
举个例子,假设你想要一个模型将不同的货币金额转换成一种通用格式。你可以详细描述你想要的内容,也可以只给出一个简短的说明和一些示例演示。上图显示了一个示例任务。
使用这个提示,模型应该在最后一个例子上做得很好,即“牛排:24.99 美元”,并回答 24.99 美元。
请注意,我们只是省略了上一个示例的解决方案。请记住,LLM 本质上仍然是文本完成器,因此请保持一致的结构。您几乎应该强制模型只回复您想要的内容,就像我们在上例中所做的那样。
总而言之,如果 LLM 以零样本方式完成任务时遇到困难,一般建议提供一些示例。您会发现这通常有助于 LLM 理解任务,从而使表现更好、更可靠。
LLM 的另一个有趣能力也让人联想到人类智能。当任务更复杂且需要多步推理才能解决时,它尤其有用。
假设我问你“梅西出生前一年谁赢得了世界杯?”你会怎么做?你可能会一步一步地解决这个问题,写下得出正确答案所需的任何中间解决方案。这正是大型语言模型可以做到的。
研究发现,只需告诉大型语言模型“一步一步思考”就能大大提高其在许多任务中的表现。
为什么这样做有效?我们已经知道了回答这个问题所需的一切。问题是,这种不寻常的复合知识可能并不直接存在于大型语言模型的内存中。然而,所有单独的事实可能都存在,比如梅西的生日,以及各届世界杯的获胜者。
让 LLM 逐渐形成最终答案是有帮助的,因为它给了模型时间去大声思考——可以说是工作记忆——并在给出最终答案之前解决更简单的子问题。
这里的关键是要记住,待生成单词左侧的所有内容都是模型可以依赖的上下文。因此,如上图所示,当模型说出“阿根廷”时,梅西的生日和我们询问的世界杯年份已经在 LLM 的工作记忆中了,这使得正确回答变得更容易。
结论
在结束之前,我想回答我在文章前面提出的一个问题。LLM 真的只是预测下一个单词吗?还是它还有更多功能?一些研究人员支持后者,他们说,要在任何情况下都如此擅长预测下一个单词,LLM 实际上必须在内部获得对世界的压缩理解。而不是像其他人所说的那样,该模型只是学会了记忆和复制在训练期间看到的模式,而没有真正理解语言、世界或其他任何东西。
目前,这两种观点可能没有明确的对错之分;可能只是看待同一事物的不同方式。显然,这些大型语言模型被证明非常有用,并展示了令人印象深刻的知识和推理能力,甚至可能展现出一些通用智能的火花。但这是否或在多大程度上类似于人类智能仍有待确定,语言建模还能在多大程度上改善现有技术水平也尚待确定。
RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/4570