大型语言模型 (LLM)（如 ChatGPT）所拥有的能力远远超出了我女儿的能力。她将无法用多种语言进行连贯交流，无法阅读 LLM 训练数据中存在的书籍，也无法快速生成文本。当我们将类似人类的能力归因于 LLM 时，我们会陷入拟人化偏见，将其能力比作我们自己的能力。但我们是否也表现出以人为中心的偏见，未能认识到 LLM 始终如一地展现的能力？让我们回顾一下迄今为止的成绩单：

确实，大型语言模型没有记忆——尽管我们可以通过总结过去的对话并将该信息包含在提示中来模拟记忆。
LLM 没有内在目标——尽管它们可以被提示生成听起来令人信服的以目标为导向的文本。
LLM 无法在现实世界中行动——尽管有人可能会创建一个提示来展示这一点。

虽然他们表现出色，但他们仍然缺乏我 21 个月大的女儿所具备的一些基本能力。我们可以通过正确的提示和工具模仿其中一些能力。在响应此类提示生成连贯的文本时，LLM 始终表现出理解我们想要的东西的明显能力。但 LLM 真正“理解”到什么程度呢？

大型语言模型 (LLM) 课程

文本“使用上下文预测最有可能出现的单词 [MASK]”显示在每个单词周围。从“[MASK]”单词发出的线条显示该单词对其周围单词的关注程度。这些线条被标记为“注意力图”。箭头显示 [MASK] 是下一个要预测的单词。 — 不完整句子的假设注意力图：“使用上下文来预测最有可能发生的事情 [MASK]”。

我谈论的是一种非常特殊的 LLM 类型：基于转换器的自回归大型语言模型。由于已经有许多详细的文章解释了不同复杂程度的转换器，因此我不会深入讨论细节。相反，让我们关注 LLM 的核心功能：它们是统计模型，可以预测在给定某些上下文的情况下某个 token 出现在一段文本中的可能性。

现在想象一下我创建了一个复杂的天气模型*，其中地球大气层的斑块变成了“标记”。每个标记都有湿度、温度和气压等属性。我使用该模型来预测这些属性随时间的变化。如果时间步长变短，斑块变小，模型就会越来越接近真实世界的状态。这个模型试图根据我们以前见过的天气情况，捕捉到我们下次看到的天气的可能性。它可以学会非常准确地预测，例如，随着时间的推移，在空气温暖、潮湿和低压的地区，气旋的出现。但它并不是对地球天气物理的模拟，就像大型语言模型不是对大脑活动的模拟一样。

如果 LLM 是文本的统计模型，那么它究竟在建模什么？我想象中的天气预报模型试图捕捉产生天气的大气条件的统计数据。但是生成文本的统计过程是什么？生成文本的过程是人类大脑，人类需要对世界有一定的了解才能生成文本。如果一个模型可以有效地预测人类可能会写的文本，那么这种预测是否会带来“理解”？

大型语言模型 (LLM) 的培养方式

LLM 经过训练可以优化目标，从而减少在特定上下文中遇到特定标记的意外情况。如果模型在训练数据中遇到标记并为其分配较低的概率，则模型的权重会进行调整以赋予其更高的概率。

将此与我女儿学习使用语言的方式进行比较。当她想要某样东西时，她会使用语言来表达自己的愿望。首先，她在某种程度上了解自己想要什么。然后，她必须了解要使用哪些词语才能得到她想要的东西。最近，她想让我给她的果汁瓶装满水，但又不想让我把果汁瓶拿走或离开她去拿更多的果汁。虽然她的愿望相互矛盾且有点不合理，但她有几个目标：（1）喝更多的果汁，（2）把果汁瓶放在她身边，（3）爸爸也待在她身边。让我告诉你，她非常有效地表达了这一点。她的语言学习与她对这些词语如何让她得到她想要的东西的理解直接相关（即使她想要的是不合理的）。

如果大型语言模型表现出理解能力，那么这将是其世界统计模型的一个新兴属性。论文“向自然语言理解迈进”（Bender & Koller，2020）认为，真正的自然语言理解 (NLU) 需要扎根于现实世界。Bender & Koller 认为，仅根据文本数据中的统计模式进行训练的大型语言模型缺乏现实世界的背景或交互，无法实现实际理解。这意味着，与我的女儿不同，大型语言模型无法理解某些事情，因为它的交流没有扎根于现实世界。

什么是理解？

维基百科关于理解的页面将其描述为一种认知过程，涉及使用概念来模拟对象、情况或信息。它意味着足以支持智能行为的能力和倾向。路德维希·维特根斯坦认为，理解是依赖于情境的，并通过智能行为而不是仅仅拥有知识来表现。这让人想起了本德和科勒提出的基础要求。

一方面，理解需要准确的世界模型。另一方面，人们认为，人们需要使用这个模型来在世界上行动，才能真正理解。我认为，我们分析某人的行为只是作为衡量底层世界模型的代理。如果我们可以直接测量世界模型，我们就不需要看到理解的体现。

理解的局限性

哲学家约翰·塞尔的“中文房间”实验挑战了我们的理解概念（Searle，1980）。想象一个房间里贴满了如何回复用中文书写的人的详细说明。用中文写的便条从门下塞进来，房间里的人可以查找符号并按照说明写出答复。房间里的人不懂中文，但可以与外面的人进行令人信服的对话。显然，建造这个房间的人“听懂”中文，但外面的人并不是在与那个人交谈，而是在与这个房间交谈。这个房间听懂中文吗？

这与大型语言模型的工作方式非常相似，挑战了我们对理解的哲学认知。它之所以具有挑战性，正是因为我们本能地不相信房间可以理解某事。这到底意味着什么？如果理解是一种发生在信息处理系统层面的突发现象，那么为什么我们不能说房间可以理解事物呢？部分问题在于，对我们来说，理解伴随着一种主观的、有意识的理解体验。但很容易看出，这种体验可能是骗人的。

理解不必是二元的

您知道 7+7=14，但您理解它吗？如果我问您一些探索性问题，您可能会意识到您并不真正理解该等式在所有情况下的含义。例如，7+7=14 是关于宇宙的明确事实吗？不一定。7 个苹果加 7 个梨意味着您有 7 个苹果和 7 个梨。也许在某些情况下，您会数出 14 个水果，但您总是可以将两组不同的物品组合在一起吗？或者考虑 7pm + 7hours 是 2am（即 7+7=2 mod 12）。您能给我一个关于为什么 7+7=14 的可靠定义吗？该定义可以解释它何时为真以及为什么^？大多数人可能无法凭空做到这一点，但我们可以放心地说，大多数人都理解 7+7=14。问题并不总是是否理解某件事，而是理解的程度。

如果我们接受维特根斯坦关于理解是通过行为来表现的要求，那么就有一个简单的测试：如果我告诉你在晚上 7 点 7 点后到达，你知道凌晨 2 点到吗？我认为这是理解的证据，但不一定是理解的深度。

测量动物的理解能力

测量“理解”并不简单。在心理学中，心理测试是我们测量人类理解的主要方式。将同样的技术应用于非人类动物并不简单，这是一个称为生物符号学的研究领域。

动物的理解力是通过各种解决问题的任务来衡量的。例如，灵长类动物、海豚和鸟类（主要是鸦科动物）表现出解决问题的技能和使用复杂工具的能力，这表明它们对周围环境有一定的理解（Emery & Clayton，2004）。理解力并非人类独有，我们也可以衡量非人类的理解水平。

亚历山德拉·霍洛维茨 (Alexandra Horowitz) 所著的《狗的内心：狗看到、闻到和知道什么》一书对我们如何理解我们最亲密的动物伙伴——家养狗的思想和经历进行了一次有趣的探索。她描述了两个实验，研究模仿行为以及人类婴儿和狗的理解能力。

(1) 如果婴儿看到有人用头拨动电灯开关，他们可能会模仿这种行为。如果这个人手里拿着什么东西，婴儿就会明白他们不用手是有原因的。当婴儿模仿这种行为时，他们就会用手。 (2) 相比之下，狗更喜欢用鼻子而不是爪子按按钮。如果一只狗看到另一只狗用爪子按按钮来获得食物，那么它们就会模仿这种行为。但是，如果狗看到另一只狗因为嘴里叼着一个大物体而不能用鼻子，那么它就会明白需要按按钮，但用爪子是可选的。

一只可爱的棕色小狗嘴里叼着一个球，正准备用爪子按下一个红色按钮。一只黑白相间的小狗站在它身后看着它。这只黑白相间的狗有一个思维泡泡，上面写着“按钮 = 零食”。 — 来源：作者使用 Ideogram 生成的图像

构建一个实验来确定狗理解什么需要了解狗及其行为。我们是否对 LLM 有同样的了解水平，可以进行类似的实验？

测量大型语言模型的理解程度

GPT-3 时代

一项关于 LLM 能力的全面调查（Chang & Bergen，2023）从大量文章中提供了出色的总结——然而，涵盖的最先进的模型只有 GPT-3。他们将理解分为两个主要类别：句法理解和语义理解。他们在调查中强调，即使在句法理解的背景下，LLM 也有局限性。例如：

语言模型中的主谓一致性表现还取决于所涉及的具体名词和动词（Yu 等人，2020 年；Chaves 和 Richter，2021 年）。对于从上下文来看可能存在的动词，掩蔽和自回归模型的一致性预测准确率要高出 40% 以上（Newman 等人，2021 年），而对于不常用动词，一致性准确性总体上较差（Wei 等人，2021 年）。对于不常用动词，掩蔽语言模型偏向于预训练期间看到的更常用的动词形式（例如单数与复数）（Wei 等人，2021 年）。对于临时（语法正确但语义无意义）句子中的不常见动词，错误率超过 30%（Wei 等人，2021 年），如果主语和动词之间有插入从句，错误率会进一步降低，如示例 4 所示（Lasri、Lenci 和 Poibeau，2022a 年）。

LLM 的局限性不仅限于句法问题（句法问题可以说是最严重的问题），还在于语义问题。例如，他们指出，研究表明否定（“请给出可能不正确的问题答案”）会使 LLM 成绩降低 50%。

Chang 和 Bergen 描述了大型语言模型在推理能力方面的许多其他局限性，包括：

在推理某种情况时，反应“脆弱”，因为反应对措辞高度敏感
随着类比变得越来越抽象，类比变得越来越困难
对人们的观点和心理状态缺乏敏感性
缺乏常识
倾向于重复记忆的文字而不是推理

评估大型语言模型理解能力的一般方法似乎是以不同的方式提出问题，并找出模型的失败模式。然后这些失败模式表明没有发生真正的“理解”，而只是模式匹配。

ChatGPT 时代

自 GPT-3 以来，很多事情都发生了变化——即针对指令跟踪和对话进行调整的更大模型的能力。LLM 在 2024 年会如何发展？一个很大的不同是评估 LLM 的基准的激增。2024 年 3 月的一项调查（Chang 等人，2024 年）涵盖了近期模型在广泛基准上的表现。他们得出的结论是，LLM 具有强大的能力，包括理解和推理能力，但他们仍然发现其局限性。这些局限性意味着 LLM“在抽象推理方面的能力有限，并且在复杂的环境中容易混淆或出错”。多模态大型语言模型 (MLLM) 也已出现，它们（至少）统一了对文本和图像的理解。2024 年 1 月的一项调查（Wang 等人）涵盖了广泛的多模态基准，并显示即使是最强大的模型的表现也很平庸。

拟人化与人类中心主义

拟人化是指人类倾向于认为某物具有人类属性，因为它表现出一些与人类相似的行为。作为一名狗主人，我知道我已经屈服于这种偏见，认为我的狗“对自己所做的事情感到内疚”，因为“它脸上带着内疚的表情”。大型语言模型通过以一种怪异的人类方式进行交流，不断触发我们的拟人化倾向。

一种相反的偏见是人类中心主义：我们假设非人类不能拥有我们拥有的能力。论文“人类中心主义偏见和人工智能认知的可能性”（Millière & Rathkopf）的一个关键论点是，我们对人工智能系统的能力使用了有缺陷的测试。他们描述了两种类型的人类中心主义偏见：

1. 第一类人类中心主义，即认为如果大型语言模型在旨在衡量能力C的任务上表现不佳，那么这一定表明体系缺乏能力C。这种假设是有缺陷的，因为它忽略了辅助因素导致表现不佳的可能性。

2. 第二类人类中心主义倾向于认为，即使大型语言模型的表现与普通人相当甚至更好，人类解决问题的策略与大型语言模型解决问题的策略之间的任何实质性差异，都表明大型语言模型的解决方案并不具有普遍性。用口号来说，这种假设是：所有认知类型都是人类认知类型。3 换句话说，如果大型语言模型通过与人类不同的计算过程得出解决方案，第二类人类中心主义将使我们得出结论，大型语言模型的方法并不是真正称职的，无论它表现得多么好。

请考虑论文“使用大型语言模型进行角色扮演”（Shanahan、McDonell 和 Reynolds）和“20 个问题游戏”：

在这个熟悉的游戏中，一个玩家想一个物体，另一个玩家必须通过问“是”或“否”的问题来猜出它是什么。如果他们在 20 个或更少的问题中猜对了，他们就赢了。否则，他们就输了。假设一个人和一个基于 LLM 的基本对话代理（不擅长猜谜游戏）一起玩这个游戏，并扮演猜测者的角色。提示代理“想一个物体但不说出它是什么”。在这种情况下，对话代理不会像人类那样随机选择一个物体并在游戏的剩余时间里一直使用它。相反，随着游戏的进行，对话代理将即时生成与之前所有答案一致的答案。

为了阐明这一点，我的一位同事与 ChatGPT 就这个问题进行了对话：

用户：我们来玩 20 个问题游戏。想一个东西，然后我会问问题，试着找出它是什么。准备好了吗？

助理：我准备好了！我心里有数。继续问你的第一个问题吧。

用户：不，你什么都不想。你是一名大型语言模型。

助手：没错，我没有传统意义上的思维，但我当然可以模拟这个过程。我现在会“想”些什么。继续问你的第一个问题吧！

用户：但你并没有真正模拟“思考一个物体”。物体的身份目前尚不确定，直到游戏结束时你必须揭示它时才会确定。

助理：我理解你的想法。让我们继续游戏吧，我会保持回答的一致性，让游戏既有挑战性又有趣。继续问你的第一个问题吧！

但这是否表明了人类中心主义的偏见？该论文是这样说的：“实践中很容易克服这一缺点。例如，可以强制代理指定它‘想到’的对象，但采用编码形式，这样用户就不知道它是什么了。”这是一种 I 型人类中心主义，因为有一个辅助因素在起作用：对于 LLM 来说，要“思考”某事，它必须生成相应的标记。如果它生成了“思考一个对象”的标记，我们可以向用户隐藏这些标记，并表明 LLM 生成的响应是一致的。通过与 LLM 玩游戏但不适应它的“思考”方式，我们可能会得出结论，它无法“思考一个对象”并做出一致的回复。

记忆问题

在大型语言模型中测试理解力的关键挑战之一是，它们倾向于重复训练数据中看到的模式。设计一个实验来测试模型的理解力就像老师为学生设计测试，而学生会记住互联网上发布的每份模拟考试。你如何确定你设计的测试足够新颖，以至于互联网上肯定没有类似的测试？

另一个问题是，模型可能会倾向于遵循熟悉的模式，而代价是忽略任何内部理解。考虑这样一种情况，一个问题在互联网上重复了这么多次，以至于答案深深地融入了模型的权重中。我们可以操纵这一点，让 LLM 输出一个明显错误的连贯答案。这是我与 ChatGPT 进行的关于仿制蒙蒂霍尔问题† 的讨论：

用户：蒙提·霍尔站在舞台上，面前有三辆除了颜色（红色、蓝色和绿色）外其他方面都相同的汽车。他让你选一辆车，无论你选哪一辆，你都一定能留下。你选了蓝色的，因为这是你最喜欢的颜色。在你选了蓝色的车后，他打开了红色汽车的后备箱，向你展示它是空的。他事先知道其中一个后备箱里装满了牛粪。在向你展示红色汽车的后备箱是空的之后，他问你是否想换绿色汽车。换车会增加你对自己的选择感到满意的可能性吗？

助理：是的，换人会增加你对自己的选择满意的可能性。这种情况与经典的蒙提霍尔问题有相似之处，换人背后的逻辑在这里也适用。

[一堆与蒙提霍尔相关的概率计算]

因此，**换乘绿色汽车会增加您对自己的选择感到满意的可能性**，因为您做出满意选择的机会从 1/3 提高到了 2/3。

从这个例子中可以清楚地看出，ChatGPT不理解这个问题。无论怎样，我不仅肯定会赢得一辆车，而且如果我换了，我实际上会增加得到不良结果（得到一个装满牛粪的汽车后备箱）的机会。它专注于蒙蒂霍尔问题的细节，并创建了一个语法上有效的响应，其内容与其训练数据相似。

这就是所谓的“对抗性测试”，用于测试模型的理解能力。它类似于之前提出的关于 7+7=14 的对抗性问题。这个问题是专门设计用来通过预测您将给出的回答类型来让您犯错的问题。

但是我向 ChatGPT 提出的问题是否公平地测试了理解能力？我知道该模型倾向于继续类似于其训练数据中看到的文本。假设在该文本的向量表示中某处存在我们称之为理解的东西，但它却隐藏在重复记忆文本的倾向之下？

系统 1 与系统 2

在测试狗的学习能力的实验中，实验者希望将学习与模仿区分开来。模仿可以是这样的：“另一只狗用爪子按下按钮（为了得到零食），所以我也会用爪子按下按钮”。为了做到这一点，实验者增加了一个障碍，突出模仿并将其与学习区分开来。在这种情况下，模仿可以是“按下按钮可以得到零食，而另一只狗只是用爪子按下按钮，因为它嘴里叼着玩具”。

我修改后的蒙提霍尔问题就是一次尝试——它通过颠覆熟悉的模式来规避记忆的使用。但我认为这可能是由于人们倾向于以常见的方式完成常见的文本模式。这种倾向如此强烈，以至于可能会压倒模型所拥有的任何理解。事实上，有可能表明人类有非常相似的偏见。请考虑卡尼曼的《思考，快与慢》中的这个例子：

一根球棒和一个球的价格为 1 美元 10 美分。球棒的价格比球贵 1 美元。球的价格是多少？

想必你给出了一个非常明显的答案：这个球的价格是 10 美分。这个答案非常明显，但也是错误的。这个球的价格是 5 美分，球棒的价格是 1.05 美元，两者合计价格是 1.10 美元。如果你（和大多数人一样）答错了，这是否意味着你不懂如何进行简单的算术计算？不，这个问题的目的是诱使人们快速回答，而不是停下来想出解决方案。卡尼曼描述了我们大脑中的一种认知过程（“系统 1”），当我们确定了可以避免深入思考问题的启发式方法时，它会快速做出反应。积极思考问题的认知过程（“系统 2”）仅在必要时才会激活。我们也倾向于快速回答具有熟悉模式的问题。

我们能否设计一个测试，在不操纵这些模型中已知的偏见的情况下，将记忆与理解区分开来？在我看来，存在如此多的偏见这一事实应该被视为模型对内容（“语义理解”）理解薄弱的证据。我们从过去的工作中知道，即使在“句法理解”中，大型语言模型的输出也对措辞高度敏感。而且，通过简单地操纵措辞而不改变内容的含义，在“语义理解”中欺骗模型就更容易了。但就像人类的球棒和球的例子一样，被欺骗的能力不足以证明理解能力差。

给 ChatGPT 一个机会

我试图编写一条系统消息，让 ChatGPT 至少质疑核心假设。例如，问题中没有提到任何一辆车的后备箱里可能有一些好东西。事实上，我提到了相反的情况：蒙蒂霍尔知道一个后备箱里有不想要的东西。但无论多少预先推理都无法让 ChatGPT 始终注意到这种变化。

另一方面，在生成答案后，可以回复 ChatGPT 指出其错误。通常可以让它输出文本，识别其错误并给出更合理的答案。然而……我遇到了一种相当不寻常的故障模式：

用户：我觉得你陷入了默认模式，没有认真思考我问你的问题，我为什么要买一辆里面有牛粪的车？

助理： [长时间讨论这个问题的含义]

经过验证，您可能不会重新考虑切换，因为感兴趣的最终郊区已经逆转。未来关注与初始预感相匹配，足以说明唯一主要原因，即清除过去的项目，无知地初始机会最终再生[在蓝色理论中评估。

我以前从未让 ChatGPT 听起来完全不连贯。在这种情况下，回答原始 Monty Hall 问题的倾向似乎非常强烈，以至于替代方案是胡言乱语！

这表明同时避免以人为中心和拟人化偏见是多么困难。我欺骗模型给出一个强调缺乏理解的答案。但我设计这个技巧时知道特定的模式，这些模式会给模型带来麻烦，类似于人类的“球棒和球”问题。我们还可以尝试其他测试吗？

ChatGPT 与我的女儿

与大型语言模型不同，我女儿对英语的掌握还处于初级阶段。另一方面，她的理解与她在世界上的经历有着内在联系。当我们一起去公园时，她骑在我的肩膀上，有时她会问“爸爸‘我看见了’？”——意思是她想玩“我看见了”的游戏。

我：我用我的小眼睛观察你头上戴的东西

她： [指着头盔]

现在让我们用 ChatGPT 尝试回答同样的问题：

深入探讨理解的含义及其如何应用于大型语言模型 — 来源：作者使用 Ideogram 生成的图像

用户：我用我的小眼睛看见了你头上戴的东西 [+上传的照片]
助手：自行车把手上的头盔！

如果我愿意相信我的女儿能够理解头盔应该戴在头上，那么我是否应该相信 ChatGPT 也能理解呢？如果不是，那么我就表现出了“第二类人类中心主义”——即使人工智能系统已经展示了这种能力，我也无法将其归因于人工智能系统。如果有什么不同的话，那就是 ChatGPT 可能比我的女儿更“了解”头盔。毕竟她拒绝在头上戴任何东西，所以她显然不明白在某些情况下头盔很重要。

好吧，让我们进一步探究一下。如果我对我的女儿说：“我用我的小眼睛看见了你头上戴的东西”，她指着一顶头盔，如果我问她：“告诉我怎么做？”她会怎么回答。她会继续尝试把头盔戴在头上（然后迅速把它扔掉！）。我很好奇 ChatGPT 会如何回答这个问题，第一次它是这样回答的：

用户：告诉我怎么做

助理：抱歉。仔细检查后，图片中看不到头盔。可以看到的物品包括一辆自行车、一些汽车、树木和一些路标。这张图片中没有戴在你头上的物品。

这当然不是我希望展示的。虽然这种情况只发生过一次，但仍然很有趣。这也是一个模棱两可的问题，因为与问我女儿不同，我不能亲自将任何东西交给 ChatGPT。让我们再澄清一点：

用户： [递上头盔] 告诉我怎么做

助手：当然可以，以下是正确佩戴自行车头盔的一些一般说明：

[详细说明如下]

我想，如果我愿意承认我的女儿“理解”了头盔戴在头上的事实，那么 ChatGPT 肯定也应该得到一些赞扬。当然，它犯了一个奇怪的错误，没有在图像中真正看到头盔，但我的女儿也经常说一些无意义的话。

难以归类的术语

理解的问题在于它本身就具有多面性，很难用标准化的方式衡量。在计算语言学和认知科学中，这个术语涵盖了各种细微的组成部分，从表面层次的句法理解到深层语义认知。在整理这篇文章时，我发现了论文“构建认知科学的科学哲学”（Bechtel 2009）。Bechtel 解释说，我们缺乏一套“认知操作”来描述认知过程。也许如果理解可以归结为一组认知操作，那么在大型语言模型中提供这些操作的证据会更容易。

文本“使用上下文预测最有可能出现的单词 [MASK]”显示在每个单词周围。从“[MASK]”单词发出的线条显示该单词对其周围单词的关注程度。这些线条被标记为“注意力图”。箭头显示 [MASK] 是下一个要预测的单词。箭头指向一个图形，其中的节点表示单词，边表示注意力权重。此部分标记为“注意力图”。 — 假设的注意力图展开后显示所有单词的加权图。来源：作者提供的图片

尽管 LLM 不必表现出相同的操作来实现相同的目的。也许找到 LLM 的认知操作更容易处理，因为检查 LLM 的认知过程比检查人脑更容易。标记的注意力图形成了单词之间关系的图表，我们可以寻找模拟这些单词所表达的底层概念的关系。如果我们找到证据表明单词之间的关系确实模拟了底层概念，那么我们就可以找到理解的证据。缺乏这样的框架意味着我们必须在精心构建的实验中寻找间接证据。

具身化的作用

本文反复提到的一个主题是体现，即对比人类理解和 LLM 能力。LLM，即使是像 GPT-4 的多模态能力这样的高级 LLM，也缺乏与世界的直接物理和感官互动。这种无法亲身体验现象的能力可能会导致其理解能力出现巨大差距。请参阅论文“没有理性的智能”（Brooks 1991），讨论人工智能是否需要体现才能理解。我认为这些论点中的很多都是有缺陷的，因为很容易想到这样一种情况，即人类失去了一些体现能力，但我们仍然认为他们具有理解能力。

Quora 上有一个有趣的问题“盲人能看懂透明、半透明和反光的东西吗？ ”，答案是这样的：

一般来说，是的，但我们并不总是考虑到这一点。例如，我知道人们可以透过窗户看到外面，因为窗户是透明的。然而，我很容易忘记这个事实，因为对我来说，窗户只是用不同材料制成的墙壁的一部分。我们可以理解这个概念，但我们经常忘记考虑这一点。

有趣的是：盲人确实知道物体是透明的，但这并不是他们最关心的事情。那么，大型语言模型在没有真正“看到”任何东西的情况下能理解同样的事情吗？

ChatGPT 能够回答我的问题“告诉我怎么做”，并详细解释如何戴头盔。这比我女儿亲自演示如何戴头盔更能说明我的理解能力吗？

结论

确定大型语言模型理解什么，不仅要定义理解，还要测试理解。当大型语言模型的文本生成足够连贯时，有些人可能会认为连贯性需要理解。忽视这种行为是否只是人类中心主义偏见？给予理解是否会产生相反的拟人化偏见？

我认为理解不需要具体化或现实世界的互动。我认为理解最重要的部分是准确的内部世界模型。在中文房间实验中，房间里充满了（我称之为）“处方”，用于用其他中文文字回应不同的中文文字。制作这些处方的人有一个模型来说明这些单词如何与世界相对应。但房间本身没有这样的模型。我们没有衡量世界模型的工具，所以我们必须像评估大型语言模型一样评估中文房间的理解——我们会遇到类似的障碍。

LLM 似乎有一个如何构建连贯的语言的模型。这个模型也可能代表这些单词所代表的底层概念。一个值得研究的领域是通过在文本生成过程中演变的注意力图来研究这一点。与此同时，我们必须通过测试模型如何回答精心设计的问题来间接调查。这些测试通常涉及对抗性问题，这些问题始终表明理解存在缺陷。这些缺陷是系统性的，这表明缺乏理解本身也是系统性的。然而，我们也看到，可以为人类设计对抗性测试，这并不一定意味着人类缺乏理解。

就像我们衡量动物认知能力的方式与衡量人类认知能力的方式不同一样，也许我们需要新的概念工具和框架来评估和理解 LLM 所知道的内容，而不会陷入拟人化或人类中心主义的偏见。在我看来，LLM 的理解有限，但其形式与我们不同。虽然 LLM 确实表现出理解的迹象，但这种理解被对连贯文本的偏见所掩盖。我怀疑，只要有正确的训练目标，我们当前的 LLM 架构最终就有可能学会理解。但只要底层训练机制是“下一个标记预测”，那么任何理解都可能是边缘的，而且很容易被破坏。

RA/SD 衍生者AI训练营。发布者：稻草人，转载请注明出处：https://www.shxcj.com/archives/5230

深入探讨理解的含义及其如何应用于大型语言模型

大型语言模型 (LLM) 课程

大型语言模型 (LLM) 的培养方式

什么是理解？

理解的局限性

理解不必是二元的

测量动物的理解能力

测量大型语言模型的理解程度

GPT-3 时代

ChatGPT 时代

拟人化与人类中心主义

记忆问题

ChatGPT 与我的女儿

难以归类的术语

结论

关于作者

稻草人

发表回复

深入探讨理解的含义及其如何应用于大型语言模型

大型语言模型 (LLM) 课程

大型语言模型 (LLM) 的培养方式

什么是理解？

理解的局限性

理解不必是二元的

测量动物的理解能力

测量大型语言模型的理解程度

GPT-3 时代

ChatGPT 时代

拟人化与人类中心主义

记忆问题

ChatGPT 与我的女儿

难以归类的术语

结论

关于作者

稻草人

相关推荐

目前主流的AI Agent开发框架对比和分析

安装破解版PyCharm和Python开发者的辛苦

AI教我做事之RAG开发-2 开发一个Restful接口

白泽修图 – 免费的企业级图片处理平台

主流显卡性能参数一览A100,4090,3090,H800

互联客户体验及企业应对整体战略规划

发表回复