通用人工智能 (AGI) 是指在人类能够执行的广泛任务上达到或超过人类表现的人工智能系统。AGI 有利有弊。有利的一面是,AGI 可以完成大部分耗费人类大量时间和精力的劳动。AGI 可以预示一个乌托邦,在那里,没有人有无法实现的愿望。AGI 还可能导致不平衡的局面,即一家(或几家)公司主导经济,加剧现有的前 1% 和人类其他部分之间的二分法。除此之外,有人认为,超级智能的 AGI 可能会发现奴役人类以达到自己的目的是有益的,或者为了不争夺资源而灭绝人类是有益的。一个假设的场景是,比人类更聪明的 AGI 可以简单地设计出更好的 AGI,而后者又可以设计出更好的 AGI,从而导致所谓的硬起飞和奇点。
我不知道有任何理论声称 AGI 或奇点是不可能的。但是,我通常对大型语言模型(如 GPT 系列(GPT-2、GPT-3、GPT-4、GPT-X))正在走向 AGI 的论点持怀疑态度。本文将尝试解释我为什么相信这一点,以及我认为如果人类(或人类成员)选择尝试实现 AGI,会缺少什么。我还将尝试传达一种理解,为什么抽象地谈论所谓的“AGI 配方”很容易,但为什么物理学本身会阻止我们从现在的状态突然和意外地飞跃到 AGI 或超级 AGI。
2. 缺少了什么?
为了实现 AGI,我们很可能需要以下一项或多项:
- 在线非贪婪规划技术可以在先验未知任务、状态和操作的情况下运行。这可能是强化学习或其他东西。这里的挑战是能够表示和推理与任务无关的状态和操作,或者能够根据从未见过的任务更改表示。我们可能还需要能够概括或迁移未知状态、操作和任务,以减少对可能的未来状态和操作进行昂贵的探索。但是,没有办法完全消除探索的需要。
- 一种世界模型技术,可以稳健地预测在任何环境中执行任何任务时可能遇到的所有状态和动作的状态-动作-状态转换。这样的世界模型将实现快速在线规划(使用强化学习或其他方式)。要学习这样的世界模型,需要现实世界状态-动作转换的数据,而这又需要探索和与现实世界互动的能力。
- 如果要在 AGI 中使用大型语言模型 (LLM),我们可能需要以下之一:(a) 将 LLM 包装在传统反复试验训练循环中的强化学习代理;(b) 从人类反馈技术中进行强化学习,该技术将状态和目标以及成功转变和目标实现的奖励考虑在内。
这三种缺失的能力密不可分。规划是决定采取哪些行动来实现目标的过程。强化学习——目前最受欢迎的前进道路——需要探索现实世界来学习如何规划,和/或想象世界在尝试不同行动时将如何变化的能力。世界模型可以预测当代理尝试执行某个动作时世界将如何变化。但世界模型最好通过探索来学习。
大型语言模型令人兴奋,因为它们似乎对世界了解很多。LLM 具有一些类似世界模型的特质,但通常达不到在现实世界中可靠行动所需的特异性水平。带有人类反馈的强化学习缺乏现实世界状态的背景来评估行动。这需要规划或世界模型。
我将在下一部分中详细分析这些论点。
1.规划
大型语言模型缺少的最基本功能是在线非贪婪规划。
规划指的是以下两件事之一:
- 寻找一系列动作 < a₁ , a₂ , …> 的过程,这些动作将世界的当前状态转变为目标情况
- 寻找将状态映射到动作π: S → A 的策略的过程,使得代理在遇到的任何状态s ∈ S中执行动作a = π(s)并从此遵循该策略将最大化预期奖励。
规划的结果要么是计划— 需要遵循的一系列操作 — 或者政策— 一种映射,指示遇到的任何状态时要遵循的操作。
规划的一个特点是探索:任何评估替代行动的过程,评估这些行动是否能改善代理在目标或预期未来奖励方面的状况。目前已知的探索机制有几种。其中两种相关机制如下:
- 回溯:算法可以重新审视先前的决策以做出不同选择的过程。这在规划算法(例如 A*、UCPOP)和现代规划器(例如 Fast-Downward)中都有使用。
- 推出:考虑不同替代方案以及每个替代方案之后可能的未来状态-行动轨迹的过程。该算法生成不同的可能未来,并对其进行分析,以找出哪种直接替代方案会产生最佳的可能未来。这用于 Minimax 和蒙特卡洛树搜索等算法中。推出的一个特殊情况是重新启动,其中代理返回到初始状态并再次尝试,但在此过程中做出不同的决策。这用于强化学习。
贪婪规划器使用本地信息在备选方案之间做出选择,以减少分析所有备选方案的计算复杂性。贪婪算法往往速度很快,但也不能提供最优边界保证。贪婪规划器的最极端版本会进行一次单次部署,没有任何回溯,也不会评估任何与其目标或未来预期奖励相关的动作或状态。
在线规划是指在执行时进行的规划,因为存在只有在执行时才知道的状态条件和环境约束。
由于非贪婪在线规划可能很慢,因此可以使用离线规划来生成将任何状态映射到最佳操作的策略。生成的策略可以在执行时非常快速地运行;无论代理在执行操作后处于什么状态,只要查询π ,就可以立即执行下一个要执行的操作。这是强化学习的典型用途,强化学习是一类生成策略的算法。人们可能会将强化学习视为状态-动作空间的预先探索。
理论上,当强化学习等离线规划器能够充分预先探索状态-动作空间时,在执行时运行策略相当于在线规划。但在实践中,这并不总是可行的。
为什么我们要求AGI在线规划?
- 可以执行的任务数量是无限的。许多任务都是彼此的衍生,因此跨任务的泛化将大有裨益。但有些任务非常独特,离线预训练策略模型无法迁移。还有一些已知任务必须在足够新颖的情况下进行,需要新的考虑。
- 现实世界中存在无数种状态。泛化将成为处理新状态和新动作的强大机制。但有些状态非常独特,如果不进行额外的在线考虑,策略模型将无法达到预期效果。
- “世界规则”可能会随着新技术、新做事方式和做事偏好的改变而改变。
为什么我们需要对 AGI进行非贪婪规划?
- 我们可能并不一定总是需要任务的最佳解决方案,但我们可能希望计划合理高效。算法越不贪婪,就越不容易陷入局部最大值。
1.1 强化学习
强化学习是一类解决马尔可夫决策过程M=<S, A, P, R, γ>的算法,其中S是所有可能状态的集合,A是所有可能动作的集合,P是转换函数P: S × A × S → [0,1],R 是奖励函数R: S × A → ℝ,γ = [0, 1]是与奖励范围成比例的折扣因子。MDP 的解决方案是如上所述的策略π: S → A。在实践中,AI 代理并不总是知道它们处于什么状态,并且必须解决部分可观察的 MDP(POMDP),然而在深度强化学习实践中,我们通常可以将S视为可能状态观察的集合,并将 POMDP 作为 MDP 来解决。
处理具有非确定性影响的操作时不会对问题公式进行任何重大改变,因为无论执行操作后我们最终处于什么状态,策略都可以告诉我们下一步要执行什么操作。
当状态-动作空间太大而无法枚举时,必须学习一种紧凑的表示来近似最优策略。这就是深度强化学习的情况,它学习一种能够响应状态而生成动作的深度神经网络,这被称为策略模型。
强化学习大致分为两类:
- 基于模型的RL 使用转换函数P来进行部署,而无需直接与环境交互。
- 无模型强化学习处理P未知的情况,并直接从与环境的交互中学习策略。环境可以是代理将在其中执行的实际环境,也可以是模拟环境。
还可以使用模拟来学习转换函数(我们稍后会将其称为“世界模型”),然后执行基于模型的 RL;有时,这种方法比无模型 RL 更快地收敛到策略。基于模型的 RL 可用于执行在线或离线规划,而无模型 RL 通常最适合离线规划。
深度强化学习是一类流行的算法,通过它可以实现 AGI,因为它在理论上可以处理现实世界中行为的不确定性,并在理论上处理现实世界的巨大状态-动作空间。
1.2 使用大型语言模型进行规划
关于大型语言模型,首先要注意的是它们不是天生的规划者。也就是说,它们无法在没有帮助的情况下完成规划。作为前馈网络,它们没有任何机制(无论是递归还是迭代)允许它们重新审视先前的决策或执行部署。这是一个有点迂腐的论点,因为 LLM 被封装在执行采样的代码中。然而,最典型的采样和生成不会根据目标或奖励评估替代方案。
一个例外是定向搜索,尽管没有证据表明任何商业 LLM 使用定向搜索。定向搜索是半贪婪的,因为它会生成替代方案,但这些替代方案通常使用替代评分函数(如困惑度)进行评估,该函数不考虑目标或未来奖励。带人类反馈的强化学习 (RLHF) 和带 AI 反馈的强化学习 (RLAIF) 也是例外,我们将在后面更详细地讨论。
尽管如此,LLM 可以生成看起来像计划的文本:
根据前面的讨论,我们可以说 LLM 是贪婪的规划者。有几点需要注意:
- 如果 LLM 是规划器,那么 token 就是动作。而我们可能从现实世界的执行上下文中想到的动作将是 token 序列的潜在语义含义(或者在代码生成的情况下,动作可能是语法正确的文字字符串)。因此,我们可能不得不说,作为规划器的 LLM 操作的原语集与现实世界中可以直接执行的原语集不同。
- 在执行生成的计划时,没有原生方法来处理来自外界的反馈。也就是说,如果计划的操作无法执行,则必须报告有关失败的信息和失败的原因,以便规划者可以选择替代操作和/或从头开始生成新计划,从而避免以后出现相同的失败原因。
这些警告可以通过 LLM 之外的机制解决。
1.2 RLHF 和 RLAIF
人类反馈强化学习(RLHF) 和人工智能反馈强化学习(RLAIF) 已成功用于调整 LLM。RLHF 是一种收集人类对 LLM 在不同任务上的表现的反馈并将该反馈转换为额外训练信号的过程。RLAIF 是一种算法判断 LLM 输出(通常由第二个人工智能模型判断)并将其转换为额外训练信号(一种远程监督形式)的过程。
RLHF 和 RLAIF(以下简称 RL*F)都使用以下过程来微调 LLM:
- 法学硕士 (LLM) 对提示做出多种回应
- 每个回答都会被评估并给出分数(例如,+1 表示好的回答,-1 表示坏的回答)
- 每个响应的分数被转换成损失,并通过 LLM 反向传播,导致模型改变其分布,从而产生更多像前一个响应的响应或更少像前一个响应的响应。
上述过程之所以称为强化学习过程而非典型的监督学习过程,是因为 LLM 被迫针对每个提示推出多个完整、不同的响应,并且反馈仅在每次推出结束时应用。因此,每个标记都是一个动作,反馈是“稀疏的”,因为它仅在一系列动作结束时应用。
RL*F 流程可以看作是一种离线规划流程。在执行期间,LLM(现在是策略模型)必须选择能够最大化预期奖励(如果要给予奖励的话)的操作(执行时不给予奖励,因为模型已经过训练,不再可用或不需要)。
但是强化学习过程试图最大化的奖励是什么呢?这就是事情变得有趣的地方。现在的目标是:选择那些被视为对提示有反应的 token(即“遵循指令”),因为这将获得最佳反馈。
目标函数有一些重要的含义。首先,目标不是固定的,而是在提示中提供的。从这个意义上讲,LLM-cum-policy 被要求实现目标,而不知道在训练期间会呈现什么目标。这与许多使用强化学习的系统不同,比如下围棋,其中目标始终相同,代理可以探索许多状态和动作,并根据目标实现情况评估这些状态和动作。
其次,可以说 RL*F 调整后的 LLM 试图生成似乎遵循指令的序列。为什么?因为除了收到积极的人类反馈的可能性之外,系统从不评估任何目标或奖励的状态或动作。调整中使用的反馈不是提示中的目标是否通过生成的响应成功实现。事实上,反馈提供者(人类或其他模型)无法知道,因为没有实际的世界来评估计划。所能提供的只是该计划在一般意义上是否看起来正确(一般来说,这是洗碗必须做的事情,尽管你的厨房和环境可能不同,并且计划无法按原样执行)。因此,我们可以说 LLM 兼策略学习的是它是否正在生成看起来大致正确的东西。
我们可以说,RL*F 调整的 LLM 是离线规划器,但并未针对我们认为它们被赋予的目标进行规划,也没有处于世界上可执行动作的抽象层面。
2. 世界模型
世界模型是状态-动作转换动态的模型:P(s’ | s, do(a)) ,表示如果执行动作a ,则从状态s到达状态s’的概率。世界模型(以前称为 MDP 中的转换函数)允许代理执行部署而无需与实际执行环境交互。非正式地说,我们可以说世界模型使代理能够“想象”不同替代方案的后果。这大致类似于人类能够想象和预测其行为后果的方式,这似乎有助于解决任务。
事实已经证明,具有硬编码世界模型(例如 AlphaGo)或在策略模型的同时学习世界模型(例如 MuZero、Dreamer 等)的深度 RL 代理可以比无模型 RL 方法学习得更快,因为世界模型的存在——即使是部分学习的模型——减少了探索和与模拟环境的交互次数。
2.1. 世界模型和大型语言模型
LLM 有世界模型吗?有。如果我提示 ChatGPT “Sally 给了 John 这本书。现在谁有这本书?” 它会告诉我:
“根据给定的陈述,Sally 将这本书给了 John。因此,John 现在拥有这本书。” 它很难确定谁先拥有这本书,但这并不是世界模型的严格要求:
ChatGPT 还可以下棋。这是一个有趣的例子,因为要知道它可以采取什么行动,它必须对棋盘的状态有某种表示,对吧?
它怎么知道d5是合法的举动呢?它不知道。它知道互联网上使用该符号记录的许多国际象棋比赛都是d5在d4之后。在游戏中进一步发展,它会做出非法举动,因为有很多可能的游戏,并且任何举动序列在数据中出现的次数都会减少。但显然,Transformer 的隐藏状态能够关注一系列举动,并且构建的隐藏状态在选择可解释为国际象棋动作的标记方面具有一定的实用性。因此可以说,LLM 有时可以作为世界模型运行。它在较低的标记级别上运行,并构建状态的文本描述,而不是实际状态。
以下是另一个测试,用于测试 ChatGPT 是否知道一步棋之后棋盘的状态:
显然不对。但这个测试并不完全具有决定性,因为我要求它绘制棋盘,它可能在绘制过程中感到困惑;在这种探索系统对状态理解的特定方式中可能会丢失一些东西。
RL*F 中没有任何内容要求世界模型必须正确。这是因为没有与正确的下一状态预测相关的奖励成分。LLM 只需要能够构建一个可以解码的隐藏状态,以生成接收高反馈或低困惑度的 token 序列。但是,在 token-as-action 级别仅使用交叉熵或 RL*F 进行操作时,除了生成接收高反馈或低困惑度的 token 序列所需的任何潜在隐藏状态之外,LLM 无需开发完整的世界模型能力。
如果 LLM 正在学习类似世界模型的东西,我们是否会期望通过更多的训练出现一个世界模型?这可能取决于数据。如上所述,用于训练 LLM 的目标函数中没有任何内容要求模型知道并推理下一个状态s’。如果训练语料库的形式为<状态 s 的描述、动作 a 的描述、状态 s’ 的描述> (或单独的<s, a>和<a, s>数据的组合),那么它将学习在每次动作之后逐个标记地构建后续状态。对于一些相对受限的领域,这些数据可能存在于现有数据集中或可行获取。对于其他领域,状态-动作空间将太大,并且会有缺失数据、泛化无法解释的罕见情况或知识抽象级别不匹配。
2.2. 基于状态的强化学习中的世界模型
世界模型在计算机游戏和机器人强化学习方面取得了巨大成功。预测自身行为结果并根据奖励函数评估结果的能力意味着可以更快地推出更多产品。
挑战在于基于状态的强化学习和学习世界模型之间的先有鸡还是先有蛋的关系。要学习世界模型,代理必须在不同状态下尝试不同的动作,看看会发生什么。这与学习强化学习策略本身所需的过程非常相似(有时完全相同)。它们通常是同时学习的,尽管有时可以先慢慢学习世界模型,然后再快速学习策略。
虽然世界模型可以帮助强化学习代理更快地学习策略(即使与策略并行学习),但当前的强化学习算法套件只能学习足以帮助当前策略的世界模型。这意味着当代理需要偏离它之前见过的任务或环境时,世界模型不会提供帮助。如果目标是获得某种奖励,那么世界模型就没有动力保留与策略不直接相关的环境知识。
开放性是指在不接受额外训练的情况下应对新任务和新环境的挑战。一种方法是接受一个事实:代理(如人类)永远无法完全训练并准备好应对所有新任务和新环境。另一种方法是让代理能够尽可能地泛化,然后使用在线规划来考虑新变量、任务、奖励和环境条件。
4. 强化学习和世界模型瓶颈
强化学习和规划是计算量很大的过程。这可能是因为我们还没有发现更好的训练策略模型的方法。然而,正如我们今天所理解的,强化学习算法必须事先拥有涵盖所有状态-动作转换的数据,或者必须通过交互式探索执行环境(或模拟)来生成自己的数据。这会导致数据采集瓶颈。
- RLHF 需要人工反馈。由于 RLHF 目前正在进行中,因此目标是提示的一部分;为了更好地完成更多任务,需要更多的人工反馈。人工反馈只能在人类的时间尺度上获得。也就是说,改进 RLHF 是有限速的。
- RLHF 无法使用人工反馈来评估计划的正确性,因为在提供反馈时,世界状态是未知的。如果要对实际执行计划的尝试提供人工反馈,那么在探索过程中,人类必须“参与其中”,并且反馈只能以在现实世界中在人类监督下执行计划的速度获得。
- RLAIF 使用 AI 模型来产生奖励。这种 AI 反馈模型通常使用人类数据进行训练,而人类数据的获取是有速率限制的。
- 无论是否使用 LLM,都不存在复杂到足以训练通用 AI 系统的模拟环境。它必须能够忠实地表达现实世界中可能执行的任何任务,否则在环境中训练的代理将不具有通用性。要拥有能够生成稳健策略或合理计划的通用模型,代理必须在现实世界中执行,而现实世界的速率受到动作执行的物理特性和缺乏正确重置能力的限制。可以生成模拟环境。但是,要学习构建模拟环境,首先需要与训练代理相同的状态动作试错数据。
- 除了拥有模拟环境,还有一种替代方案,那就是拥有一个世界模型。虽然 LLM 具有充当世界模型的一些能力,但 LLM 中类似世界模型的功能并不完整,而且通常处于错误的抽象层次,无法在现实世界中执行。要学习世界模型,需要与现实世界进行交互或进行人工反馈,这两者都已在上文中提到。
- 当目标/奖励函数始终相同且代理可以重置为相同(或相似)的起始状态时,RL 效果最佳。秘密在于,RL 策略相对于其奖励/目标而言过度拟合,这使得它们在游戏等封闭世界环境中非常强大。然而,在目标或奖励不断变化的情况下学习策略极具挑战性,需要非常强的泛化能力或零样本迁移,或者需要与环境进行更多交互,同时避免灾难性遗忘。在线规划可以实现新颖的目标,但需要一个世界模型(可能与重新规划功能结合使用),并且计算效率极低,因为它需要在线探索和/或在线试验。
5. 其他瓶颈
处理数据采集和 RL 试验瓶颈的一种方法是并行化。两个 RL 代理运行试验和/或使用联合学习来共享模型更新,可以在相同的时间内探索两倍于一个代理的状态-动作空间。更多代理并行运行可以做更多。
有人可能会问,是否有可能不断增加并行运行的代理数量,直到策略模型或世界模型几乎瞬间达到(或超过)人类水平?不受控制的复制场景将遇到现实世界的限制。新代理从哪里获得计算能力?新代理从哪里获得电力?两者都不能呈指数级增长,因为它们是必须通过非平凡的现实世界过程生产的物理资源。世界上有很多 GPU,但并非所有 GPU 都可以使用,而且建造更多 GPU 需要时间和材料。电力也是一种有限的资源,建造新的发电设施需要时间。
此外,如果数据只能通过现实世界中的实体(机器人)试验获取,那么机器人执行器也是一种资源瓶颈。如果需要人工反馈,那么反馈数据的获取速度就不可能快于人类提供反馈的速度;并行化意味着需要和补偿更多的人。
具有足够复杂性和能力的代理能否设计和构建更复杂的代理?理论上可以。如果人类专家可以设计出越来越好的算法、处理器和能源,那么人类级别的 AGI 可以构建更好的 AGI。但是,设计更好的系统需要反复试验(即科学过程)。如果没有,我们早就构建了更好的系统。如果我们谈论的是硬件,反复试验过程涉及在现实世界中采取行动。同样,在现实世界中操作是一个速率受限的过程。
模拟器试图绕过现实世界的速率限制。例如,基于我们目前对物理学的理解,存在非常好的芯片设计模拟器。如果代理仅是软件并且符合计算硬件约束,那么仍然有一个迭代软件/算法/模型、训练和测试的过程。这个迭代循环可能比硬件设计更紧密,但非零。然而,为了避免后续代理仅仅是虚构机器的情况,我假设设计代理的过程将涉及类似 RL 的东西,并且二阶代理需要根据其在现实世界中运行的能力进行测试,引入现实世界测试的速率限制或需要通过在现实世界中行动已经获得世界模型。
自我提升到人类水平甚至超越人类水平所需的所有知识是否都已具备?一种观点认为,LLM 可以在比人类一生中可能阅读的更大的文本池上进行训练。因此,基于 LLM 的代理可以比人类更有知识。在某些方面,当前的 LLM 比人类更“博学”。然而,由于互联网上以文本形式共享的信息的性质,这种知识有些抽象。也就是说,我们的文本语料库不在现实世界中操作的粒度级别——它是抽象知识,因为人与人之间的交流不需要所有有限的细节,因为人类已经融入并练习在现实世界中操作。例如:抽象地说,我知道如何进行政府政变。
然而,在实践中,实地情况是无法提前知道的,需要在线规划、预先探索所有突发事件,或者一个允许规划或预先探索而无需与现实世界互动的世界模型。所有这些的瓶颈都已经讨论过了。同样,读过马基雅维利后,我抽象地知道如何获得权力和影响力,但并不能保证将这些原则付诸行动——它不是操作层面的指导手册,即使它是,制定计划也需要突发事件,需要在线规划能力。
但是,如果 AGI 或超级 AGI 能够将人类作为通用机器人纳入现实世界,那么它也许就不需要在现实世界中运作了。AGI 或超级 AGI 处理的文本比任何人类都要多,它们有可能将所有必要的信息整合在一起,说服人类听从它们的命令吗?这类似于问是否存在现有知识来源的组合,可以让某人无需实践或意外事件就能获得对他人的控制权,而这些意外事件是之前无法发现的。也许这种组合包含数千或数百万个分散的源材料,法学硕士可以消化这些材料,但人类却不能。
上述场景可能相当于仅凭阅读就能获得形成完美世界模型所需的数据。之所以等同,是因为任何类型的反复试验都会以物理或人类有限的速度进行,并且人类可以直接观察到,然后人类将有机会选择进行干预。
鉴于强化学习和世界模型学习瓶颈需要大量的预先探索或在线规划期间的大量探索,假设的人工智能系统自我改进的速度将会很慢,并且可能需要公开进行,无论是通过与现实世界的直接互动,还是与现实世界中的人互动,或者通过增加人类反馈数据的收集。一个问题是,人类是否可以被操纵来参与自我改进过程。不幸的是,QAnon 的存在表明有些人很容易被操纵。
我们仍然需要一个能够理解其话语如何影响接收者的人工智能系统,因此我们必须假设有人已经允许这种情况发生,即使考虑到上述学习率限制。此外,这不是操纵任何人的问题,而是操纵拥有权力和访问权限以提供人工智能系统所需资源的人。那会有多少人?人工智能系统如何获得有权访问的人的访问权限?他们中有多少人更容易受到操纵?获取资源(无论是更多的计算、核材料还是生物材料)并非易事。假设的人工智能系统执行其计划所需的人正是我们希望不易受到操纵或保持警惕或有制衡的人。也就是说,这些场景需要那些已经拥有惊人水平的资源和访问权限的人故意串通或故意恶意。
6。结论
没有理论说我们无法实现 AGI 或超级 AGI。我们可能拥有所需的工具:大型语言模型、强化学习、规划和世界模型。虽然很容易说了解通用工具使得 AGI 和超级 AGI 成为必然,但它忽略了导致从这些通用工具组装可信系统的瓶颈。人类需要在现实世界和社交环境中互动数十年才能成为正常运作的成年人,这是有原因的。需要新的突破来克服通过人类反馈或与现实世界的物理交互获取数据的瓶颈。然而,这些瓶颈是实质性的,削弱学习效率可能还不够。瓶颈根植于物理学和人类运作的速度;突破需要真正具有革命性,而不是渐进性。
除非我们找到一种不陷入瓶颈的方法来构建 AGI 级别的在线规划或世界模型,否则 AGI 和超级 AGI 的出现将不会是自发事件或意外。它将需要大量的公开时间,或者需要恶意人类付出巨大的努力来隐藏其发展。
以透明度为目标的法规将有助于确保及时对任何令人担忧的事态发展做出适当回应。透明度法规还有助于解决可能违反公平、隐私和适当性等社会规范的狭义人工智能系统问题。
RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/4357