尽管人工智能远没有许多人声称的那么强大,但它还是融入了我们的日常生活。特别是生成式人工智能。例如,ChatGPT 似乎现在已经融入了人类已知的所有操作系统。类似的生成工具正在许多行业中广泛使用,即使它们没有产生积极影响。更重要的是,人工智能生成的内容正在占据我们称之为家的互联网越来越多的角落。无论我们喜欢与否,我们生活的方方面面都受到了这项技术的影响。因此,新研究表明,生成式人工智能模型可能在短短几年内崩溃为毫无意义的胡言乱语,这一事实令人深感担忧。让我来解释一下。
要理解这个问题,我们首先必须了解人工智能的工作原理。那么,让我们快速回顾一下。人工智能的工作原理是在大量标记良好的数据上训练人工神经网络。这个神经网络会在这些数据中找到趋势,使其能够识别其他数据中的类似模式,预测其他数据集可能如何演变,或者推断这些趋势以创建新的但源自原始数据集的东西。
生成式人工智能属于人工智能的外推阵营。以 ChatGPT4 为例。它使用 570 GB 精心挑选的原始文本文件进行“训练”;这听起来可能不多,但相当于 3000 亿个单词!或者换句话说,如果我 24/7 全力以赴地写作,我需要 14,270 年才能写出这么多字。因此,当您查询 GPT4 时,它会使用大量数据中的趋势来统计地创建与您的请求相匹配的输出。
好吧,这怎么会导致生成式人工智能在短短几年内崩溃呢?
那么,您认为 OpenAI 从哪里获得所有数据来训练 ChatGPT4?
简而言之,他们从网上窃取了数据。如果这些数据是以合乎道德和正确的方式获取的,那么创建这样的人工智能在经济上是不可行的。因此,他们只是从互联网上抓取数据。例如,ChatGPT4 的训练数据来自书籍、维基百科、Reddit、Twitter 和其他在线公共场所。这是问题的核心。
你看,这些公共空间充斥着人工智能生成的内容,在某些情况下,这些内容与人造内容难以区分。Twitter (X) 尤其糟糕,一些研究人员发现,一些主流主题搜索返回的内容 100% 都是人工智能生成的内容。更重要的是,其他生成人工智能机器人对这些内容的大部分内容表示喜欢和评论。但这不仅仅是 Twitter。2022 年,马克·扎克伯格 (Mark Zuckerberg) 表示,15% 的推送内容是人工智能生成的,该公司预计到 2023 年底,这一数字将增加一倍以上,数据显示,他们远远超过了这一指标。事实上,最近的一项分析预测,2026 年发布到互联网上的内容中有 90% 将是由人工智能生成的。
像 ChatGPT4 这样的模型必须不断地用新数据进行重新训练,才能保持相关性和实用性。因此,这意味着生成式人工智能已经开始通过用自己的输出或其他人工智能输出进行训练来自食其力。
为什么这是个问题?因为这意味着他们将开始识别人工智能生成内容的模式,而不是人造内容的模式。这可能会导致发展陷入困境,人工智能会以适得其反的方式优化自身。它在人工智能内容中看到的模式也可能与它在人类内容中看到的模式直接相反,导致输出极其不稳定,从而使人工智能变得毫无用处!这被称为模型崩溃。
这就是《自然》杂志最近发表的一项研究的意义所在。研究人员发现,只需对生成式人工智能模型进行几轮训练,它们就能完全失去作用,输出完全无意义的结果。事实上,他们测试的一个人工智能只需要对它自己的输出进行九轮训练,然后输出就只是一串重复的长耳兔列表。
因此,到 2026 年,这些生成式人工智能可能会主要使用自己创建的数据进行训练,并且只需要对这些数据进行几轮训练,这些人工智能就会崩溃。
更糟糕的是,我们目前还没有解决这个问题的办法。有人建议以人工智能可以识别的方式对人工智能生成的内容进行水印处理,但我们无法确保这些内容不会用于训练。然而,生成人工智能行业的大部分业务都基于将这些内容伪装成人造内容的能力。例如,Twitter 机器人极力想让你相信它们是人类。因此,让这些人工智能内容如此容易识别(即使我们不能,一个简单的工具也可以找到水印)可能会毁掉这个利润微薄的行业。因此,人工智能行业正在大力反对这样的解决方案,而它们却在冲向模型崩溃。
这就是人工智能的悖论,我们使用得越多,它就变得越糟糕。这也是为什么我们不应该围绕这项技术建立我们的产业或数字社会系统,因为它可能很快就会崩溃,让我们的经济和数字生活就像一棵空心的腐树,等待下一场风暴将其吹倒。
RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/4490