大家已经知道,OpenAI 在 GPT-4 发布一年多后终于推出了一个新模型。它仍然是 GPT-4 的一个变体,但具有前所未见的多模态功能。
有趣的是,它包括实时视频处理等强大功能,这一关键功能最终可以让我们创建强大的虚拟助手,实时支持我们的日常生活。然而,这样的功能应该很昂贵且缓慢,考虑到该模型速度极快且免费使用,这不合情理。
那么,到底发生了什么事呢?
OpenAI 一定已经意识到了一些我们尚未意识到的事情,即我们今天讨论的智能设计决策可以以极低的价格创建出更智能的模型。
那么,这一切有何意义?它对你未来意味着什么?
您可能已经厌倦了 AI 新闻通讯,它们总是谈论这件事或那件事是如何**刚刚**发生的。这些新闻通讯比比皆是,因为粗略地谈论已经发生的事件和事情很容易,但提供的价值有限,而且炒作夸大了。
然而,谈论未来会发生什么的新闻通讯却很少见。如果您想要在别人之前以通俗易懂的方式洞察人工智能的未来,那么TheTechOasis新闻通讯可能非常适合您。
多式联运输入,多式联运输出
那么,ChatGPT-4o 有什么特别之处呢?它是有史以来第一个真正的“多模式输入/多模式输出”前沿模型。
但我们这样说到底是什么意思呢?
在真正的多模式模型中,您可以向模型发送音频、文本、图像或视频,模型将根据需求使用文本、图像或音频(还不是视频)进行响应。
但我知道你在想什么:ChatGPT 或 Gemini 的先前版本不是已经处理和生成图像或音频了吗?是的,但有一个警告:他们是通过独立的外生组件来实现的。而这,我的朋友,改变了一切。
之前的模型看起来比实际情况要好
以前,每当你向模特发送音频时,这都是标准流程:
在此过程中,自然语音中的声调、节奏、韵律、传达的情感和关键停顿都会丢失,因为语音转文本组件Whisper会将音频转录为 LLM 可以处理的文本。
然后,LLM 将生成文本响应并将其发送到另一个组件(即文本到语音模型),该模型将生成最终传达的语音。
自然,由于人类通过语音传达的信息远不止文字,许多重要信息也因此丢失,而且由于信息必须在分离的元素之间发送,延迟远非理想。
但是在 ChatGPT-4o 中,一切都相似但又完全不同;因为一切都发生在同一个地方。
乍一看,似乎变化不大。但尽管组件几乎没有变化(声码器和音频解码器是我们之前展示的文本转语音模型的一部分),但这些组件如何共享信息完全改变了信息丢失的程度。
具体来说,LLM 现在看到的是语音的语义表示,而不是原始文本。通俗地说,模型现在不仅能看到“我想杀了你!”这句文字,还能接收到以下信息:
{
转录的演讲:“我想杀了你!”;
情绪:“高兴”;
语气:“喜悦”;
}
这边走,该模型捕捉消息的细微差别,而不仅仅是纯文本。
尽管我使用了 JSON 示例来说明,但语音编码器实际上为 LLM 生成的是一组向量嵌入,除了实际文本之外,它们还捕捉语音的情感、语调、节奏和其他线索。要深入了解嵌入,请阅读我的博客文章。
因此,LLM 生成的响应更加基于实际情况,除了文字之外,还能捕捉信息中的关键特征。
然后将该响应发送到音频解码器,音频解码器使用它来生成梅尔频谱图(很可能),最后将其发送到声码器以生成音频。
您可以将频谱图视为“查看”声音的一种方式。爱荷华州科学中心的这段简短视频很好地解释了这一点。
那么梅尔声谱图是什么?梅尔声谱图通常用于语音,因为它们模仿人耳对声音的反应。
顺便说一句,所有这些也适用于图像处理和生成或视频处理,因为它们将所有组件打包成一个单一模型,而不仅仅是音频。
总而言之,ChatGPT-4o 现在可以从文本以外的其他形式捕获信息,包括关键音频、图像或视频提示,以生成更相关的响应。简而言之,它不再关心数据如何进入并适应上下文,而是需要决定必须以何种方式回复。
然而,我可能还没有说服你这个改变有多么重要。所以,现在就让我来告诉你。
语义空间理论
当前人工智能中最美妙的概念之一是潜在空间,模型对世界的理解就存在于此。简而言之,当我们说我们的模型是多模态的,我们会去潜在空间看看是否真的如此。
例如,我们可以使用Hume.ai 在研究不同语音表达时创建的令人惊叹的交互式可视化来查看潜在空间的样子。
然而,与休谟的例子不同,GPT-4o 的潜在空间是多模态的。因此,每当 ChatGPT-4o 看到输入时,无论其原始形式如何,它都会变成压缩表示。
换句话说,模型对输入进行转换,以便在仍然捕获数据的关键属性的同时,可以由机器处理数据,请记住,机器的核心只能解释数字。
一个原则统治着潜在空间:相似性(或OpenAI 定义的关联性)。就像在我们的世界里,重力等概念统治着一切,语义相似性统治着多模态 LLM 世界中的一切。
对于普通人来说,这意味着,在潜在空间中,语义上相似的事物更接近,而不同的概念则被推开。“狗”和“猫”有几个共同的属性(动物、哺乳动物、家养等);因此,它们的表现形式会很相似,就像上面休谟的潜在空间中对悲伤的不同声音表达进行分组一样。
正如我们之前提到的,上图中用点表示的这些表示实际上是矢量。这样,我们就可以以数字的形式表示任何世界概念(机器需要处理),通过将它们转换为矢量形式,我们可以测量它们在数学上的相似程度。
简单来说,我们将理解世界的概念转化为数学计算(即,如果“狗”和“猫”向量相似,则模型假设它们是现实生活中的相似概念)。
关于人工智能模型如何解释我们的世界,这基本上就是你所需要知道的全部内容。
事实上,这基本上就是编码器(图像、音频或视频编码器)所做的;将它们各自的数据类型转换为向量。
因此,“狗”的概念可以通过多种方式来表示:通过文本、哈士奇的图像或吠叫。这就是我们想要真正的多模态性的根本原因。
此前,对于 ChatGPT 来说,狗的字面意思就是“狗”。但对于 GPT-4o 来说,音频、图像、文本和视频现在都是模型的原生组成部分。
因此:
- 该模型现在知道金毛猎犬的图像是“狗”,
- 知道马里努阿犬吠叫的声音也代表“狗”,
- 拉布拉多奔跑的视频也是“狗”,
等等。有了多模态,模型对世界的理解就变得与人类对世界的理解相似:多模态。因此,模型现在“更聪明”也就不足为奇了,因为它现在可以平等地推理所有模态。
但是我所说的‘跨多种模式推理’是什么意思呢?
如果我们以Meta 的 ImageBind为例,这是首批旨在实现真正多模态潜在空间的研究论文之一,我们会发现这些模型如何发展对世界概念的复杂理解的证据。
使用前面的狗的例子,如果我们为模型提供一张游泳池中的狗的图像和狗叫的声音,模型就会非常有信心地正确识别这种声音的来源:
您还可以添加时钟的图像和教堂钟声,该模型能够识别教堂钟的图像:
但是 ImageBind 是如何做到这一点的呢?正如你可能猜到的,它们计算每种数据类型的表示并测量向量之间的距离。
通俗地说,图像中的“狗”,或者更准确地说,狗所在的图像块,将具有与吠叫的马里努阿犬的音频文件非常相似的向量,告诉模型它们都是“狗”。最疯狂的是,你实际上可以添加、减去或插入这些向量来创建新的概念。
“添加概念以获得新概念”这一想法基于Google 的开创性论文word2vec中提出的“国王 — 男人 + 女人 = 女王”悖论。在这篇传奇文章中,他们证明了我们可以通过添加其他词来创建新的语义相关词,提出了这样一种想法:如果你把国王换成性别,你就会得到女王。
至于插值,一个非常令人印象深刻的例子是 OpenAI 如何使用这种向量组合通过结合另外两个向量来创建看似超现实的新视频。
长话短说,ChatGPT-4o 并不是为了赋予模型更多功能,而是表明他们已经创建了一个强大而复杂的潜在空间,可以帮助模型像人类一样通过各种数据类型来解释世界,从而使其能够更好地推理。
向正确方向迈出的重要一步
OpenAI 实现的真正多模态性向世界传递了一个鲜明的信息:
在不使模型的主干(LLM)本身更加智能的情况下,能够跨多种模态进行推理的模型必然会更加智能,因为该模型不仅具有更多功能,而且还能够在不同数据类型之间传递知识。
人类运用所有感官的能力被认为是智能的关键部分,而人工智能也旨在掌握这种能力。
作为一个很大的好处,它还使模型在推理方面变得更加高效(撇开它们本可以应用的特定效率不谈)。消除组合多个外生组件的通信开销似乎使模型的速度大大加快。
这就是 ChatGPT-4o 的特别之处。我们不能声称完全知道这个模型到底有多聪明,因为我们从未见过类似的东西,但第一印象非常非常有希望。
RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/4493