为什么Gen AI工具在图像和语音处理方面比写作更胜一筹

所有“人工智能”工具都会输出经过训练的内容

当你使用 ChatGPT 这样的工具时,它会模仿你在报纸上看到的风格——简短、基本、正反两面。除非你要求这种风格,否则它不会输出维基百科文章。当你只是要求它做一些事情,比如写一篇文章、写一篇博客文章,或者帮我写这封电子邮件时,它会模仿所有这些公司新闻稿、公司编辑的新闻文章和其他源材料。

这些将仅限于英语,而不是全球所有艺术家。英语文本“语料库”(用于 ChatGPT 等LLM)的训练数据将包括自互联网发明和写作爆炸式增长(主要是自 2000 年以来)以来,绝大多数偏向于“我们在网上找到的东西”的写作。

这就解释了差异。转录和语音转文本工具也是如此。每个说母语的人都会说得很好。我的意思是,是的,有些人会说得比别人好,但几乎普遍而言,母语人士说自己的语言会比外语学习者说得更好——即使是那些成年后花了 10 年或更长时间学习外语的人。

为什么Gen AI工具在图像和语音处理方面比写作更胜一筹
公共领域图片由大都会艺术博物馆和 Picryl 提供)

人工智能在文本转语音和转录方面表现更佳

为了能够理解对方说的语言,我们必须以相同的方式发出相同的声音。因此,与写作不同,互联网上有很多垃圾,它们被吸收到训练数据中并反映在生成的输出中,几乎所有说美式英语的人听起来都一样。

是的,你可以将其分为口音、原籍国、词汇选择偏好、使用的单词数量、词汇量和其他所有因素。从根本上讲,有更准确的训练数据,因为母语人士的口语水平很高,可以使用 OpenAI Whisper 等工具进行文本转语音或语音转文本或语音转录的逆向问题,因此不需要那么多输入。

你不需要过去 500 年来世界上所有的杰作。你只需要基本上任何音频。学习一门语言并发出正确声音的问题对于计算机来说要容易得多——OpenAI Whisper 最初是在 680,000 小时的多语言数据上进行训练的——而不是创造性地撰写原创思想和观点文章。

为什么Gen AI工具在图像和语音处理方面比写作更胜一筹
公共领域图像由法兰克福施泰德博物馆的收藏和网站提供)

我知道我的写作水平不如伦勃朗的画作

当今世界上的任何人都会为自己的绘画水平能与伦勃朗相媲美而感到兴奋。任何非英语母语人士都会为自己的英语水平能与母语人士相媲美而感到兴奋。这些都是涉及大量数据的问题。就艺术而言,追溯 500 多年前保存并编目的具象艺术,如果加上所有这些——加上动漫、卡通片和高质量的粉丝版本——你很容易就会有十亿幅图像:全部都是具象艺术。

即使你可能有上万亿篇文章,但事实是 OpenAI 并没有根据前 1% 的最佳写作来训练 ChatGPT。不,它接受了一切训练。它接受了人们糟糕的写作训练;它接受了书籍训练;它接受了重复这些公司胡言乱语的训练,我们不断听到 CEO 们的报道,他们避免为公司发生的事情承担任何责任,并将人们推到车下。

因此,它在编写公司电子邮件之类的内容方面很出色,但它并不擅长编写原创的、发人深省的最高质量文章,因为有太多低质量的培训输入。

为什么Gen AI工具在图像和语音处理方面比写作更胜一筹
即使这张照片是在训练数据中,它也是现实主义(具象)的“艺术”。(图片来自Unsplash上的redcharlie

如果像 ChatGPT 一样训练 DALL-E 会怎样?

想象一下,世界上每个人,都以他们当前的视觉艺术技能水平,制作十张图片并上传,这就是 Stable Diffusion 或 DALL-E 之类的训练语料库。

您认为它会很有效吗?

但这更接近于 ChatGPT 之类的程序所基于的训练环境——整个互联网。谈到这些生成式人工智能工具及其使用,使用现代智能相机拍摄一张高质量的照片比撰写一篇 3,000 字的高质量文章要容易得多。

例如,Unsplash 有 500 万张照片,即使是那些糟糕的照片也是静态照片——它们是照片写实的捕捉,是具象艺术。因此,通过训练照片或杰作获得照片写实的输出要比训练每个人的视觉艺术要容易得多。

事实上,就机器学习问题而言,某些类别的输入质量要高得多——特别是视觉艺术和摄影,以及用母语讲母语的母语人士——与写作相比。在网上,你几乎找不到那么多有趣、引人入胜、富有创意、非企业用语的写作范例,尤其是那些可能吸引不了优秀作家的晦涩话题。大多数博主只是爱好者,而不是伦勃朗级别的作家。

为什么Gen AI工具在图像和语音处理方面比写作更胜一筹
这幅壁画所花的时间比大多数人在博客文章上投入的时间要多得多。(照片来自Unsplash上的Pourya Jan

为什么人工智能的优势和劣势如此重要

这一切之所以重要,是因为你不能指望即使是 ChatGPT 4o(最新、最伟大的大型语言模型)也能生成与这些生成式 AI 工具生成图像相同水平的高质量写作。

我们可以在视频等产品中看到这一点。使用 Sora 产品或其他产品来生成哪怕是 30 秒的视频都极其困难,因为视频中的照片和视觉图像数量并不多达数十亿。这是一个更难的问题。文章也是一样。作为一名专业开发人员,我有多少次因为所在公司的某些高管决定而不得不使用某些产品的文档而感到沮丧?互联网上的技术文档非常糟糕、简短、简练,而且几乎毫无用处。

你会用这些词来描述自 17 世纪以来博物馆所编目的整个视觉艺术史吗?绝对不会。

当谈到 ChatGPT 或任何其他试图解决“写作”(相对于“具象艺术”)问题的工具时,这些公司正在用糟糕的数据训练他们的算法。对于任何基于文本的工具(“大型语言模型”)来说,这永远是 100% 正确的,因为互联网上的大多数写作并不是“世界历史上最好的写作”,就像伦勃朗的作品不是“世界历史上最好的油画”一样。简单地说,现在的糟糕写作比过去 400 多年来世界博物馆编目的糟糕照片或糟糕视觉艺术作品要多得多。

那么您可以利用这些信息做什么呢?

为什么Gen AI工具在图像和语音处理方面比写作更胜一筹
你知道吗?许多以前归于伦勃朗的作品现在都归于他的学生。但这幅画被认为是伦勃朗本人的作品。(照片来自Unsplash上的Europeana

使用 GenAI 进行艺术和演讲,而不是原创写作

我想告诉你的要点是,尝试使用像 ChatGPT 这样在低质量数据上训练的工具并将其能力与在伦勃朗的杰作上训练的工具进行比较,是没有意义的。

我使用 ChatGPT 使用这些确切的词语生成这篇文章的可能性为 0%,因为我的写作平均水平比 ChatGPT 训练数据中的“平均”写作水平要高得多。

但是,如果我向 DALL-E 或其他工具询问类似伦勃朗杰作的东西,它很有可能会给我一幅,因为训练数据的平均质量极高。

如果您想使用这些生成式 AI 工具(除了与版权侵权相关的任何问题之外),与让生成式 AI 编写书籍或文章相比,您将在节省时间方面获得更令人印象深刻的结果,即要求生成式 AI 进行文本转语音、将语音转录为文本或生成逼真或动漫风格的视觉图像。

这也回答了为什么更容易辨别出聊天机器人写的东西:太长、太冗长、太普通、太无聊、太重复。这种模式类似于网上的很多写作,尤其是很多新闻报道、社交媒体帖子,尤其是公司备忘录和新闻稿。

更重要的是,写作并不比具象艺术更难解决——但对于 DALL-E 来说,世界级写作训练集中的例子比世界级视觉艺术的例子少得多。

这就是为什么,如果你想在现有工具的状态下应用这些生成式人工智能工具——这可能是一个永久性的限制,因为我不认为他们急于减少 ChatGPT 训练的标记数量——那么你将在生成图像或使用文本转语音或语音转文本功能方面取得更大的成功。

与尝试将 ChatGPT 用作严肃的写作工具相比,这些功能将为您节省更多时间。它只与输入数据的质量有关 — — 因为这会影响输出数据的质量。

RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/5382

Like (0)
Previous 2024-08-31 9:08 上午
Next 2024-09-01 4:22 下午

相关推荐

发表回复

Please Login to Comment
本文授权以下站点有原版访问授权 https://www.shxcj.com https://www.2img.ai https://www.2video.cn