生成式人工智能是 2023 年最大的技术新闻。几乎每个人都玩过 ChatGPT、Stable Diffusion、GitHub Copilot 或 Midjourney。一些人甚至尝试过 Bard 或 Claude,或者在笔记本电脑上运行 LLaMA。每个人都对这些语言模型和艺术生成程序将如何改变工作性质、迎来奇点,甚至毁灭人类有着自己的看法。在企业中,我们看到了从全面采用到严格限制甚至禁止使用生成式人工智能的各种政策。
甚至可能毁灭人类。在企业中,我们看到了从全面采用到严格限制甚至禁止使用生成式人工智能的各种政策。
现实情况如何?我们想了解人们实际上在做什么,因此我们在 9 月对 O’Reilly 的用户进行了调查。我们的调查重点是公司如何使用生成式人工智能、他们在采用过程中遇到哪些瓶颈以及需要解决哪些技能差距。
执行摘要
我们从未见过像生成式人工智能这样快速被采用的技术——很难相信 ChatGPT 才诞生不到一年。截至 2023 年 11 月:
- 三分之二(67%)的受访者表示,他们的公司正在使用生成式人工智能。
- AI用户表示,AI编程(66%)和数据分析(59%)是最需要的技能。
- 许多人工智能采用者仍处于早期阶段。26% 的人使用人工智能的时间不到一年。但 18% 的人已经在生产中应用了人工智能。
- 难以找到合适的用例是用户和非用户采用的最大障碍。
- 16% 从事人工智能工作的受访者正在使用开源模型。
- 意外结果、安全性、公平性和偏见以及隐私是采用者在测试中面临的最大风险。
- 54% 的 AI 用户认为 AI 最大的好处是提高生产率。只有 4% 的人认为会减少员工数量。
生成式人工智能是否处于炒作曲线的顶端?我们看到了巨大的增长空间,尤其是当采用者发现新的用例并重新构想他们的业务方式时。
用户和非用户
人工智能的应用正在逐渐普及,但还未普及。我们调查的三分之二的受访者(67%)表示他们的公司正在使用生成式人工智能。41% 的受访者表示他们的公司使用人工智能已有一年或更长时间;26% 的受访者表示他们的公司使用人工智能的时间不到一年。只有 33% 的受访者表示他们的公司根本没有使用人工智能。
生成式人工智能用户与非用户的比例是二比一,但这意味着什么呢?如果我们问他们的公司是否在使用数据库或网络服务器,毫无疑问 100% 的受访者会回答“是”。在人工智能达到 100% 之前,它仍处于采用过程中。ChatGPT 于 2022 年 11 月 30 日向公众开放,大约一年前;艺术生成器,如 Stable Diffusion 和 DALL-E,稍老一些。在第一批网络服务器推出一年后,有多少公司拥有网站或正在尝试建立网站?肯定不是三分之二。仅从人工智能用户来看,超过三分之一(38%)的人报告说,他们的公司使用人工智能的时间不到一年,而且几乎肯定仍处于早期阶段:他们正在试验和开展概念验证项目。 (我们稍后会详细介绍这一点。)即使有了 GPT-4 这样的基于云的基础模型,无需开发自己的模型或提供自己的基础设施,针对任何特定用例微调模型仍然是一项艰巨的任务。我们从未见过采用速度如此之快。
如果 26% 的受访者使用某项技术未满一年,那么这就是一个重要的发展势头信号。诚然,正如Gartner 所说, AI(尤其是生成式 AI)可能正处于炒作周期的顶峰。但我们不这么认为,尽管许多新项目的失败率无疑很高。不过,尽管采用 AI 的热潮势头强劲,但 AI 仍需向新采用者证明其价值,而且要尽快。采用者期待回报,如果没有,那么 AI 在过去已经经历过许多次“寒冬”。我们是否正处于采用曲线的顶端,除了下降别无选择?还是还有增长空间?
我们相信还有很大的发展空间。训练模型和在这些模型上开发复杂的应用程序变得越来越容易。许多新的开源模型规模要小得多,资源密集程度也不高,但仍能提供良好的结果(尤其是在针对特定应用程序进行训练时)。有些模型可以轻松地在笔记本电脑甚至网络浏览器中运行。围绕生成式人工智能,一个健康的工具生态系统已经发展起来——正如人们谈论加州淘金热时所说的那样,如果你想知道谁在赚钱,不要看矿工,看看卖铲子的人。自动化构建复杂提示的过程已经变得很普遍,比如检索增强生成 (RAG) 等模式和 LangChain 等工具。还有用于归档和索引提示以供重复使用的工具、用于检索人工智能可以用来回答问题的文档的矢量数据库等等。我们已经进入第二代(如果不是第三代)工具。过山车式跌入 Gartner 所说的“幻灭低谷”的可能性不大。
什么阻碍了人工智能的发展?
了解公司不使用 AI 的原因对我们来说很重要,所以我们向公司不使用 AI 的受访者提出了一个显而易见的问题:“为什么您的公司不使用 AI?”我们向表示其公司正在使用 AI 的用户提出了类似的问题:“阻碍 AI 进一步采用的主要瓶颈是什么?”两组人都被要求从同一组答案中进行选择。最常见的原因是难以找到合适的业务用例(非用户占 31%,用户占 22%)。我们可以说这反映了缺乏想象力——但这不仅不礼貌,还假定不加思索就将 AI 应用于任何地方都是一个好主意。“快速行动,打破常规”的后果仍在世界各地上演,而且并不美好。考虑不周和实施不当的 AI 解决方案可能会造成损害,因此大多数公司应该仔细考虑如何正确使用 AI。我们并不是鼓励怀疑或恐惧,但公司应该在清楚了解风险的情况下开始使用 AI 产品,尤其是那些特定于 AI 的风险。哪些用例合适,哪些不合适?区分两者的能力很重要,这对使用人工智能的公司和不使用人工智能的公司来说都是一个问题。我们还必须认识到,许多这些用例将挑战传统的商业思维方式。识别人工智能的用例和理解人工智能如何让你重新构想业务本身将齐头并进。
第二大原因是担心法律问题、风险和合规性(非用户占 18%,用户占 20%)。这种担忧当然属于同一个故事:在考虑适当的用例时必须考虑风险。使用生成式人工智能的法律后果仍然未知。谁拥有人工智能生成输出的版权?创建模型是否会侵犯版权,或者它是否是受美国版权法保护的“变革性”使用?我们现在还不知道;答案将在未来几年由法庭来决定。还有其他风险,包括模型生成不适当输出时造成的声誉损害、新的安全漏洞等等。
同一难题的另一个方面是缺乏人工智能使用政策。此类政策旨在缓解法律问题并要求遵守法规。这不是一个重大问题;6.3% 的用户和 3.9% 的非用户提到了这一点。关于人工智能使用的企业政策将在未来一年内出现并不断发展。(在 O’Reilly,我们刚刚制定了工作场所使用政策。)到 2023 年末,我们怀疑制定政策的公司相对较少。当然,不使用人工智能的公司不需要人工智能使用政策。但重要的是要考虑哪个是本末倒置。缺乏政策会阻碍人工智能的采用吗?还是个人在自行采用人工智能,使公司面临未知的风险和责任?在人工智能用户中,缺乏全公司政策并没有阻碍人工智能的使用;这是不言而喻的。但这可能不是一件好事。同样,人工智能带来了风险和责任,应该加以解决,而不是忽视。故意无知只会导致不幸的后果。
阻碍人工智能应用的另一个因素是企业文化没有认识到这种需求(非用户占 9.8%,用户占 6.7%)。在某些方面,没有认识到这种需求类似于没有找到合适的业务用例。但两者之间还有一个重要的区别:“合适”这个词。人工智能会带来风险,找到合适的用例是合理的。没有认识到这种需求的企业文化是一种轻蔑的态度,可能表明企业缺乏想象力或深谋远虑:“人工智能只是一时的热潮,所以我们只会继续做对我们有用的事情。”这就是问题所在吗?很难想象一个企业不能使用人工智能,忽视这一承诺对公司的长期成功不利。
我们同情那些担心缺乏技术人才的公司,9.4% 的非用户和 13% 的用户都报告了这个问题。拥有人工智能技能的人才一直很难找到,而且往往很贵。我们预计这种情况在不久的将来不会有太大改变。虽然经验丰富的人工智能开发人员开始离开谷歌、OpenAI、Meta 和微软等巨头,但离开的人还不够多——而且他们中的大多数人可能会倾向于初创公司,而不是加入成熟公司的人工智能人才队伍。然而,我们也惊讶于这个问题并没有更加突出。采用人工智能的公司显然在某个地方寻找员工,无论是通过招聘还是培训现有员工。
一小部分人(3.7% 的非用户,5.4% 的用户)报告说“基础设施问题”是一个问题。是的,构建 AI 基础设施既困难又昂贵,AI 用户更敏锐地感受到这个问题也就不足为奇了。我们都读过关于为 ChatGPT 等模型提供支持的高端 GPU 短缺的消息。这是云提供商已经承担了大部分负担的领域,并且将来还将继续承担。目前,很少有 AI 采用者维护自己的基础设施,并受到提供商的保护,免受基础设施问题的影响。从长远来看,这些问题可能会减缓 AI 的采用。我们怀疑许多 API 服务都是以亏本销售的形式提供的——主要提供商故意将价格定得很低以抢占市场份额。这种定价是不可持续的,特别是在硬件短缺推高了基础设施建设成本的情况下。当从 AWS、微软或谷歌租用基础设施的成本上升时,AI 采用者会如何反应?考虑到为数据中心配备高端 GPU 的成本,他们可能不会尝试构建自己的基础设施。但他们可能会放弃人工智能开发。
很少有非用户(2%)表示缺乏数据或数据质量是一个问题,只有 1.3% 的人表示训练模型的难度是一个问题。事后看来,这是可以预见的:这些问题只有在你开始使用生成式人工智能之后才会出现。人工智能用户肯定面临着这些问题:7% 的人表示数据质量阻碍了进一步采用,4% 的人表示难以在他们的数据上训练模型。但是,虽然数据质量和训练模型的难度显然是重要问题,但它们似乎并不是使用人工智能构建的最大障碍。开发人员正在学习如何找到高质量的数据并构建有效的模型。
企业如何使用人工智能
我们询问了几个具体问题,询问受访者如何使用人工智能,以及他们是在“使用”人工智能还是只是在“试验”。
我们并不惊讶于生成式人工智能最常见的应用是在编程中,使用 GitHub Copilot 或 ChatGPT 等工具。然而,我们对人工智能的采用程度感到惊讶:77% 的受访者表示使用人工智能作为编程的辅助手段;34% 的人正在尝试使用人工智能,44% 的人已经在工作中使用它。数据分析显示出类似的模式:总计 70%;32% 的人使用人工智能,38% 的人正在尝试使用人工智能。进行实验的用户比例较高可能反映了 OpenAI 将高级数据分析(以前称为代码解释器)添加到 ChatGPT 的测试版功能库中。高级数据分析在探索和分析数据集方面做得不错——尽管我们希望数据分析师在检查人工智能的输出时要小心谨慎,不要信任标有“测试版”的软件。
使用生成式人工智能工具执行与编程(包括数据分析)相关的任务几乎是普遍现象。对于没有明确禁止使用人工智能的组织来说,它肯定会变得普遍。我们预计,即使在禁止使用人工智能的组织中,程序员也会使用人工智能。程序员一直在开发可以帮助他们完成工作的工具,从测试框架到源代码控制再到集成开发环境。无论是否得到管理层的许可,他们都一直在采用这些工具。从程序员的角度来看,代码生成只是另一种节省劳动力的工具,可以让他们在日益复杂的工作中保持高效。在 21 世纪初,一些关于开源采用的研究发现,绝大多数员工表示他们正在使用开源,尽管绝大多数 CIO 表示他们的公司没有使用开源。显然,这些 CIO 要么不知道他们的员工在做什么,要么愿意视而不见。我们将看到这种模式重演:程序员将尽一切努力完成工作,而管理人员则不会意识到这一点,只要他们的团队更有效率并且能够实现目标即可。
编程和数据分析之后,生成式人工智能的下一个最常见用途是与客户互动的应用程序,包括客户支持:65% 的受访者表示,他们的公司正在为此目的试验(43%)或使用人工智能(22%)。虽然各公司一直在谈论人工智能改善客户支持的潜力,但我们没想到客户服务的排名会这么高。面向客户的互动非常危险:错误答案、偏执或性别歧视行为以及生成式人工智能的许多其他有据可查的问题会迅速导致难以挽回的损害。也许这就是为什么如此多的受访者正在试验这项技术而不是使用它(比任何其他类型的应用程序都多)的原因。任何自动化客户服务的尝试都需要非常仔细地测试和调试。我们将调查结果解释为“谨慎但兴奋的采用”。很明显,自动化客户服务可以大大降低成本,如果做得好,甚至可以让客户更满意。没有人愿意落后,但与此同时,也没有人希望遭遇引人注目的公关灾难或面临诉讼。
有相当一部分受访者表示,他们的公司正在使用生成式人工智能来生成文案(书面文本)。47% 的人专门用它来生成营销文案,56% 的人用它来生成其他类型的文案(例如内部备忘录和报告)。尽管谣言四起,但我们很少看到有人真的因为人工智能而丢掉工作,但这些报道几乎全部来自文案人员。人工智能还没有达到可以像经验丰富的人类一样写得好的程度,但如果您的公司需要数百种商品的目录描述,速度可能比精彩的文字更重要。机器生成的文本还有许多其他应用:人工智能擅长总结文档。当与语音转文本服务结合使用时,它可以很好地创建会议记录甚至播客记录。它也非常适合撰写快速电子邮件。
用户最少的生成式人工智能应用是网页设计(总计 42%;28% 正在尝试,14% 正在使用)和艺术(总计 36%;25% 正在尝试,11% 正在使用)。这无疑反映了 O’Reilly 以开发人员为中心的受众。然而,还有其他几个因素在起作用。首先,已经有很多低代码和无代码的网页设计工具,其中许多都具有人工智能,但尚未使用生成式人工智能。在这个拥挤的市场中,生成式人工智能将面临激烈的竞争。其次,虽然 OpenAI 去年 3 月发布的 GPT-4 演示了从手绘草图生成网站代码,但该功能直到调查结束后才可用。第三,虽然为简单的网站粗略地编写 HTML 和 JavaScript 是一个很好的演示,但这并不是网页设计师真正需要解决的问题。他们想要一个可以在屏幕上编辑的拖放界面,而这是生成式人工智能模型还没有的。这些应用程序将很快构建出来;tldraw是它们可能成为的早期例子。适合专业用途的设计工具目前尚不存在,但它们很快就会出现。
更少的受访者表示,他们的公司正在使用生成式人工智能来创作艺术作品。虽然我们读到过一些初创公司创始人使用 Stable Diffusion 和 Midjourney 以低成本创建公司或产品徽标的消息,但这仍然是一种专业应用程序,而且你不会经常这样做。但这并不是公司所需的全部艺术作品:博客文章的“英雄形象”、报告和白皮书的设计、宣传照片的编辑等等都是必需的。生成式人工智能是答案吗?也许现在还不是。以 Midjourney 为例:虽然它的功能令人印象深刻,但该工具也会犯一些愚蠢的错误,比如弄错对象上的手指(或手臂)数量。虽然最新版本的 Midjourney 要好得多,但它推出的时间并不长,许多艺术家和设计师都不愿意处理这些错误。他们也希望避免承担法律责任。在生成式艺术供应商中,Shutterstock、Adobe 和 Getty Images 会为其工具的用户提供版权索赔赔偿。微软、谷歌、IBM 和 OpenAI 已提供更普遍的赔偿。
我们还询问了受访者的公司是否正在使用人工智能来创建其他类型的应用程序,如果是,那么是什么。虽然许多这些写入的应用程序重复了微软、OpenAI 和谷歌等大型人工智能提供商已经提供的功能,但其他应用程序涵盖的范围非常广泛。许多应用程序涉及摘要:新闻、法律文件和合同、兽医学和财务信息脱颖而出。几位受访者还提到了处理视频:分析视频数据流、视频分析以及生成或编辑视频。
受访者列出的其他应用包括欺诈检测、教学、客户关系管理、人力资源和合规性,以及聊天、代码生成和写作等更可预测的应用。我们无法统计和汇总所有回复,但很明显,创意和创新并不缺乏。同样明显的是,几乎没有行业不会受到影响——人工智能将成为几乎所有职业不可或缺的一部分。
生成式人工智能将成为终极办公生产力工具。当这种情况发生时,它可能不再被视为人工智能;它只是微软 Office 或 Google Docs 或 Adobe Photoshop 的一项功能,它们都集成了生成式人工智能模型。GitHub Copilot 和谷歌的 Codey 都已集成到微软和谷歌各自的编程环境中。它们将只是软件开发人员工作环境的一部分。20 或 25 年前的网络也发生过同样的事情:为办公室或房屋布线以太网曾经是一件大事。现在,我们期望无线网络无处不在,但即使这也不是正确的。我们并不“期望”它——我们假设它,如果没有,那就是一个问题。我们期望移动设备无处不在,包括地图服务,如果你在手机信号覆盖不到的地方迷路了,那就麻烦了。我们期望搜索无处不在。人工智能也会是一样的。它不会被期望;人们将假定这一点,而向人工智能过渡的一个重要部分就是理解当人工智能不可用时如何工作。
建造者和他们的工具
为了从不同角度了解我们的客户如何使用 AI,我们询问了他们使用什么模型来构建自定义应用程序。36% 的人表示他们没有构建自定义应用程序。相反,他们正在使用预打包的应用程序,例如 ChatGPT、GitHub Copilot、集成到 Microsoft Office 和 Google Docs 中的 AI 功能或类似的东西。其余 64% 的人已从使用 AI 转向开发 AI 应用程序。这一转变代表着一个巨大的飞跃:它需要对人员、基础设施和教育进行投资。
哪种型号?
虽然 GPT 模型占据了大部分在线讨论,但可用于构建应用程序的模型数量正在迅速增加。我们几乎每天都会读到一个新的模型——当然每周都会——快速浏览一下Hugging Face就会发现模型多得数不清。(截至 11 月,其存储库中的模型数量已接近 400,000 个。)开发人员显然有很多选择。但他们在做什么选择?他们使用哪种模型?
23% 的受访者表示,他们的公司正在使用 GPT 模型(2、3.5、4 和 4V)之一,使用率高于其他任何模型,这并不令人意外。更令人惊讶的是,21% 的受访者正在开发自己的模型;这项任务需要大量的人员和基础设施资源。值得关注的是,这种情况将如何发展:公司会继续开发自己的模型,还是会使用允许定制基础模型(如 GPT-4)的 AI 服务?
16% 的受访者表示,他们的公司正在基于开源模型进行构建。开源模型是一个庞大而多样的群体。一个重要的子类别由来自 Meta 的 LLaMA 的模型组成:llama.cpp、Alpaca、Vicuna 和许多其他模型。这些模型通常较小(70 亿到 140 亿个参数),更容易微调,并且可以在非常有限的硬件上运行;许多模型可以在笔记本电脑、手机或 Raspberry Pi 等纳米计算机上运行。训练需要更多的硬件,但能够在有限的环境中运行意味着完成的模型可以嵌入硬件或软件产品中。另一类模型与 LLaMA 无关:RedPajama、Falcon、MPT、Bloom 和许多其他模型,其中大多数都可以在 Hugging Face 上找到。使用任何特定模型的开发人员数量相对较少,但总数令人印象深刻,并展示了 GPT 之外的一个充满活力和活跃的世界。这些“其他”模型吸引了大量追随者。不过要小心:虽然这组模型经常被称为“开源”,但其中许多模型限制了开发人员可以从中构建的内容。在使用任何所谓的开源模型之前,请仔细查看许可证。有些将模型限制在研究工作中,禁止商业应用;有些禁止与模型开发人员竞争;等等。我们暂时只能使用“开源”一词,但就人工智能而言,开源往往不是看上去的那样。
只有 2.4% 的受访者使用 LLaMA 和 Llama 2 进行构建。虽然LLaMA 模型的源代码和权重可以在线获取,但 LLaMA 模型尚未拥有由 Meta 支持的公共 API — 尽管似乎有多个由第三方开发的 API,并且Google Cloud和Microsoft Azure都提供 Llama 2 作为服务。LLaMA 系列模型也属于“所谓的开源”类别,这限制了您可以构建的内容。
只有 1% 的人使用谷歌的 Bard 进行构建,也许与其他模型相比,Bard 的曝光率较低。许多作家声称 Bard 的结果比 LLaMA 和 GPT 模型更差;对于聊天来说可能确实如此,但我发现,当 GPT-4 失败时,Bard 通常是正确的。对于应用程序开发者来说,Bard 最大的问题可能不是准确性或正确性,而是可用性。2023 年 3 月,谷歌宣布了 Bard API 的公开 Beta 版计划。然而,截至 11 月,有关 API 可用性的问题仍然可以通过Beta 版公告的链接来解答。Bard API 的使用无疑受到有权访问它的开发人员数量相对较少的阻碍。使用Anthropic 开发的非常强大的模型Claude 的人就更少了。Claude 没有像 Meta、OpenAI 和谷歌的模型那样得到太多的新闻报道,这很不幸:Anthropic 的Constitutional AI方法是解决困扰 AI 行业最大问题的独特而有前途的尝试。
什么阶段?
当被问及公司目前处于哪个阶段时,大多数受访者表示他们仍处于早期阶段。鉴于生成式人工智能相对较新,这并不是什么新鲜事。如果非要说的话,我们应该对生成式人工智能如此深入、如此迅速地渗透感到惊讶。34% 的受访者正在进行初步的概念验证。14% 的受访者正在进行产品开发,大概是在开发出 PoC 之后;10% 的受访者正在构建模型,这也是一项早期活动;8% 的受访者正在测试,这假设他们已经构建了概念验证并正在走向部署——他们有一个至少看起来可行的模型。
引人注目的是,18% 的受访者就职的公司已在生产 AI 应用程序。鉴于这项技术尚属新技术,而且许多 AI 项目都以失败告终,2 令人惊讶的是,18% 的受访者表示其公司已在生产生成式 AI 应用程序。我们并非怀疑论者;这证明,尽管大多数受访者表示公司正在进行概念验证或其他早期阶段,但生成式 AI 正在被采用并发挥实际作用。我们已经看到 AI 大量融入现有产品,包括我们自己的产品。我们希望其他人也能效仿。
风险与考验
我们询问了正在使用人工智能的公司的受访者,他们正在测试哪些风险。排名前五的回答集中在 45% 到 50% 之间:意外结果 (49%)、安全漏洞 (48%)、安全性和可靠性 (46%)、公平、偏见和道德 (46%) 以及隐私 (46%)。
重要的是,几乎一半的受访者选择“意外结果”,而不是其他任何答案:任何使用生成式人工智能的人都需要知道,错误结果(通常称为幻觉)很常见。如果说这里有一个惊喜,那就是这个答案并不是 100% 的参与者选择的。意外、不正确或不适当的结果几乎肯定是与生成式人工智能相关的最大单一风险。
我们希望看到更多公司进行公平性测试。在许多应用程序(例如医疗 应用程序)中,偏见是需要测试的最重要的问题之一,而消除训练数据中的历史偏见非常困难且至关重要。重要的是要认识到不公平或有偏见的输出可能非常微妙,特别是如果应用程序开发人员不属于经历偏见的群体——而对开发人员来说“微妙”的东西对用户来说往往非常不微妙。不理解用户口音的聊天应用程序是一个明显的问题(搜索“亚马逊 Alexa 不懂苏格兰口音”)。寻找没有偏见的应用程序也很重要。ChatGPT 推动了对个人用例的关注,但在许多应用程序中,偏见和公平问题并不是主要问题:例如,检查图像以判断农作物是否患病,或优化建筑物的供暖和空调以实现最高效率同时保持舒适度。
很高兴看到诸如安全和保障之类的问题位居榜首。公司逐渐意识到安全是一个严重的问题,而不仅仅是成本中心。在许多应用中(例如客户服务),生成式人工智能除了产生法律责任外,还可能造成严重的声誉损害。此外,生成式人工智能也有自己的漏洞,例如提示注入,目前尚无已知的解决方案。模型窃取是另一种人工智能独有的攻击,攻击者使用专门设计的提示来重建模型训练的数据。虽然 48% 还不错,但我们希望看到人们更加意识到测试人工智能应用程序安全性的必要性。
模型可解释性 (35%) 和模型退化 (31%) 并不是那么令人担忧。不幸的是,可解释性仍然是生成式人工智能的一个研究问题。至少对于目前的语言模型来说,很难解释为什么生成模型会对任何问题给出特定的答案。可解释性可能不是大多数当前应用程序的必要条件。如果 ChatGPT 为您编写了一个 Python 脚本,您可能不会关心它为什么编写了该特定脚本而不是其他脚本。(还值得记住的是,如果您问 ChatGPT 为什么它会产生任何回应,它的答案不会是之前回应的原因,但一如既往,是最有可能回答您的问题的答案。)但可解释性对于诊断偏见问题至关重要,当涉及生成式人工智能的案件最终诉诸法庭时,它将极为重要。
模型退化是另一个问题。任何人工智能模型的性能都会随着时间的推移而下降,据我们所知,大型语言模型也不例外。一项备受争议的研究认为,GPT-4 的响应质量随着时间的推移而下降。语言以微妙的方式发生变化;用户提出的问题发生了变化,可能无法用旧的训练数据来回答。即使是回答问题的人工智能的存在也可能会导致问题内容的变化。另一个有趣的问题是,当生成模型在其他生成模型生成的数据上进行训练时会发生什么。“模型崩溃”是真实存在的吗?当模型重新训练时,它会产生什么影响?
如果您只是在现有模型的基础上构建应用程序,则可能无法对模型退化采取任何措施。对于正在构建自己的模型或进行额外训练以微调现有模型的开发人员来说,模型退化是一个更大的问题。训练模型的成本很高,而且很可能是一个持续的过程。
缺失技能
开发 AI 的公司面临的最大挑战之一是专业知识。他们是否拥有具备构建、部署和管理这些应用程序所需技能的员工?为了找出技能缺陷,我们询问了受访者他们的组织需要获得哪些技能才能开展 AI 项目。我们并不惊讶地发现,AI 编程 (66%) 和数据分析 (59%) 是最需要的两项技能。AI 是我们几年前所说的“数据科学”的下一代,数据科学代表了统计建模和软件开发的融合。该领域可能已从传统的统计分析发展到人工智能,但其整体形态并没有发生太大变化。
接下来最需要的技能是 AI 和 ML 的运营(54%)。我们很高兴看到人们认识到这一点;我们一直认为运营是 AI 和 ML 的“房间里的大象”。部署和管理 AI 产品并不简单。这些产品在很多方面与更传统的应用程序不同,虽然持续集成和部署等实践对传统软件应用程序非常有效,但 AI 需要重新思考这些以代码为中心的方法。模型,而不是源代码,是任何 AI 应用程序中最重要的部分,模型是大型二进制文件,不适合 Git 等源代码控制工具。与源代码不同,模型会随着时间的推移而变得陈旧,需要不断监控和测试。大多数模型的统计行为意味着简单的确定性测试将不起作用;您无法保证给定相同的输入,模型会产生相同的输出。结果是 AI 操作本身就是一门专业,除了更传统的操作之外,还需要深入了解 AI 及其要求。我们需要什么样的部署管道、存储库和测试框架才能将 AI 应用程序投入生产?我们不知道;我们仍在开发成功部署和管理 AI 所需的工具和实践。
45% 的受访者选择了基础设施工程,但排名并不高。这有点令人费解:运行 AI 应用程序在生产中需要大量资源,微软等大公司都意识到了这一点。然而,大多数组织尚未在自己的基础设施上运行 AI。他们要么使用 OpenAI、微软、亚马逊或谷歌等 AI 提供商的 API,要么使用云提供商来运行自主开发的应用程序。但在这两种情况下,都是由其他提供商构建和管理基础设施。OpenAI 尤其提供企业服务,其中包括用于训练自定义模型的 API 以及更有力的保证公司数据的私密性。然而,由于云提供商几乎满负荷运营,投资 AI 的公司开始考虑自己的基础设施并获取构建它的能力是有意义的。
超过一半的受访者(52%)认为,一般的人工智能素养是一项必备技能。虽然这个数字可能更高,但我们很高兴我们的用户认识到熟悉人工智能以及人工智能系统的行为方式(或不当行为)至关重要。生成式人工智能有一个很棒的亮点:只需一个简单的提示,ChatGPT 就可以告诉你麦克斯韦方程或伯罗奔尼撒战争。但简单的提示并不能让你在商业上走得太远。人工智能用户很快就会发现,好的提示通常非常复杂,详细描述了他们想要的结果以及如何获得它。提示可能很长,它们可以包含回答用户问题所需的所有资源。研究人员争论这种级别的提示工程在未来是否有必要,但显然在未来几年里我们会一直拥有它。人工智能用户还需要预料到错误的答案,并具备检查人工智能产生的几乎所有输出的能力。这通常被称为批判性思维,但它更像是法律中的发现过程:对所有可能的证据进行详尽的搜索。用户还需要知道如何为能够生成有用答案的 AI 系统创建提示。
最后,业务
那么,底线是什么?企业如何从人工智能中受益?超过一半(54%)的受访者预计他们的企业将从生产力提高中受益。21% 的人预计收入会增加,这可能确实是生产力提高的结果。合计占受访者的四分之三。另有 9% 的人表示,他们的公司将从更好的规划和预测中受益。
只有 4% 的人认为主要的好处是减少人员数量。我们一直认为,担心人工智能会取代你原来的工作有些言过其实。虽然一些工作会因为人工智能的出现而消失,从而造成一些短期的混乱,但人工智能也会创造新的工作岗位——几乎所有重要的新技术都是如此,包括计算本身。大多数工作都依赖于大量的个人技能,而生成式人工智能只能替代其中的一小部分。大多数员工也愿意使用能够让他们的工作更轻松的工具,从而提高生产率。我们不相信人工智能会取代人类,我们的受访者也不相信。另一方面,员工需要接受培训才能有效地使用人工智能驱动的工具,而提供这种培训是雇主的责任。
我们对生成式人工智能的未来持乐观态度。很难想象 ChatGPT 才出现一年;在这么短的时间内,技术世界发生了如此巨大的变化。我们从未见过一项新技术如此迅速地引起如此多的关注:无论是个人电脑、互联网还是网络。如果对生成式人工智能的投资没有成功,我们很可能会再次陷入人工智能寒冬。肯定存在一些需要解决的问题——正确性、公平性、偏见和安全性是其中最大的问题——一些早期采用者将忽视这些危害并承担后果。另一方面,我们认为,担心通用人工智能认为人类是不必要的,要么是那些读了太多科幻小说的人的病态,要么是鼓励监管的策略,这种策略让现任者比初创公司更具优势。
现在是时候开始学习生成式人工智能,思考它如何改善贵公司的业务,并制定战略。我们无法告诉你该怎么做;开发人员正在将人工智能推向业务的几乎每个方面。但公司需要投资培训,既要培训软件开发人员,也要培训人工智能用户;他们需要投资开发和运行应用程序所需的资源,无论是在云端还是在自己的数据中心;他们需要创造性地思考如何让人工智能发挥作用,意识到答案可能不是他们所期望的。
人工智能不会取代人类,但利用人工智能的公司将取代没有利用人工智能的公司。
脚注
- Meta 已删除 Llama 2 的奇怪大写字母。在本报告中,我们使用 LLaMA 来统称 LLaMA 型号:LLaMA、Llama 2 和 Llama n(如果有未来版本)。尽管大写字母有所变化,但我们使用 Claude 来指代原始 Claude 和 Claude 2,使用 Bard 来指代 Google 的 Bard 型号及其后续型号。
- 许多文章引用 Gartner 的说法,称人工智能项目的失败率为 85%。我们还没有找到来源,不过 2018 年,Gartner 写道,85% 的人工智能项目“产生了错误的结果”。这与失败不同,而且 2018 年明显早于生成式人工智能。生成式人工智能肯定容易产生“错误的结果”,我们怀疑失败率很高。85% 可能是一个合理的估计。
RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/3277