GenAI 无处不在,各行各业的组织都在向他们的团队施加压力,要求他们加入竞争——77 % 的企业领导者担心他们已经错过了 GenAI 带来的好处。
数据团队正在努力响应号召。但构建一个真正能推动商业价值的生成式人工智能模型却很难。
从长远来看,与 OpenAI API 的快速集成并不能解决问题。这是 GenAI,但护城河在哪里?用户为什么要选择你而不是 ChatGPT?
快速勾选这个框感觉像是向前迈了一步,但如果您还没有考虑如何将 LLM 与您的专有数据和业务环境相连接以真正推动差异化价值,那么您就落后了。
这不是夸张。仅本周我就与六位数据领导者就这个话题进行了交谈。他们中没有人忘记这是一场竞赛。终点线将有赢家和输家。Blockbusters 和 Netflixes。
如果你觉得发令枪已经响了,但你的团队仍然在起跑线上拉筋并谈论“泡沫”和“炒作”,我总结了 5 个残酷的事实来帮助你摆脱自满情绪。
残酷事实#1:你的生成式人工智能功能尚未得到广泛采用,因此你的盈利速度很慢。
“巴尔,如果 GenAI 如此重要,为什么我们目前实现的功能却被如此不广泛采用呢?”
嗯,有几个原因。首先,你的 AI 计划不是为应对大量明确定义的用户问题而制定的。对于大多数数据团队来说,这是因为你正在竞争,而且还处于早期阶段,你想要积累一些经验。
然而,不久之后,您的用户就会遇到最适合通过 GenAI 解决的问题,当这种情况发生时 — — 与老虎团队集思广益将 GenAI 与用例联系起来的方法相比,您将获得更好的采用。
而且由于还处于早期阶段,已经集成的生成式 AI 功能仅仅是“ChatGPT,但在这里”。
举个例子。想想你每天可能用来分享组织知识的生产力应用程序。这样的应用程序可能会提供一项功能,用于对非结构化文本块执行“总结”、“延长”或“更改语气”等命令。一个命令等于一个 AI 积分。
是的,这很有帮助,但是没有区别。
也许团队决定购买一些 AI 积分,或者他们只是简单地点击另一个选项卡并询问 ChatGPT。我不想完全忽视或低估不向 ChatGPT 公开专有数据的好处,但它也是一个比全国各地财报电话会议上所描绘的更小的解决方案和愿景。
那么请考虑一下:您的 GenAI 差异化和附加值是什么?让我给您一个提示:高质量的专有数据。
这就是为什么 RAG 模型(或有时是微调模型)对 Gen AI 计划如此重要。它使 LLM 能够访问该企业的专有数据。我将在下面解释原因。
残酷事实#2:你害怕利用 Gen AI 做更多的事情。
确实如此:生成式人工智能令人生畏。
当然,你可以将你的人工智能模型更深入地融入到组织的流程中,但这感觉有点冒险。让我们面对现实吧:ChatGPT 会产生幻觉,而且无法预测。存在知识断层,用户容易受到过时输出的影响。数据处理不当和向消费者提供错误信息(即使是无意的)都会产生法律后果。
听起来很真实,对吧?Llama 2 肯定是这么认为的。
数据失误会产生严重后果。因此,了解您向 GenAI 提供的数据以及确保数据准确无误至关重要。
我们向数据领导者发送了一项匿名调查,询问他们的团队距离实现 GenAI 用例还有多远,其中一位回答是:“我不认为我们的基础设施是阻碍我们前进的因素。我们在这方面非常谨慎——由于形势变化如此之快,并且存在‘流氓’聊天机器人损害声誉的风险,我们暂时搁置,等待炒作逐渐平息!”
我采访过的许多数据领导者都普遍认同这种观点。如果数据团队突然出现面向客户的安全数据,那么他们就要承担责任。数据治理是一项重大的考虑,而且门槛很高。
这些都是需要解决的真正风险,但您无法通过袖手旁观来解决它们。还有一个真正的风险,那就是眼睁睁地看着您的业务被最先发现问题的团队彻底颠覆。
通过微调和 RAG 将 LLM 建立在您的专有数据中是解决这一难题的一大难题,但这并不容易……
残酷的事实#3:RAG 很难。
我相信 RAG(检索增强生成)和微调是企业生成 AI 未来的核心。尽管 RAG 在大多数情况下是更简单的方法,但开发 RAG 应用程序仍然很复杂。
难道我们不能开始 RAGing 吗?这有什么大不了的?
RAG 似乎是定制 LLM 的明显解决方案。但 RAG 开发有一个学习曲线,即使对于最有才华的数据工程师也是如此。他们需要了解快速工程、向量数据库和嵌入向量、数据建模、数据编排、数据管道……所有这些都适用于 RAG。而且,由于它是新产品,许多公司还没有足够的经验来建立最佳实践。
RAG 应用程序架构。
以下是 RAG 应用程序架构的简化版本:
- RAG 架构将信息检索与文本生成器模型相结合,因此它在尝试回答用户的问题时可以访问您的数据库。
- 该数据库必须是包含专有数据的可信来源,并且它允许模型将最新的可靠信息纳入其响应和推理中。
- 在后台,数据管道将各种结构化和非结构化源纳入数据库,以确保其准确性和最新性。
- RAG 链获取用户查询(文本)并从数据库中检索相关数据,然后将该数据和查询传递给 LLM,以生成高度准确和个性化的响应。
这种架构有很多复杂性,但它确实具有重要的优点:
- 它为您的大语言模型学位提供准确的专有数据,从而使其更有价值。
- 它将你的模型带入你的数据,而不是将你的数据带入你的模型,这是一种相对简单、经济高效的方法。
我们可以看到这在现代数据堆栈中成为现实。最大的参与者正在以极快的速度工作,通过在存储企业数据的环境中提供 LLM 来简化 RAG。
Snowflake Cortex现在可让组织快速分析数据并直接在 Snowflake 中构建 AI 应用程序。Databricks 的新Foundation Model API可直接在 Databricks 中即时访问 LLM。微软发布了 Microsoft Azure OpenAI 服务,亚马逊最近推出了Amazon Redshift 查询编辑器。
我相信所有这些功能都很有可能推动高采用率。但是,它们也提高了对这些数据存储中数据质量的关注。如果提供给 RAG 管道的数据是异常的、过时的或不可信的,那么您的生成式 AI 计划的未来会怎样?
残酷的事实#4:无论如何,您的数据尚未准备好。
仔细审视您的数据基础设施。如果您拥有完美的 RAG 管道、经过微调的模型和清晰的用例,明天就可以开始使用(这不是 很好吗?),但您仍然没有干净、模型良好的数据集来将其全部插入。
假设您希望聊天机器人与客户进行交互。要执行任何有用的操作,它需要了解该组织与客户的关系。如果您现在是一家企业组织,那么这种关系可能在 150 个数据源和 5 个孤立的数据库中定义……其中 3 个仍在本地。
如果这描述了您的组织,那么您的数据基础设施可能需要一年(或两年!)的时间才能为 GenAI 做好准备。
这意味着,如果你想在不久的将来使用GenAI做点什么,你需要在现代数据平台上创建有用、高度可靠、整合、记录良好的数据集……昨天。否则教练会叫你上场,而你的裤子会掉下来。
您的数据工程团队是确保数据健康的骨干。而且,现代数据堆栈使数据工程团队能够持续监控未来的数据质量。
残酷事实#5:你在不知情的情况下将关键的 Gen AI 玩家排除在外。
生成式人工智能是一项团队运动,尤其是在开发方面。许多数据团队犯了一个错误,将关键成员排除在 GenAI 猛虎队之外,从长远来看,这会让他们付出代价。
谁应该加入 AI 猛虎队?领导者或主要业务利益相关者,带头实施计划并提醒团队业务价值。软件工程师开发代码、面向用户的应用程序和 API 调用。数据科学家考虑新的用例、微调模型并推动团队朝着新的方向发展。这里缺少谁?
数据工程师。
数据工程师对 GenAI 计划至关重要。他们将能够理解专有业务数据,这些数据比 ChatGPT 更具竞争优势,并且他们将构建管道,通过 RAG 将这些数据提供给 LLM。
如果你的数据工程师不在场,你的老虎队就无法发挥全部实力。GenAI 领域最具开拓精神的公司告诉我,他们已经将数据工程师嵌入所有开发小组。
赢得 GenAI 竞赛
如果这些残酷的事实适用于你,请不要担心。生成式人工智能还处于起步阶段,还有时间重新开始,这一次,迎接挑战。
退一步了解 AI 模型可以解决的客户需求,将数据工程师纳入早期开发阶段,以从一开始就确保竞争优势,并花时间构建可以提供稳定高质量、可靠数据的 RAG 管道。
并且,投资现代数据堆栈,将数据质量放在首位。因为没有高质量数据的生成式人工智能只是一堆废话。
RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/3822