一个持续存在的挑战甚至困扰着最优秀的大语言模型：幻觉。这些错误的输出，即人工智能模型产生的虚假或误导性信息，长期以来一直被认为是大型语言模型 (LLM) 的固有缺陷。

然而，程序员兼发明家迈克尔·卡尔文·伍德 (Michael Calvin Wood) 的一项革命性发现正在挑战这一假设，并为精准人工智能的新时代铺平了道路——这种人工智能可能会改变我们处理数据和构建人工智能应用程序的方式。

为什么这对开发人员很重要

这项突破具有重大意义……

通过消除幻觉，我们可以确保基于我们的流程的人工智能生成的内容准确可靠。

了解根本原因

与普遍的看法相反，AI 幻觉主要不是由训练数据不足、模型假设不正确或算法有偏差造成的。相反，核心问题在于 LLM 如何根据 Wood 所说的“名词短语路线”处理和生成信息。

LLM 围绕名词短语组织信息，当遇到语义相似的单词或短语时，它们有时会混淆或误解它们。这导致模型在生成响应时选择错误的“路线”，从而产生幻觉。

大语言模型 (LLM) 的具体运作方式

例如：
1. 当被问及镁的性质时，人工智能可能会错误地提供有关钙的信息，因为这些元素在其训练数据中在语义上相似。2
. 在语言翻译中，谷歌翻译可能会混淆“笔”（书写工具与动物围栏）的含义，因为这两个含义与同一个词相关。

名词短语优势模型

伍德的研究促成了名词短语主导模型的发展，该模型假设 LLM 中的神经网络在训练过程中围绕名词短语进行自组织。这一见解对于理解如何消除幻觉至关重要。

真实世界的例子

1. 语言翻译：谷歌翻译经常会误解具有多重含义的单词，例如“pen”（书写工具或动物围栏）或“bark”（狗叫声或树木覆盖物）。

2. 问答：众所周知，ChatGPT 会混淆相似的名称，例如“Alfonso”和“Afonso”，从而导致历史信息不正确。

3. 医疗信息：在一项研究中，ChatGPT 93% 的时间都会产生 PubMed ID 的幻觉，并且对于卷号、页码和出版年份的幻觉率达到 60% 或更高。

解决方案：完全格式化的事实

Wood 的突破性方法涉及将输入数据转换为他所谓的“完全格式化的事实”（FFF）。这些是简单、独立的语句，具有以下特点：

1. 独立意义确实正确
2. 不与其他陈述发生名词短语冲突
3. 结构简单、形式良好、句子完整

通过以这种形式向大语言模型 (LLM) 呈现信息，伍德展示了在某些类型的人工智能任务中实现 100% 准确率的能力，尤其是在问答场景中。

迈克尔是如何进行 FFF 处理的？

我没有看到迈克尔在任何地方给我们提供如何进行 FFF 处理的详细食谱，但是，在我读过的内容中，他确实给了我们一些提示，从这些提示来看，他解决文本歧义问题的方法似乎是从使用 Python Spacy 库进行命名实体识别开始的，最终演变为使用 LLM 将文本段落转换为衍生词，以尽可能消除歧义，同时尝试保留原始文档的写作风格。

他的公司提供的 REST API 旨在作为 GPT-4o 和 GPT-4o-mini 的包装器。您无需通过 REST API 调用 OpenAI，而是使用与调用 OpenAI 类似的语法将请求提交给 Michael 构建的系统。然后，系统会转换您的测试以消除歧义。

我推测他正在对通过 REST API 提交的提示中的文本进行预处理，如果我理解正确的话，我还对 OpenAI GPT4o 模型进行了一些微调训练。

与当前方法对比

目前最先进的方法，如检索增强生成 (RAG)，试图通过为 AI 提供更多背景信息来减少幻觉。然而，这种方法有局限性：

1. RAG 仍会向 AI 发送“文档片段”，其中可能包含模棱两可或相互矛盾的信息。2
. 即使使用 RAG，ChatGPT-3.5 Turbo 在回答有关维基百科文章的问题时也会出现 23% 的幻觉。3
. 添加更多上下文有时会引入更多潜在的名词短语冲突，从而增加幻觉。

另一方面，伍德的方法侧重于完全消除名词短语冲突，解决幻觉的根本原因。

实施与结果

这种新方法被称为 RAG FF（使用格式化事实的检索增强生成），其实施已取得显著成果。在使用 RAG Truth 等第三方数据集进行的测试中，研究人员能够消除 GPT-4 和 GPT-3.5 Turbo 中问答任务的幻觉。

案例研究：消除翻译错误

为了证明此方法的有效性，请考虑以下示例：

原文：“鸡在哪儿？它在笔里吗？”
谷歌翻译：[由于“笔”一词歧义导致翻译错误]

完整格式化的事实：“鸡在哪儿？鸡在动物围栏里吗？”
谷歌翻译：[正确翻译，没有歧义]

这种简单的转换通过消除名词短语冲突消除了产生幻觉的可能性。

含义和未来发展

名词短语优势模型的发现和完全格式化事实在消除幻觉方面的有效性，对人工智能领域具有深远的影响：

1. 提高可靠性：现在可以开发具有更高准确度和可靠性的人工智能系统，从而有可能在医学、法律和金融等关键领域开辟新的应用。

2. 效率改进：通过关注输入格式而不是模型大小或训练数据量，这种方法可能会带来更高效、需要更少计算能力的人工智能系统。

3. 精准人工智能的民主化：随着技术的不断完善，可能创建可以在包括智能手机在内的小型设备上运行的高精度人工智能模型。

未来路线图

伍德和他的团队已经概述了扩展无幻觉人工智能能力的路线图：

1. 开发各种文档类型的转换器，包括时事、社交媒体帖子和研究报告。2
. 为法律摘要、医学研究和金融等领域创建专用转换器。3
. 调整该技术以适用于较小的 AI 模型，最终可能实现准确率达到 100% 的移动 LLM。

结论：人工智能可靠性的新时代

通过适当的输入格式来消除 AI 幻觉的发现代表了在寻求可靠人工智能方面迈出的一大步。通过将输入数据与 LLM 实际处理信息的方式相结合，Wood 释放了真正准确的 AI 系统的潜力。

随着这项技术不断发展并扩展到新领域，我们可能即将迎来人工智能可靠性的新时代。这对从医疗保健到法律服务等行业的影响是深远的，有可能开创一个人工智能可以被信赖为准确信息和帮助的一致来源的未来。

虽然在扩展这项技术以涵盖所有类型的 AI 任务和文档格式方面仍有工作要做，但 AI 准确性革命的基础已经奠定。随着我们前进，重点可能会从缓解幻觉转向改进和扩展这些新精确 AI 系统的功能，为人工智能领域的创新和进步开辟令人兴奋的可能性。

亲自体验 RAGFix

对于那些渴望亲身体验无幻觉 AI 力量的人来说，RAGFix 提供了这些突破性概念的实际实现。要探索 RAGFix 的功能并将这项技术集成到您自己的项目中，请访问其官方网站：

Home

在 RAGFix.ai，2img.ai 您可以：

1. 访问有关该技术的详细文档
2. 试用展示系统准确性的演示
3. 探索适合您自己应用程序的 REST API 集成选项
4. 随时了解该技术的最新发展和扩展

随着我们即将迎来 AI 可靠性的新时代，RAGFix 等工具正在为更值得信赖、更高效的 AI 系统铺平道路。无论您是开发人员、研究人员还是企业领导者，研究这项技术都可以为精准 AI 的未来提供宝贵的见解。

Paragoger衍生者AI训练营。发布者：稻草人，转载请注明出处：https://www.shxcj.com/archives/5748

人工智能幻觉的终结

为什么这对开发人员很重要

了解根本原因

大语言模型 (LLM) 的具体运作方式

名词短语优势模型

真实世界的例子

解决方案：完全格式化的事实

迈克尔是如何进行 FFF 处理的？

与当前方法对比

实施与结果

案例研究：消除翻译错误

含义和未来发展

未来路线图

结论：人工智能可靠性的新时代

亲自体验 RAGFix

关于作者

稻草人

发表回复

人工智能幻觉的终结

为什么这对开发人员很重要

了解根本原因

大语言模型 (LLM) 的具体运作方式

名词短语优势模型

真实世界的例子

解决方案：完全格式化的事实

迈克尔是如何进行 FFF 处理的？

与当前方法对比

实施与结果

案例研究：消除翻译错误

含义和未来发展

未来路线图

结论：人工智能可靠性的新时代

亲自体验 RAGFix

关于作者

稻草人

相关推荐

移动端大语言模型LLM深度性能评估：架构、数据与优化路径的全面解析

AT-逆熵绘梦

成为天才的窍门–大脑默认模式网络（DMN）

Lookahead 前瞻编码

GritLM是什么？

llama.cpp中如何判断一个LLM是否支持embed能力

发表回复