GPT-4、Bloom、LaMDA 等大型语言模型 (LLM) 在生成类似人类的文本方面表现出了令人印象深刻的能力。然而,它们在事实准确性和推理能力等方面仍然面临限制。这是因为,虽然它们的基础是从大量文本数据中提取统计模式,但它们缺乏结构化的知识源来为其输出提供依据。
最近,我们探索了利用外部知识源(如知识图谱和数据库)来增强 LLM,以解决这些差距。一种有前途的技术是将向量数据库(在向量空间中对实体和关系进行编码)与 LLM 集成。在这篇博文中,我将全面概述向量数据库如何增强 LLM 的功能以及这一新兴领域的当前研究状况。
矢量数据库概述
矢量数据库将人物、地点、组织等实体表示为高维语义空间中的矢量或嵌入。实体之间的关系也被编码为矢量,以捕获语义连接。一些从网络规模语料库创建的流行矢量数据库包括 Pinecone、Chroma、Qdarant、Milvus、Weaviate、Faiss、ConceptNet、Word2Vec 和 GloVe。
每个实体向量都充当压缩知识表示,用于对语义属性和使用上下文进行建模。这允许向量运算(如向量算术和相似度计算)发现关系和类比。例如,向量(“国王”) — 向量(“男人”) + 向量(“女人”)在向量空间中产生接近向量(“女王”)的向量。
通过将实体和关系置于向量空间中,这些数据库可以增强 LLM 的世界知识和推理能力。向量表示对事实和常识概念进行编码,而这些事实和常识概念可能不会直接表达在 LLM 的训练数据中。下一节将讨论集成的具体技术。
将向量与 LLM 进行整合的方法
有两种主要的集成策略允许 LLM 利用存储在矢量数据库中的信息:
- 使用向量进行检索和排序。向量可以跟踪 LLM 的相关上下文和可检索知识。
- 通过参数更新或训练将向量直接注入 LLM。这会将向量知识更内在地铭刻到模型中。
检索集成
LLM 与向量数据库索引配对,该索引将实体向量与相关上下文(如文本片段、关系图、图像和其他相关知识表示)相关联。当 LLM 处理带有标记实体的提示时,相应的实体向量用于查询此索引并检索基础信息。
例如,在向量索引中查询实体“巴黎”时可能会返回以下文本:“巴黎是法国的首都和人口最多的城市,拥有超过 200 万居民”。
这段描述性文本提供了有用的背景信息,为专注于巴黎的法学硕士生成提供信息和指导。检索到的文本本质上充当了模型可以引用的自动生成的附录。
该索引支持在实体向量之间进行快速相似性搜索,以发现相关的上下文知识。这种方法轻量且灵活,因为 LLM 模型本身不需要更改。任何外部向量数据库都可以插入索引作为基础源。
一些研究已经将这种使用向量的技术主要用于上下文检索,而不是直接修改 LLM。主要示例包括语言融合模型 (FiLM) 系统和基于 GPT 模型构建的 CalmAbiding 系统。两者在推理过程中都会动态查询 ConceptNet 和其他图表,以检索有关标记实体和关系的相关上下文,从而提高事实一致性。
注入集成
更密集的技术通过参数更新或补充训练目标将来自矢量数据库的知识直接注入 LLM。
一种方法是在主要训练之前使用外部向量作为起点来初始化新的模型参数。这会将有关关键词和实体的信息直接植入模型的权重中。例如,DeCLUTR 和 Giant LLM 结合了 ConceptNet Number 批量嵌入来初始化其基于 Transformer 的架构的参数。
其他方法在微调过程中引入了额外的目标,以优化模型来预测外部向量的属性。例如,模型可以训练重建掩码术语向量数据库嵌入中缺失的维度。通过学习准确地完成向量,模型将有关实体和关系的事实知识导入其参数中。
KLUE 和 REALM是两个在 LLM 微调期间使用辅助损失的框架,用于将模型的内部表示与外部向量概念对齐。通过训练 LLM 对外部语义空间进行编码,这可以更内在地刻画向量编码知识。
注入集成在向量和 LLM 之间建立了紧密耦合,将世界知识更内在地融入模型本身。然而,这需要修改模型架构和训练程序。下一节将讨论可以通过向量集成的知识类型及其相关好处。
向量编码的世界知识
向量可以将多种形式的事实和常识知识导入 LLM,包括:
- 实体属性,例如与人员、组织、事件相关的日期、地点、创建者
- 实体的分类层次结构和类型签名
- 物体的部分、属性和物理可供性
- 事件与情境结果之间的因果链
- 行为和活动的典型意图和情绪
这种知识既涵盖陈述性事实,也涵盖有关实体行为的程序性动态。例如,向量可能编码巴黎是法国的首都。
使用向量进行增强可让 LLM 更准确地回答事实查询,例如“谁是 Apple 的 CEO?”。这通过查询 Apple 实体向量的向量索引并检索相关事实来实现。向量还可以增强 LLM 中的常识推理——从向量中编码的有关日常物体和事件的因果和本体论知识中衍生的概念。
此外,一些向量数据库将知识组织成三元组或图形结构,直接断言关系。例如,ConceptNet 编码“(法国首都巴黎)”,Word2Vec 关联实体向量,如“国王与王后的关系相当于男人与女人的关系”。这些关系表示尤其有助于基于实体和概念之间的语义联系进行推理。
总体而言,向量传递的事实和常识知识使 LLM 在生成文本或进行推理时更加明智、精确和理性。以下部分将探讨向量增强对关键 LLM 功能的影响。
提高事实准确性
多项研究表明,整合向量知识可显著提高 LLM 的事实准确性。增强型 LLM 可以通过将内容建立在从向量索引中检索到的知识中来生成表达有关实体的更有效事实陈述的文本。
例如,使用动态向量索引增强的 GPT-4 模型在自由形式生成中将事实不准确性降低了 18%。实体向量提供了相关的上下文片段,纠正了模型的幻觉并使文本符合基本事实属性。
研究表明,通过使用从 ConceptNet 和 ReVerb 知识图谱中检索到的向量上下文来增强 GPT-4,事实准确性也得到了类似的提升。事实核查测试发现,与原始 GPT-4 相比,增强版 LLM 的有效事实预测相对提高了约 15%。
外部向量充当动态记忆,显示用于对照参考世界知识检查 LLM 自身表示的事实“附录条目”。这支持在模型可能误传或忘记的实体的编码事实的指导下进行更警惕的生成。
增强推理能力
除了事实上的改进之外,将知识直接刻入模型参数的向量注入也增强了推理能力。
例如,在 ATOMIC 数据集上对 GPT-4 进行微调以预测向量编码的常识三元组可以改善逻辑推理。该模型学习了日常情况的动态——洒出饮料会造成混乱,或者取消计划会让朋友不高兴。当后来出现新场景时,与基础 GPT-4 相比,向量增强模型可以更好地推断出后果。
同样,对 GPT-4 进行微调以与 ConceptNet 保持一致,可将社交常识推理任务的性能提高 8-20%。动态向量检索也增强了推理能力,但不如直接注入权重那么显著。
向量中编码的实体和关系知识提供了世界动态和本体论约束的结构化表示。通过微调整合这些结构化知识可增强 LLM 自身的推理能力,实现合理的演绎推理。
挑战与限制
然而,有效地将向量与 LLM 结合起来仍然存在重大挑战:
- 如果向量源自低质量数据,则可能会编码有偏见、不安全或不准确的知识。当注入 LLM 时,这可能会进一步传播错误信息。
- 当前的注入方法通常使用较小的数据集对向量知识上的 LLM 进行微调。这可能会导致 LLM 过度拟合有限的向量,而不是一般的世界知识。
- LLM 必须学会如何在基于语料库的参数和外部向量之间平衡和仲裁知识。表示不一致可能会混淆模型推理。
- 将所有向量知识普遍注入 LLM 参数可能不可行。需要更复杂的基础机制,在相关时像附录条目一样动态查询向量。
- 全面评估推理改进仍然存在困难,这需要超出标准准确度基准的复杂推理测试。
总之,虽然矢量增强很有前景,但需要围绕可扩展注入方法进行进一步创新和进行更严格的测试,以支持一致的推理收益。
以下各节概述了有前景的创新领域,以巩固矢量增强的影响并解决尚待解决的挑战。
新兴技术和最新进展
最近,在将结构化知识与 LLM 更深入地结合起来的新技术方面取得了令人兴奋的进展:
显式记忆架构
KARMA 和 WANDB 等方法以动态方式查询外部知识库,作为生成过程中需要时激活的显式记忆附录。这避免了将所有知识预先不加区别地注入参数中。外部存储器充当易于访问的索引,仅在提示特定实体、关系或上下文时才提供相关上下文。然而,设计高效的内存访问和仲裁机制仍然是一项悬而未决的挑战。
扎实的人类反馈
思维链提示等方法允许人类培训师向基于外部知识源(如向量)的 LLM 提供自然语言反馈。当 LLM 生成有问题的推理链时,培训师可以突出显示错误并提供直接从外部知识资源检索到的纠正上下文。这种高效的反馈机制在快速将 LLM 推理与事实参考对齐方面表现出良好的前景。
多任务训练方案
ANCE 等训练程序优化了 LLM,使其能够平衡和协调来自其原生语料库训练数据以及通过向量注入的结构化外部知识的事实知识。新目标要求模型能够动态仲裁,从而在接触新来源时减少首因效应。这增强了综合推理能力。
总体而言,创新正在加速,不仅围绕无条件注入向量,还围绕以更有选择性、更有条理的方式控制基础。架构正变得更加模块化,具有显式内存索引和本机知识与注入知识之间的协调机制。该领域的持续进步旨在减少在将世界知识更广泛地融合到 LLM 时出现的不准确性、偏见和冲突风险。
以下部分讨论了衡量矢量增强效果的指标以及评估中存在的突出挑战。
评估载体增强的有效性
评估向量增强的影响涉及衡量输出质量以及预期推理改进的影响:
质量指标
Ourania 出处指标可评估生成文本中陈述的准确性。实体、属性和关系提取还可以自动评估输出的事实有效性。在整合向量知识时,人工评估对于整体评估相关性、连贯性和适当性仍然很重要。
推理指标
需要对世界知识进行推理的问答基准(如 ARC、OpenBook QA)提供了更多的功能测试。常识推理任务(包括社会推理、物理推理和概念抽象)也评估了对高级推理的影响。然而,设计全面的推理评估仍然是一个悬而未决的挑战。
最近,概念函数等混合评估框架提出将推理分解为围绕一致性、模糊性、仲裁冲突和其他方面的模块化属性。基于这些较低级别构建块的组合测量旨在为一系列推理模式提供更细粒度、更通用的评估。
总之,虽然现有的准确度指标提供了有用的信号,但推理影响需要更复杂的关系评估。使用专注于可解释归因的程序化测试进行基准测试设计创新是一个新兴的优先领域。
尚未解决的挑战
在有效评估整合功效方面,一些持续存在的研究挑战包括:
- 设计公正、严格的测试集,避免注释器伪像和测试集过度拟合。以编程方式编写挑战案例的生成对抗方法是其中一个优先方向。
- 通过比较陪审团审议等平台实现人机联合评估,收集考虑到人类在常识理解等任务中存在的缺陷的校准判断。
- 开发涉及在线学习的测试框架,其中基准与改进系统一起动态发展,以避免进度测量值过高。基于概念难度估计的方法旨在解决此类问题。
- 量化增强知识如何转移到更复杂的模式,如视觉、对话和体现推理,这可能需要专门的集成方法和指标。
总体而言,进一步创新严格衡量集成效率对于了解当前技术如何影响实际推理能力(而不仅仅是狭隘的准确度指标)至关重要。这需要以人工智能安全原则为基础,集中精力关注测试的普遍性。
结论
本文全面分析了如何使用来自向量数据库的结构化知识来增强 GPT-4 等 LLM。在向量空间中编码事实和关系提供了一种将现实世界知识导入大型神经模型的参数和推理机制的有效方法。
基于检索和索引的初始集成方法通过提供上下文基础,已经显示出事实准确性的具体改进。最近的注入技术将向量知识深深植入模型权重,也表明有潜力提高推理能力。
然而,仍需要在基础机制、训练制度和评估协议方面进一步创新,以便从这种融合中获取更广泛、更强大、更值得信赖的推理能力。架构必须平衡和协调基于统计语料库的学习和结构化语义知识表示的不同优势。
尽管如此,向量增强代表了当前最有前途的范式之一,它用形式化的知识表示来补充数据驱动的神经方法的优势。这个方向对于克服当前 LLM 的学习瓶颈并实现其在通用智能文本生成方面的革命性潜力至关重要。未来几年,在这个神经和符号 AI 交叉的快速发展的领域肯定会取得令人兴奋的进步。
RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/3780