在这篇文章和开源存储库中,我们想要展示通过多代理系统对法律文件条款进行智能导航,该系统利用词汇图(文档层次结构)和多图多代理工作流中的块链接来处理监管文件。我们在这里使用的堆栈是Reducto.AI、WhyHow.AI、Langgraph、LlamaIndex 。您可以在此处找到对开源存储库的访问权限。
为了获得完整的上下文,您必须递归地浏览和检索任何提及的条款(甚至脚注!),浏览文档层次结构图以找到提及的条款,查看是否提及任何其他条款,然后重复。递归检索可以针对法律文档之外的一系列其他文档元素进行,包括页码、图像等多模式数据、指向其他文档或外部数据的超链接等。
鉴于法律文件的结构化性质,我对基于图的遍历和检索一直很感兴趣。法律文件还有一个非常具体的结构化检索步骤,该步骤也必须始终在法律文件的上下文中进行,即定义页面,其中每个特定的重要术语都有一个非常具体的变量或固定定义,这些变量或定义可能会根据文档的性质而变化。
在此笔记本和示例中,我们想要展示如何轻松创建法律文件中条款的文档层次结构图、法律文件中定义的图表,以及多图多代理递归检索过程,该过程通过智能地浏览文档层次结构图和定义图来回答问题,以获得针对其提出的问题的完整上下文。
在这个例子中,我们采用马来西亚中央银行发布的一份简单的监管文件,具体来说是这份管理各种组织的合规规则的文件。
我们想要得到答案的问题是:董事会和首席合规官如何管理控制职能?
回答这个问题的理想流程是:
- 从定义页面给我一个 CCO 的定义
- 从第 6.3 条和第 7.2 条检索信息。
- 检测到7.2条款中的“参见7.3和7.4段”。
- 遍历并检索第 7.3 和 7.4 段
- 检测第 9.1 段的提及并检索第 9.1 段
作为一个快速基准,当我们使用 GPT4o(具有嵌入式代理推理)通过 ChatGPT 运行它时,我们得到以下答案:
董事会和首席合规
官 (CCO) 对控制职能的管理涉及
合规文件中概述的几项关键职责:
董事会职责:
1. 监督合规风险管理:董事会负责
监督金融机构内的合规风险管理。这包括批准合规政策、建立合规职能部门以及任命 CCO。2.
对合规职能部门的批准和支持:董事会必须
确保合规职能部门和 CCO 具有适当的地位、
权限和独立性,以有效履行其职责。董事会
还必须确保合规职能部门获得足够的资源。3
. 与 CCO 的接触:董事会应定期与 CCO 接触,
讨论合规职能部门面临的问题,并确保 CCO 可以直接
与董事会联系。4
. 年度评估:董事会必须至少每年评估一次机构合规风险管理的有效性
,并考虑
高级管理层、内部审计和 CCO 的评估。
首席合规官 (CCO) 的职责:
1. 合规风险的协调和管理:CCO 负责协调整个机构合
规风险的识别、管理和监控。这包括确保合规监控和测试在整个组织中保持一致。2 . 报告和建议:CCO 必须定期向高级管理层报告合规风险的发现和分析,并且必须确保内部审计和监管机构随时可以获取报告。CCO还就法律和监管要求向董事会和高级管理层提供建议,让他们了解事态发展及其影响。3 . 独立性:CCO 必须保持独立于业务线,以有效履行控制职能。这包括确保其职责、报告线或薪酬不存在利益冲突。4 . 资源和培训:CCO 必须确保合规职能拥有足够的资源,并配备具有必要资格和经验的官员。CCO 还负责确保为官员提供有关相关法律和监管要求的充分培训。与其他控制职能的互动:合规职能的组织方式应允许有效
合规风险管理,考虑到金融机构业务的规模、性质和复杂性。当
专门的合规部门与其他控制职能部门共同承担责任时,
需要清晰的记录和协调,以确保合规总监能够
有效履行职责,而不会损害独立性或专注度。
通过履行这些职责,董事会和合规总监可以确保
有效管理机构的合规风险,从而支持
金融机构的整体安全和稳健。
这个答案很有趣但不完整,因为它:
- 似乎特别提到了关键词“合规”,并强调了与其他条款相关的所有合规义务,而不是专门针对董事会和 CCO。例如,跨辖区协调(第 8.2 段)是在“合规”的背景下提出的,薪酬独立性(第 7.8 段)是在“合规”的背景下提出的。
- 至关重要的是,它似乎忽略了对第 7.3 段和第 7.4 段的明确引用,这两条明确规定了董事会和 CCO 之间的一项关键义务,即当 CCO 共享控制职能时需要董事会批准。它还忽略了第 9.1 段关于审计和合规职能分离的规定。
这是可以理解的,因为条款、页面和页脚的递归检索并不是控制 RAG 的典型语义相似性检索过程的明确组成部分。
多图多代理工作流开发总结
图表的创建
在这个 Notebook 中,我们首先提取由Reducto 的文档提取引擎解析的文档结构。文档结构将每个页面分解为不同的元素,例如节标题、列表项或页脚。
然后根据元素出现的顺序和隐含的层次结构对元素进行组合,例如,Section Header 是 List Item 的父级。然后,我们分析文档中的链接,以确定可在词汇图中建模的提取元素之间的连接。
然后,我们使用此处的SDK 将块和三元组导入 WhyHow 的知识图谱工作室,以创建词汇图。
我们还为该文档构建了法律定义图。法律文档中独一无二的地方是,每个文档都有一个定义部分,有助于定义某些术语必须以特定方式解释。这可能因文档、用例和客户而异。在本例中,文档的第 4-5 页包含定义。这些文本被提取并传递到 GPT-4o 中,并提示逐字提取法律术语及其定义并将其作为结构化输出返回。输出被转换为 CSV 文件,并使用 SDK 和预定义模式作为单独的图表上传。定义代理会在需要时调用此定义图,以使用特定的相关定义来扩充上下文。在本例中,在检索初始条款后调用定义代理。
然后,我们将 WhyHow 中的节点导入到笔记本中,并使用 LlamaIndex 在本地索引节点信息,从而保留使用 WhyHow 生成的嵌入。我们结合使用 LlamaIndex 的 Vector、BM25 和关键字检索器。在法律文档用例中,BM25 和关键字检索器的加入非常有用,因为查询和检索过程需要精确的术语。BM25 有助于识别高度重复的文本中的关键词,而关键字检索器则可确保根据需要检索重要的术语(尽管它们很少出现)。
LangGraph 用于使用 WhyHow SDK 和 GPT-4o 围绕词汇图构建多代理工作流。本质上,当传递查询时,系统首先通过初始搜索代理搜索相关的向量块。在这种情况下,向量块是从句或子从句。随后,定义代理被调用以使用相关定义扩充从句。然后,路由器代理检测是否有需要引用的其他链接部分或页脚,如果有,则检索适当的部分并考虑它们。如果后续检索到的从句(如这里的情况)引用了更多从句,则递归检索代理将以递归方式执行此操作。
它检索到的第一个条款是第 6.3 和 7.2 段。参考定义图来检查是否应通过定义部分包含任何其他上下文。其中包括“CCO”和“高级管理层”的附加定义。
在第 6.3 款中,有以下第 6.3.f 款:
- “当 CCO 还履行其他控制职能 3 的职责时,应确保良好的整体控制环境不会因 CCO 履行的职责组合而受到损害。”
然后,路由器代理会根据其检索到的第一个条款的信息,帮助检测材料中是否提到了条款或页脚。在本例中,页脚(脚注 3)与第一个条款相关联。然后,路由器代理会触发页脚解析代理。页脚解析代理会识别相关页脚并返回以下页脚:
- “请参阅第 7.3 和 7.4 段。”
这里需要再一次遍历,使用递归检索代理来遍历词汇图,检索第 7.3 和 7.4 段中的块/子句。
条款 7.3 和 7.4 中的新信息已合并在一起。条款 7.4(b) 包含对条款 9.1 的引用。此处:
- “合规职能职责不能与内部审计共享,首席合规官也不能承担内部审计的职责,因为这种做法会导致第 9.1 段描述的独立审查流程无效。”
第 7.4 段包含指向第 9.1 段的链接,路由代理检测到该链接后,指示递归检索代理在下一次传递时检索该链接。应答代理跟踪所有传入信息,以汇总并最终形成最终答案,返回给用户。
最终构建的答案反映了我们的理想流程,并吸收了定义页面、第 6.3 和 7.2 段、页脚注释 3、第 7.3、7.4、9.1 段中的信息,并通过智能遍历为用户准确总结了所有相关信息。
为了确保我们不是纯粹的幸运,我们运行了 3 次最终查询,结果显示成功检索到了相关信息。
为了有效地管理控制职能,董事会和首席合规
官 (CCO) 必须履行不同的职责:
董事会的职责:
- 批准有关 CCO 的关键决定,包括任命、
薪酬和解雇(第 6.3(a) 节)。
- 确保 CCO 具有足够的地位来与高级
管理层进行有效接触(第 6.3(b) 节)。
- 定期与 CCO 接触,讨论合规问题,并考虑
在没有高级管理层在场的情况下的互动(第 6.3(c) 节)。
- 为 CCO 提供畅通无阻的途径,以便直接与董事会沟通
(第 6.3(d) 节)。
- 为 CCO 提供充足的资源,
包括称职的员工(第 6.3(e) 节),以有效履行职责。
- 确保综合职责(如果有)不会损害
控制环境(第 6.3(f) 节)。CCO
的职责: - 协调全机构合规风险
的识别和管理(第 7.2(b) 节)。- 确保在组织内一致地进行合规监控和测试(第 7.2(b) 节)。- 保持独立性并充分关注合规职责,即使在承担额外的控制职能时也是如此(第 7.3 节)。责任共担与协调: -合规部门和其他控制职能之间任何合规职能责任的共享必须经董事会批准(第 7.4(a) 节)。- 职能职责(包括及时传达问题)应明确定义并记录在案(第 7.2(a) 节)。- 应建立有效的控制职能协调安排,以促进 CCO 履行职责(第 7.2(d) 节)。- 合规职责不得影响内部审计职能的分离(第 9.1 节)。董事会应确保全面监督,CCO 应在整个组织内保持有效的协调和沟通,以高效管理控制职能。
总之,通过这次练习,我们开发了一个系统,可以演示以下内容:
- 多图形系统,每个图形代表 RAG 系统内的不同流程和目标。
- 使用 Reducto、WhyHow 和 LlamaIndex 创建支持 RAG 的自动词汇图
- 一种多代理系统,允许根据文档希望人类阅读和遍历其信息的方式对文档进行智能遍历,并以结构化的方式返回每个部分和子部分的答案
- 由 LangGraph 管理的多图多代理系统。
RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/5936