使用 LlamaIndex 中的 Relik 进行实体链接和关系提取

从文本构建知识图谱长期以来一直是一个令人着迷的研究领域。随着大型语言模型 (LLM) 的出现，该领域获得了更多主流关注。然而，LLM 的成本可能相当高。另一种方法是微调较小的模型，这种方法得到了学术研究的支持，可以产生更有效的解决方案。今天，我们将探索Relik，这是一个用于运行超快且轻量级的信息提取模型的框架，由罗马 Sapienza 大学的 NLP 小组开发。

没有 LLM 的典型信息提取流程如下所示：

使用 LlamaIndex 中的 Relik 进行实体链接和关系提取 — 信息提取管道——图片来自作者

该图展示了一个信息提取流程，从包含提及“Tomaz 喜欢写博客文章。他对绘制图表特别感兴趣”的文本的输入数据开始。该过程从共指解析开始，以将“Tomaz”和“他”识别为同一实体。然后，命名实体识别 (NER) 识别诸如“Tomaz”、“博客”和“图表”之类的实体。

实体链接是 NER 之后的过程，其中识别的实体被映射到数据库或知识库中的相应条目。例如，“Tomaz”链接到“Tomaz Bratanic (Q12345)”，“Blog”链接到“Blog (Q321)”，但“Diagram”在知识库中没有匹配项。

关系提取是后续步骤，系统在此步骤中识别并提取已识别实体之间的有意义关系。此示例识别出“Tomaz”与“博客”之间存在关系，其特征为“WRITES”，表明 Tomaz 写博客。此外，它还识别出“Tomaz”与“图表”之间存在关系，其特征为“INTERESTED_IN”，表明 Tomaz 对图表感兴趣。

最后，这些结构化信息（包括实体及其关系）存储在知识图谱中，以便对数据进行组织和访问，以便进一步分析或检索。

传统上，如果没有 LLM 的强大功能，整个过程将依赖于一套专门的模型，每个模型都处理从共指解析到关系提取的特定任务。虽然整合这些模型需要更多的努力和协调，但它具有一个显著的优势：降低成本。通过微调较小的、特定于任务的模型，可以控制构建和维护系统的总体费用。

该代码可在GitHub上获取。

环境设置

我建议您使用单独的 Python 环境，例如Google Colab，因为我们将不得不尝试一些依赖项。模型在 GPU 上运行速度更快，因此如果您拥有 Pro 版本，则可以使用 GPU 驱动的运行时。

此外，我们需要设置原生图形数据库 Neo4j 来存储提取的信息。设置数据库实例的方法有很多。但我建议使用Neo4j Aura，它提供了一个免费的云实例，可以从 Google Colab 笔记本轻松访问。

创建数据库后，我们可以使用 LlamaIndex 定义连接：

从llama_index.graph_stores.neo4j导入Neo4jPGStore

用户名 = “neo4j”
密码 = “rubber-cuffs-radiator”
 url = “bolt://54.89.19.156:7687”

 graph_store = Neo4jPGStore(
    用户名 = 用户名，
    密码 = 密码，
    url = url，
    refresh_schema = False
 )

数据集

我们将使用我前段时间通过Diffbot API获得的新闻数据集。该数据集可在 GitHub 上方便地获取，供我们重复使用：

将pandas导入为pd 

NUMBER_OF_ARTICLES = 100
 news = pd.read_csv( 
    “https://raw.githubusercontent.com/tomasonjo/blog-datasets/main/news_articles.csv”
 ) 
news = news.head(NUMBER_OF_ARTICLES)

共指消解

流程的第一步是共指解析模型。共指解析是识别文本中所有表达是否指向同一实体的任务。

据我所知，目前可用的共指解析开源模型并不多。我尝试了maverick-coref，但在我的测试中， spaCy 的Coreferee效果更好，所以我们将使用它。使用 Coreferee 的唯一缺点是我们必须处理依赖地狱，这在笔记本中已经解决，但我们不会在这里讨论它。

您可以使用以下代码在 spaCy 中加载共指模型：

导入spacy，核心裁判

coref_nlp = spacy.load( 'en_core_web_lg' ) 
coref_nlp.add_pipe( 'coreferee' )

Coreferee 模型检测指向相同实体的表达簇。要根据这些簇重写文本，我们必须实现自己的函数：

def  coref_text（文本）：
    coref_doc = coref_nlp（文本）
    solved_text = “”

    对于coref_doc中的标记： 
        repres = coref_doc._.coref_chains.resolve（token）
        如果repres：
            solved_text + = “” + “和” .join（
                [ 
                    t.text
                    如果t.ent_type_ == “” 
                    else [e.text for e in coref_doc.ents如果t in e][ 0 ] 
                    for t in repres 
                ] 
            ）
        else：
            solved_text + = “” + token.text

    返回solved_text

让我们测试该函数以确保模型和依赖项设置正确：

print ( 
    coref_text( "Tomaz 太酷了。他可以解决各种 Python 依赖关系而不会哭泣" ) 
) 
# Tomaz 太酷了。Tomaz 可以解决各种 Python 依赖关系而不会哭泣

在此示例中，模型识别出“Tomaz”和“He”指的是同一个实体。使用该coref_text函数，我们将“He”替换为“Tomaz”。

请注意，由于对集群内的实体使用了简单的替换逻辑，因此重写并不总是返回语法正确的句子。但是，对于大多数场景来说，这应该足够好了。

现在我们将共指解析应用到我们的新闻数据集并将结果包装为 LlamaIndex 文档：

从llama_index.core导入文档

新闻[ “coref_text” ] = 新闻[ “text” ].apply(coref_text)
文件 = [
    文档(文本= f “ {row[ 'title' ]} : {row[ 'coref_text' ]} “ ) for i, row in news.iterrows() 
]

实体链接和关系提取

Relik是一个包含实体链接 (EL) 和关系提取 (RE) 模型的库，它还支持将两者相结合的模型。在实体链接中，维基百科被用作目标知识库，将文本中的实体映射到百科全书中的相应条目。

另一方面，关系提取涉及识别和分类文本中实体之间的关系，从而能够从非结构化数据中提取结构化信息。

如果您使用的是免费版 Colab，请使用relik-ie/relik-relation-extraction-small仅执行关系提取的模型。如果您使用的是专业版，或者您将在更强大的本地机器上使用它，则可以测试relik-ie/relik-cie-small执行实体链接和关系提取的模型。

从llama_index.extractors.relik.base导入RelikPathExtractor 

relik = RelikPathExtractor( 
    model= "relik-ie/relik-relation-extraction-small"
 ) 

# 在 Pro Collab 上使用 GPU 
# relik = RelikPathExtractor( 
# model="relik-ie/relik-cie-small", model_config={"skip_metadata": True, "device":"cuda"} 
# )

此外，我们必须定义用于嵌入实体的嵌入模型和用于问答流的 LLM：



从llama_index.embeddings.openai导入os从llama_index.llms.openai导入OpenAI os.environ [ “OPENAI_API_KEY” ] = “sk-” llm = OpenAI(model= “gpt-4o” ,temperature= 0.0 ) embed_model = OpenAIEmbedding(model_name= “text-embedding-3-small” )

请注意，在图形构建期间不会使用 LLM。

现在我们已经准备好一切，我们可以实例化PropertyGraphIndex并使用新闻文档作为知识图谱的输入数据。

此外，我们需要将relik模型作为kg_extractors值传递来提取关系：

从llama_index.core导入PropertyGraphIndex 

index = PropertyGraphIndex.from_documents( 
    documents, 
    kg_extractors=[relik], 
    llm=llm, 
    embed_model=embed_model, 
    property_graph_store=graph_store, 
    show_progress= True , 
)

构建图表后，您可以打开 Neo4j 浏览器来验证导入的图表。通过运行以下 Cypher 语句，您应该会得到类似的可视化效果：

匹配 p=(:__Entity__)--(:__Entity__)
返回 p 限制 250

结果

问答

使用 LlamaIndex，现在可以轻松进行问答。要使用默认的图形检索器，您可以提出如下简单的问题：

query_engine = index.as_query_engine(include_text= True ) 

response = query_engine.query( “瑞安航空发生了什么事？” ) 

print ( str (response))

这就是定义的 LLM 和嵌入模型发挥作用的地方。当然，您也可以实现自定义检索器，以获得更好的准确性。

概括

不依赖 LLM 构建知识图谱不仅可行，而且经济高效。通过微调较小的、特定于任务的模型（例如 Relik 框架中的模型），您可以为检索增强生成 (RAG) 应用程序实现高性能信息提取。

实体链接是此过程中的关键步骤，可确保识别的实体准确映射到知识库中的相应条目，从而维护知识图谱的完整性和实用性。

通过使用 Relik 等框架和 Neo4j 等平台，可以构建高级知识图谱，以简化复杂的数据分析和检索任务，而无需部署 LLM 所需的高昂成本。这种方法不仅使强大的数据处理工具更易于访问，而且还促进了信息提取工作流程的创新和效率。

RA/SD 衍生者AI训练营。发布者：稻草人，转载请注明出处：https://www.shxcj.com/archives/4777

使用 LlamaIndex 中的 Relik 进行实体链接和关系提取

环境设置

数据集

共指消解

实体链接和关系提取

问答

概括

关于作者

稻草人

发表回复

使用 LlamaIndex 中的 Relik 进行实体链接和关系提取

环境设置

数据集

共指消解

实体链接和关系提取

问答

概括

关于作者

稻草人

相关推荐

安装破解版PyCharm和Python开发者的辛苦

AI教我做事之RAG开发-2 开发一个Restful接口

白泽修图 – 免费的企业级图片处理平台

主流显卡性能参数一览A100,4090,3090,H800

互联客户体验及企业应对整体战略规划

辣妈之野望 7 — Open-WebUI中文白皮书

发表回复