假设你在新闻中读到你最喜欢的运动队,然后你看到了“乔丹”这个名字。如果你喜欢篮球,你可能会立刻想到迈克尔·乔丹。但是,如果这篇文章是关于别人的呢?如果它是关于足球运动员乔丹·亨德森的呢?或者当你搜索“苹果”这个词时,你可能会认为它指的是手机,但它实际上指的是水果。这种误解是机器在试图理解和处理人类使用的语言时经常遇到的问题。实体链接 (EL) 和关系提取 (RE) 等任务可以帮助它们弄清楚我们在谈论谁或什么。
实体链接 (EL) 类似于确定文本中的名字“Jordan”是指篮球传奇人物迈克尔·乔丹还是中东国家乔丹。另一方面,关系提取 (RE) 就像弄清楚“迈克尔·乔丹”和“芝加哥公牛队”通过“为之效力”的关系联系在一起。这些任务可帮助机器将非结构化文本组织成对搜索引擎和知识图谱有意义的数据。
ReLiK(Retrieve and LinK)问世了,这是罗马 Sapienza NLP Group 的一些高智商专家创建的最先进的系统。ReLiK 代表“Retrieve and LinK”,旨在比当前方法更快、更正确地处理 EL 和 RE。ReLiK 的特别之处在于,它无需昂贵的硬件,就能以“学术预算”实现尖端成果。
ReLiK:读者-检索者范式
该系统由两部分组成:检索器和阅读器。检索器就像一个非常聪明的图书管理员。当您给它一段文本时,它会快速找到所有可能的“候选者”——与文本匹配的潜在实体或关系。另一方面,阅读器就像一个细心的研究人员,他会同时查看所有这些可能性,看看哪些是真正与文本匹配的。以下流程图说明了 ReLiK 的检索器-阅读器范式所涉及的步骤,展示了系统如何处理输入文本以输出链接实体和提取的关系:
猎犬:聪明的图书管理员
Retriever 基于类似于密集段落检索 (DPR) 的双编码器架构。其工作原理如下:
密集表示:检索器获取一段文本并将其转换为密集向量,这是文本含义的数学表示。它对潜在的候选实体或关系执行相同的操作。
相似性匹配:接下来,它会计算出这些密集向量之间的相似度。这有助于它从庞大的列表(想象一个巨大的可能性库)中找到最佳候选者。
多标签噪声对比估计 (NCE) 以提高效率:使用称为多标签 NCE 的方法来训练 Retriever。这让 Retriever 可以在每一轮训练中通过比较正确的候选者与大量错误的候选者来快速学习。
读者:专注的研究员
检索器完成工作后,读取器将接管工作。它会执行以下操作:
单次前向传递:旧方法会分别处理每个候选对象,速度很慢,而且会消耗大量资源。但 ReLiK 的 Reader 一次传递即可完成所有处理。这类似于一次性将多个拼图碎片与图片进行比较,而不是逐个进行比较。
用于语境化的 Transformers:为了同时查看文本和候选词,Reader 使用 Transformer 编码器,特别是两种尺寸(基本尺寸和大尺寸)的 DeBERTa-v3。Transformers 非常适合 EL 和 RE 等任务,因为它们可以理解每个单词在句子其余部分的上下文中的含义。
跨度识别:读者还可以确定文本的哪些部分(称为“跨度”)与事物或人相关。为了确保准确识别,它使用特殊标记来标记这些跨度的开始和结束。
实体链接 (EL)
研究人员使用了 AIDA-CoNLL 数据集,这是 EL 任务的标准测试,以查看 ReLiK 在实体链接方面的表现。研究人员还在 MSNBC 和 KORE 50 数据集上对其进行了测试,以查看其对不同类型的文本的运行情况。
ReLiK 如何超越竞争对手
不依赖提及实体词典:许多传统系统依赖“提及实体词典”,它就像一个预先构建的备忘单,告诉系统某个单词或短语的所有可能含义。但 ReLiK 不需要这样做,这使得它更具适应性,尤其是在处理以前从未见过的新事物或不常见事物时。
高性能:尽管数据与训练数据有很大不同,但 ReLiK 在域内和域外测试中都表现良好。这意味着 ReLiK 可以处理不同类型的文本,这一点非常重要,因为这意味着它可以用于许多现实生活中的情况。
速度更快、效率更高: ReLiK 的基础版本 (ReLiKB) 速度更快,所需的参数(机器学习模型的构建块)比许多竞争对手(甚至那些使用双编码器架构的竞争对手)更少。更大的版本 (ReLiKL) 打破了准确率记录,同时速度仍然非常快,尤其是在 KORE 50 等包含大量棘手歧义的复杂数据集上。
关系提取和封闭信息提取(cIE)
但 ReLiK 不仅仅是将事物联系在一起,它还涉及了解事物之间的联系。研究人员在两组著名的关系提取数据集上对 ReLiK 进行了测试:
NYT(纽约时报):通过 24 种不同类型的关系,该数据集对 ReLiK 的能力进行了强有力的测试。
CONLL04:一组较小的数据,仅包含 5 种关系类型,可用于测试 ReLiK 在较少数据的情况下的效果。
该团队使用 REBEL 数据集进行封闭信息提取 (cIE),这是 EL 和 RE 的混合。这个庞大的数据集中有来自 Wikidata 的数千种关系类型和来自维基百科的实体标签。
ReLiK 与其他系统对比
Seq2Seq 模型:在传统系统中,序列到序列 (seq2seq) 模型一步一步地建立关系。这就像先单独烹饪每种食材,然后再将它们放在一起。但 ReLiK 不是这样。它一次性完成所有事情,就像厨师将所有食材放在一个锅里烹饪以节省时间和能源一样。
速度更快、灵活性更高: ReLiK 不仅在 RE 和 cIE 任务中具有竞争力,而且是明显的赢家。例如,在 NYT 数据集上,ReLiK 在速度和准确性方面都比其他模型表现更好。此外,它比 REBEL 数据集上一些最好的系统快 35 倍。这种效率水平非常重要,尤其是在处理大数据集或没有太多计算机可用时。
ReLiK 的下一步计划
研究人员认为 ReLiK 可能会比现在更加有用。让他们高兴的是:
在更多领域进行测试: ReLiK 已经在多个基准测试中表现良好,但观察它对不同类型的文本(如社交媒体帖子、法律文件甚至科学论文)的表现总是很有趣的。这可能有助于打造更可靠且在所有情况下都能良好运行的模型。
动态实体链接: ReLiK 接下来可以解决的一个问题是如何处理“新兴实体”,即突然变得重要的新事物或不常见事物。想想刚刚发现的新名人或星球如何需要正确链接,即使它们最初不在训练数据中。
自动语言化:该团队还希望教会 ReLiK 如何为实体和关系编写自己的描述。这将使其更加有用,并且更少地依赖已经存在的数据。想象一下,如果 ReLiK 能做的不仅仅是将“乔丹”与迈克尔·乔丹联系起来。它还会当场写一篇关于他篮球生涯的简短传记!
我对 ReLiK 的个人看法
ReLiK 凭借其独特的 Retriever-Reader 架构,在 EL 和 RE 方面取得了重大进步。即使在“学术预算”有限的情况下,ReLiK 也能高效、准确地同时完成这些任务。高性能和资源效率之间的平衡非常重要,尤其是现在越来越多的人希望 AI 解决方案能够扩展并供所有人使用。
在技术方面,ReLiK 能够通过一次前向传递处理数据,这改变了游戏规则。过去,模型可能需要多次迭代。这不仅加快了处理时间,还减少了机器上需要完成的工作量。这使得没有科技巨头资金的小型研究团队或组织更容易完成高级 NLP 任务。
从我的角度来看,ReLiK 的发展体现了 NLP 社区的一个发展趋势:希望开发不仅强大,而且有用且易于许多人使用的模型。ReLiK 在不属于自己领域的测试中表现非常出色,这表明它可以很好地概括。这可能会在未来带来更强大、更灵活的人工智能系统。
但这种效率也带来了一些有趣的问题,即人工智能未来将如何发展。特别是,让模型更好地工作和让模型更灵活之间存在一条微妙的界限。虽然 ReLiK 的架构在 EL 和 RE 任务中表现非常好,但它能否轻松地改变或扩展以用于其他 NLP 任务,或者它如何与多模态学习等新的人工智能理念相联系,这涉及理解多种形式的数据,例如文本、图像和音频,仍有待观察。
最终,ReLiK 改变了 NLP 领域,而 NLP 就是关于理解和处理语言的。如果您是一名 NLP 研究人员,想要突破可能性的极限,或者您只是对 AI 如何理解世界感兴趣,请关注 ReLiK。它已经越来越好了,我迫不及待地想看看接下来会发生什么。参考
文献
Orlando, R.、Huguet-Cabot, PL、Barba, E. 和 Navigli, R. (2024)。ReLiK:检索和链接,以学术预算快速准确地进行实体链接和关系提取。arXiv预印本 arXiv:2408.00103。(链接)
Barba, E.、Orlando, R.、Cabot, PLH 和 Navigli, R. ReLiK:检索、阅读和链接:在学术预算上快速准确地进行实体链接和关系提取(链接)。
RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/5320