
《Summarization as Indirect Supervision for Relation Extraction》笔记
Link [2205.09837v2] Summarization as Indirect Supervision for Relation Extraction (arxiv.org) Accepted EMNLP 2022. Intro 关系抽取(RE)旨在从文本中提取实体之间的关系。例如,给定句子“Steve Jobs 是 Apple 的创始人”,RE 模型会识别出“创立”这一关系。RE 是自然语言理解的重要任务,也是构建知识库的关键步骤。先进的 RE 模型对于对话系统、叙事预测和问答等知识驱动的下游任务至关重要。 现有的 RE 模型通常依赖于带有昂贵注释的训练数据,这限制了它们的应用。为了应对这一问题,本文提出了一种新的方法——SURE(Summarization as Relation Extraction),将 RE 转化为摘要任务,通过间接监督来提高 RE 的精度和资源效率。 图1展示了 SURE 的结构。具体来说,SURE 通过关系和句子转换技术将 RE 转化为摘要任务,并应用约束推理进行关系预测。我们采用实体信息口语化技术,突出包含实体信息的句子上下文,并将关系口语化为模板式的简短摘要。这样,转换后的RE输入和输出自然适合摘要模型。然后,我们通过在转换后的RE数据上进行微调,将摘要模型适配于RE任务。在推理过程中,设计了一种 Trie 评分技术来推断关系。通过这种方式,SURE 充分利用了摘要的间接监督,即使在资源匮乏的情况下也能获得精确的RE模型。 这项工作的贡献有两个方面。首先,据我们所知,这是首次研究利用摘要的间接监督进行RE。由于摘要的目标与 RE 自然对齐,它允许在不完全依赖直接任务注释的情况下训练出精确的 RE 模型,并在资源匮乏的情况下表现出色。其次,我们研究了有效桥接摘要和 RE 任务形式的输入转换技术,以及进一步增强基于摘要的RE推理的约束技术。我们的贡献通过在三个广泛使用的句子级 RE 数据集 TACRED、TACREV 和 SemEval 以及 TACRED 的三个低资源设置上的实验得到验证。我们观察到,SURE 在低资源设置下(使用10%的 TACRED 训练数据)优于各种基线。SURE 还在 TACRED 和 TACREV上 分别以75.1%和83.5%的 micro-F1 得分达到了SOTA 性能。我们还进行了全面的消融研究,展示了摘要的间接监督的有效性以及 SURE 输入转换的最佳选项。...