《Distantly-Supervised Joint Extraction with Noise-Robust Learning》笔记

Link https://arxiv.org/abs/2310.04994#:~:text=We%20propose%20DENRL,%20a%20generalizable%20framework%20that%201) Accepted by ACL 2024. Intro 联合抽取旨在使用单一模型检测实体及其关系,这是自动知识库构建中的关键步骤。为了廉价地获取大量标注的联合训练数据,提出了远程监督(Distantly Supervise,DS),通过将知识库(Knowledge Base,KB)与未标注的语料库对齐,自动生成训练数据。假设如果一个实体对在 KB 中有关系,则包含该对的所有句子都表达相应的关系。 然而,DS 带来了大量的噪声标签,显著降低了联合抽取模型的性能。此外,由于开放域 KB 中实体的模糊性和覆盖范围有限,DS 还会生成噪声和不完整的实体标签。在某些情况下,DS 可能导致 KB 中包含超过30%的噪声实例,使得学习有用特征变得不可能。 处理这些噪声标签的先前研究要么考虑弱标注的实体,即远程监督的命名实体识别(NER),要么考虑噪声关系标签,即远程监督的关系抽取(RE),它们专注于设计新颖的手工制作关系特征、神经架构和标注方案以提高关系抽取性能。此外,使用大型语言模型(LLMs)的上下文学习(ICL)也很流行。然而,它们资源需求高,对提示设计敏感,可能在处理复杂任务时表现不佳。 为了廉价地减轻两种噪声源,我们提出了 DENRL (Distantly-supervised joint Extraction with Noise-Robust Learning)。DENRL 假设 可靠的关系标签,其关系模式显著表明实体对之间的关系,应该由模型解释; 可靠的关系标签也隐含地表明相应实体对的可靠实体标签。 具体来说,DENRL应用词袋正则化(BR)引导模型关注解释正确关系标签的显著关系模式,并使用基于本体的逻辑融合(OLF)通过概率软逻辑(PSL)教授底层实体关系依赖性。这两种信息源被整合形成噪声鲁棒损失,正则化标注模型从具有正确实体和关系标签的实例中学习。接下来,如果学习到的模型能够清晰地定位关系模式并理解候选实例的实体关系逻辑,它们将被选择用于后续的自适应学习。我们进一步采样包含已识别模式中对应头实体或尾实体的负实例以减少实体噪声。我们迭代学习一个可解释的模型并选择高质量实例。这两个步骤相互强化——更可解释的模型有助于选择更高质量的子集,反之亦然。 Joint Extraction Architecture Tagging Scheme 为了同时抽取实体(提及和类型)和关系,我们为每个起始位置 $p$ 标注四元组 ${e_1, tag_1, e_2, r_e}$,并定义 “BIO” 标记来编码位置。对于一个 $T$ 个 token 的句子,我们根据不同的起始位置标注 $T$ 个不同的标记序列。 对于每个标记序列,如果 $p$ 是一个实体的起始位置(该序列是一个实例),则在 $p$ 处标注实体类型,并用关系类型标注与 $p$ 处实体有关系的其他实体。其余的令牌标注为 “O”(Outside),表示它们不对应头实体。这样,每个标记序列将生成一个关系四元组。 我们将包含至少一个关系的实例定义为正实例,没有关系的实例定义为负实例。“BIO”(Begin, Inside, Outside)标记用于指示每个实体中令牌的位置信息,以便同时提取多词实体和关系类型。注意,我们不需要尾实体类型,因为每个实体都会被查询,我们可以从 T 标记序列中获得所有实体类型及其关系。 Tagging Model Self-Match BERT...

October 5, 2024 · 119 words · Kurong

《Entity Concept-enhanced Few-shot Relation Extraction》笔记

Link 2106.02401 (arxiv.org) Accepted ACL 2021。 Intro 小样本关系抽取(FSRE)大致可以分为两类: 仅使用纯文本数据,不包含外部信息。如:Siamese、Prototypical、BERT-PAIR 引入外部信息,以补偿 FSRE 的信息不足,如:TD-Proto 虽然引入文本描述的知识可以为 FSRE 提供外部信息并实现最先进的性能,但 TD-Proto 仅为每个实体引入一个 Wikidata 中的文本描述。然而,这可能会因为实体和文本描述之间的不匹配而导致性能下降。此外,由于每个实体的文本描述通常较长,提取长文本描述中最有用的信息并不容易。 与长文本描述相比,概念是对实体的直观和简洁的描述,可以从概念数据库(如 YAGO3、ConceptNet 和 Concept Graph 等)中轻松获得。此外,概念比每个实体的具体文本描述更抽象,这是对 FSRE 场景中有限信息的理想补充。 为了应对上述挑战,我们提出了一种新的实体概念增强的少样本关系抽取方案(CONCEPT-enhanced FEw-shot Relation Extraction,ConceptFERE),该方案引入实体概念以提供有效的关系预测线索。首先,如上表所示,一个实体可能有多个来自不同方面或层次的概念,只有一个概念可能对最终的关系分类有价值。因此,我们设计了一个概念-句子注意力模块,通过比较句子和每个概念的语义相似性来选择最合适的概念。其次,由于句子嵌入和预训练的概念嵌入不是在同一语义空间中学习的,我们采用自注意力机制对句子和选定概念进行词级语义融合,以进行最终的关系分类。 Model 下图为 ConceptFERE 的结构。 System Overview Sentence Representation Module 使用 BERT 作为 Encoder 来获取 Sentence Embedding,Concept Representation Module 使用 skip-grim 在 Wikipedia 文本和概念图上学习概念的表示,得到 Concept Embedding 。Relation Classifier 采用全连接层实现。 Concept-Sentence Attention Module 直观上,需要更多关注与句子语义相关度高的概念,这些概念可以为关系抽取提供更有效的线索。 首先,由于预训练的 Sentence Embedding $v_s$ 和 Concept Embedding $v_c$ 不是在同一语义空间中学习的,因此不能直接比较语义相似度。所以通过将 $v_c$ 和 $v_s$ 乘以投影矩阵 $P$ 来进行语义转换,以在同一语义空间中获得它们的表示 $v_cP$ 和 $v_sP$ ,其中 $P$ 可以通过全连接网络学习。其次,通过计算句子和每个实体概念之间的语义相似度,得到 $v_c$ 和 $v_s$ 的点积作为相似度 $sim_{cs}$ 。最后,为了从计算的相似度值中选择合适的概念,我们设计了 01-GATE 。相似度值通过 Softmax 函数归一化。如果 $sim_{cs}$ 小于设定的阈值 $α$,01-GATE 将为相应概念的注意力分数分配 0,该概念将在后续的关系分类中被排除。我们选择注意力分数为 1 的合适概念,作为参与关系预测的有效线索。...

September 18, 2024 · 124 words · Kurong