
《Better Few-Shot Relation Extraction with Label Prompt Dropout》笔记
Link [2210.13733] Better Few-Shot Relation Extraction with Label Prompt Dropout (arxiv.org) Accepted EMNLP 2022. Intro 在这项工作中,我们提出了一种称为标签提示丢弃(Label Prompt Dropout, LPD)的新方法。我们直接将文本标签和上下文句子连接在一起,并将它们一起输入到 Transformer Encoder 中。文本标签作为标签提示,通过自注意力机制引导和规范 Transformer Encoder 输出标签感知的关系表示。在训练过程中,我们随机丢弃提示标记,使模型必须学会在有和没有关系描述的情况下工作。实验表明,我们的方法在两个标准的FSRE数据集上取得了显著的改进。我们进行了广泛的消融研究,以证明我们方法的有效性。此外,我们强调了先前研究工作评估设置中的一个潜在问题,即预训练数据中包含的关系类型实际上与测试集中的关系类型重叠。我们认为这对于少样本学习来说可能不是一个理想的设置,并表明现有工作的性能提升可能部分归因于这种“知识泄漏”问题。我们建议过滤掉预训练数据中所有重叠的关系类型,并进行更严格的少样本评估。总之,我们做出了以下贡献: 我们提出了 LPD,一种新的标签提示丢弃方法,使 FSRE 中的文本标签得到了更好的利用。这种简单的设计显著优于以前使用复杂网络结构将文本标签和上下文句子融合的方法。 我们识别了文献中先前实验设置的局限性,并提出了一个更严格的FSRE评估设置。对于这两种设置,我们都显示出比以前的最先进方法更强的改进。 Related Work Few-Shot Relation Extraction Prompt-Based Fine-Tuning 基于提示的模型在小样本和零样本学习中表现出色。这一研究方向的模型尝试将下游微调任务与预训练的掩码语言建模目标对齐,以更好地利用预训练语言模型的潜在知识。 然而,与许多其他自然语言处理任务(如二元情感分析中的“正面/负面”)的标签语义直观不同,关系抽取中的关系类型可能非常复杂,通常需要较长的句子来描述。例如,FewRel 中的关系 P2094 被描述为“由监管机构进行的官方分类,主体(事件、团队、参与者或设备)符合纳入标准”。基于提示的模型在这种情况下会遇到困难,因为它们需要固定的模板(例如,提示模板中的 [MASK] 令牌数量必须固定)。以前的方法不得不依赖手动设计的提示模板,并使用关系名称而不是关系描述。 为了解决这个问题,我们提出直接使用整个关系描述作为提示,而不使用任何掩码令牌。在传统的基于提示的模型中,提示用于创建自然描述,以便模型可以在 [MASK] 位置进行更好的预测,而本研究中使用的标签提示通过自然描述来帮助规范模型输出更好的类别表示。 Approach Training with Label Prompt Dropout 对于每个支持实例,我们直接将关系描述和上下文句子用“:”连接起来。例如,句子“北京举办了2022年冬季奥运会”将变成“事件地点: 北京举办了2022年冬季奥运会。” 这个想法是创建一个自然的实例,其中定义首先给出,然后是例子。关系描述和冒号作为标签提示,引导 Transformer Encoder 输出一个标签感知的关系表示。为了防止模型完全依赖标签提示而忽略上下文句子,标签提示会以 $α_{train}$ 的概率随机丢弃。例如,上图中的支持实例“十进制数最早在印度发展起来”保持其初始形式,因为其标签提示被丢弃了。对于查询实例,我们直接输入句子而不带任何标签提示。这是因为查询集本质上与测试集相同,我们不应假设可以访问真实知识。随后,使用特殊实体标记来标记头部和尾部,并在句子的前后添加特殊的分类和分隔标记,例如“[CLS] 事件地点: [E1] 北京 [/E1] 举办了 [E2] 2022年冬季奥运会 [/E2]。” 解析后的句子然后被送入Transformer Encoder。...