关系抽取 Relation Extraction
定义:
- 通常将实体间的关系形式化地描述为关系三元组 $\{E_1,R,E_2\}$ ,其中 $E$ 为实体类型,$R$ 为关系描述类型。
关系抽取与命名实体识别、关系触发词识别构成一个端到端任务的框架:
- 命名实体识别 Name Entity Recognition:是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等;
- 关系触发词识别 Relation trigger word identification:是指对触发实体关系的词进行分类,识别出是触发词还是非触发词,判定抽取出的关系是正类还是负类。
关系抽取是一个文本分类问题,相比于情感分类等任物,其具有以下特点:
- 领域众多,关系模型构建复杂。由于限定了关系类别,可采用基于规则、词典以及本体的方法,也可采用传统机器学习的有监督、半监督以及无监督方法,深度学习的有监督、远程监督方法。这类方法的模型构建难度相对于开放领域难度较低,但是移植性和扩展性较差。而针对开放领域的关系抽取,由于关系类型多样且不确定,可以采用无监督和远程监督等方法
- 数据来源广泛,主要有结构化、半结构化、无结构3类。针对表格文档、数据库数据等结构化数据,方法众多,现通常采用深度学习相关的方法等;针对纯文本的无结构数据,由于无法预料全部关系类型,一般采用以聚类为核心的无监督方法等;而针对维基百科、百度百科等半结构化数据,通常采用半监督和远程监督方法等
- 关系种类繁多复杂,噪音数据无法避免。实体之间的关系多样,有一种或多种关系,早期方法主要针对一种关系(忽略重叠关系)进行抽取,这类方法忽略了实体间的多种关系,对实体间的潜在关系难以处理。近年来,图结构逐渐应用于关系抽取领域,为关系重叠和实体重叠提供了新思路。而针对噪音数据,有人发现少量对抗样本会避免模型过拟合,提出使用对抗训练提高模型的性能
评价指标用 Precision、Recall、F1.
基于深度学习的关系抽取方法
监督学习:Pipeline
常见的模型有CNN、RNN、LSTM/BiLSTM、GCN(图神经网络)、混合抽取(模型融合)。
监督学习:Joint
- 基于共享参数的方法:命名实体识别和关系抽取通过共享编码层在训练过程中产生的共享参数相互依赖,最终训练得到最佳的全局参数。因此,基于共享参数方法有效地改善了流水线方法中存在的错误累积传播问题和忽视2个子任务间关系依赖的问题,提高模型的鲁棒性
- 基于序列标注的方法:由于基于共性参数的方法容易产生信息冗余,因此可以将命名实体识别和实体关系抽取融合成一个序列标注问题,可以同时识别出实体和关系。该方法利用一个端到端的神经网络模型抽取出实体之间的关系三元组,减少了无效实体对模型的影响,提高了关系抽取的召回率和准确率
- 基于图结构的方法:针对前2种方法无法解决的实体重叠、关系重叠问题,基于图结构的方法能有效得解决
远程监督学习
远程监督学习(Distant Supervision)是一种基于外部知识的监督学习方法,主要用于自动标注大规模文本数据,以训练关系抽取模型。其核心思想是利用已知的关系图谱(如知识图谱)来标注文本数据。例如,如果两个实体在知识图谱中存在关系,那么包含这两个实体的句子就可以被认为是该关系的正例。
远程监督的实体关系抽取方法极大地减少了对人工的依赖,可以自动地抽取大量的实体对,从而扩大了知识库的规模。
然而这类方法在数据标注过程会带来2个问题:噪音数据和抽取特征的误差传播。
- 基于远程监督的基本假设,海量数据的实体对的关系会被错误标记,从而产生了噪音数据
- 由于利用自然语言处理工具抽取的特征也存在一定的误差,会引起特征的传播误差和错误积累
BERT
基于开放领域的关系抽取方法
由于传统关系抽取基于特定领域、特定关系进行抽取,导致关系抽取这一任务耗时耗力,成本极高,同时不利于扩展语料类型。近年来,针对开放领域的实体关系抽取方法逐渐受到人们的广泛关注。由于互联网不断发展,开放语料的规模不断扩大,并且包含的关系类型愈加复杂,研究者直接面向大多未经人工标注的开放语料进行关系抽取,有利于促进实体关系抽取的发展,而且具有更大的实际意义。
开放领域关系抽取的方法是信息抽取领域的新的研究方向。该关系抽取方法主要分为半监督和无监督2种,并结合语形特征和语义特征自动地在大规模非限定类型的语料库中进行关系抽取。开放领域关系抽取的方法无需事先人为制定关系类型,减轻了人工标注的负担,而由此设计的系统可移植性较强,极大地促进关系抽取的发展。
开放领域的关系抽取方法主要有3个流程:
- 深层解析小规模的语料集,自动抽取实体间关系三元组,利用朴素贝叶斯分类器训练已标注可信和不可信的关系三元组构建关系表示模型;
- 利用关系抽取模型并输入词性、序列等特征等数据,在训练好的分类器上进行大量网络文献的关系抽取,获取候选关系三元组;
- 合并候选三元组,通过统计的方法计算各个关系三元组的可信度,并建立索引。