Named Entity Recognition 相关概念与技术

基本概念 实体:通常指文本中具有特定意义或指代性强的词或短语,如人名、地名、机构名等。 边界识别:确定实体在文本中的起始和结束位置。 分类:将识别出的实体归类到预定义的类别,如人名、地名、组织名、时间表达式、数量、货币值、百分比等。 序列标注:NER任务中常用的一种方法,将文本中的每个词标注为实体的一部分或非实体。 特征提取:从文本中提取有助于实体识别的特征,如词性、上下文信息等。 评估指标:用于衡量NER系统性能的指标,常见的有精确率(Precision)、召回率(Recall)和F1分数。 分类命名方法 BIO:这是最基本的标注方法,其中"B"代表实体的开始(Begin),“I"代表实体的内部(Inside),而"O"代表非实体(Outside)。 BIOES:这种方法在BIO的基础上增加了"E"表示实体的结束(End),和"S"表示单独的实体(Single)。 BMES:这种方法使用"B"表示实体的开始,“M"表示实体的中间(Middle),“E"表示实体的结束,“S"表示单个字符实体。 NER 的一般过程 数据准备:收集并标注一个包含目标实体的数据集。这个数据集应该包含足够的示例,以便模型能够学习如何识别和分类实体。 选择模型架构:选择一个适合任务的模型架构,如基于LSTM的序列模型或者是基于Transformers的预训练模型。 特征工程:根据需要,进行特征工程,提取有助于实体识别的特征,例如词性标注、上下文嵌入等。 模型训练:使用标注好的数据集来训练模型。这通常包括定义损失函数、选择优化器、设置学习率和训练周期等。 评估与优化:在独立的验证集上评估模型性能,使用诸如精确率、召回率和F1分数等指标,并根据结果进行模型调优。 一个小例子 以当前计组KG为例。 数据集 数据格式见 transformers/examples/pytorch/token-classification at main · huggingface/transformers (github.com) 数据来源: 通过百度百科爬虫 BaiduSpider/BaiduSpider: BaiduSpider,一个爬取百度搜索结果的爬虫,目前支持百度网页搜索,百度图片搜索,百度知道搜索,百度视频搜索,百度资讯搜索,百度文库搜索,百度经验搜索和百度百科搜索。 (github.com) 爬取计算机组合原理的相关术语 从计组教材中提取出文本 数据处理: 去掉无用字符、HTML标签等无关信息 使用Tokenizer将文本数据分解成Token 根据Token创建词汇表,每个唯一的Token对应一个唯一的索引 将文本中的Token转换为对应的索引值,以便模型能够处理 添加位置编码,以便模型能够理解Token在序列中的位置 数据集划分: 将数据集划分为训练集、验证集和测试集 格式化数据集: 使数据集符合transformer库NER任务模型的输入格式 模型 选用中文NER预训练模型:ckiplab/albert-base-chinese-ner · Hugging Face 选用peft框架微调:peft/examples/token_classification at main · huggingface/peft (github.com) 训练和测试 一般过程,略。 应用 可以应用在语料中识别实体了。 关系抽取 NER的下一步就是关系抽取了

July 5, 2024 · 62 words · Kurong

KnowledgeGraph Abstract

本文是对封面论文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》的提炼,目的是获取对该领域的一个大致认识。 Abstract 人类知识为我们对世界的形式化理解提供了基础。知识图谱作为表示实体之间结构关系的工具,已成为越来越受欢迎的研究方向,旨在实现认知和人类级别的智能。在这份综述中,我们全面回顾了知识图谱的研究主题,包括:1)知识图谱表示学习,2)知识获取与补全,3)时间知识图谱,以及4)知识感知应用,并总结了近期的突破和未来研究的展望方向。我们提出了一个全面的分类和新的分类法。知识图谱嵌入从四个方面进行组织:表示空间、评分函数、编码模型和辅助信息。对于知识获取,特别是知识图谱的补全,我们回顾了嵌入方法、路径推断和逻辑规则推理。此外,我们还探讨了几个新兴的主题,包括元关系学习、常识推理和时间知识图谱。为了促进知识图谱的未来研究,我们还提供了一份精选的不同任务的数据集和开源库。最后,我们对几个有前景的研究方向进行了详细的展望。 通过该论文的摘要可以非常清晰的看出本文主要内容是关于知识图谱领域的综述。 1. Introduction 知识图谱是一种结构化的事实表示,包括实体、关系和语义描述。实体可以是现实世界的对象和抽象概念,关系表示实体之间的关联,实体及其关系的语义描述包含具有明确定义含义的类型和属性。属性图或带属性的图广泛应用,其中节点和关系具有属性或特性。 知识图谱与知识库这两个术语在某种程度上是同义的,但存在一些细微差异。当考虑到图形结构时,知识图谱可以被视为一个图。而当涉及到形式化语义时,它可以被视为用于解释和推理事实的知识库。图1中展示了知识库和知识图谱的示例。知识可以用事实三元组的形式来表达,例如(头部,关系,尾部)或(主题,谓词,对象),在资源描述框架(RDF)下,例如(阿尔伯特·爱因斯坦,获奖者,诺贝尔奖)。它还可以表示为一个有向图,其中节点表示实体,边表示关系。为了简化,本文将知识图谱和知识库这两个术语视为可以互换使用。 资源描述框架(RDF)是用于描述网络资源的 W3C 标准,比如网页的标题、作者、修改日期、内容以及版权信息。RDF 被设计为提供一种描述信息的通用方法,这样就可以被计算机应用程序读取并理解。具体内容参考RDF 教程 (w3school.com.cn) 知识图谱的最新研究进展(2021年)聚焦于知识表示学习(KRL)或知识图嵌入(KGE),通过将实体和关系映射到低维向量中,同时捕捉它们的语义含义 。具体的知识获取任务包括知识图谱补全(KGC)、三元组分类、实体识别和关系抽取。知识感知模型受益于异构信息、丰富的本体和语义以及多语言知识的整合。因此,许多现实世界的应用,如推荐系统和问答系统,都因其具备常识理解和推理能力而繁荣发展。 本文的剩余部分中,在第二部分提供了知识图谱的概述,包括历史、符号、定义和分类;然后,在第三部分中,从四个角度讨论了KRL;接下来,在第四部分和第五部分详细探讨了知识获取和时间知识图谱的任务;在第六部分介绍了下游应用;最后讨论了未来的研究方向,并在结尾处总结。 2. Overview A. A Brief History of Knowledge Bases 图形化知识表示的概念最早可以追溯到1956年,当时Richens提出了“语义网”的概念。而符号逻辑知识则可以追溯到1959年的“通用问题求解器”。知识库首次用于基于知识的推理和问题求解系统。MYCIN是最著名的基于规则的专家系统之一,用于医学诊断,其知识库包含约600条规则。随后,人类知识表示领域出现了基于框架、基于规则和混合表示的发展。大约在这一时期末,Cyc项目开始,旨在整合人类知识。Resource Description Framework(RDF)和Web Ontology Language(OWL)相继发布,并成为语义Web的重要标准。此后,许多开放的知识库或本体被发布,例如WordNet、DBpedia、YAGO和Freebase。1988年,Stokman和Vries提出了一种现代的基于图形的结构化知识的理念。然而,直到2012年,知识图谱的概念才因Google搜索引擎的首次推出而广受欢迎,其中提出了名为“知识金库”的大规模知识图谱融合框架。 B. Definitions and Notations 知识图谱定义为 $G = \{E, R, F\}$ ,其中 $E$、$R$ 和 $F$ 分别是实体、关系和事实的集合。事实被三元组 $(h,r,t) \in F$ 表示,其中 $h$ 、 $r$ 和 $t$ 分别是 head、relation、tail。 C. Categorization of Research on Knowledge Graph 知识表示学习(Knowledge Representation Learning,简称KRL) 是知识图谱领域的关键研究问题,为许多知识获取任务和下游应用铺平了道路。可以将KRL分为四个方面:表示空间、评分函数、编码模型和辅助信息,为开发KRL模型提供了清晰的工作流程。具体要素包括:...

June 25, 2024 · 127 words · Kurong