《计组KG》课题开发过程(一)

前言 开发该课题也有一个月了,整个过程并不是很顺利,很多细节部分如果没有得到及时梳理,对以后的研究和论文写作也有坏处。基于以上和其他原因,遂决定分阶段进行记录。 数据集 深度学习项目的良好开端就是有一个优良标注的数据集。而由于本课题起源于一个极小领域下,导致数据集必须完全自建。所有工作由我一人进行,工作量不可避免的大。所以必须尽可能的减少工作量,尽量实现在课题的中后期的所有标注工作都由程序自动化解决。 计组数据集的构建分为了以下几个过程: 计组数据集来源 数据预处理 数据集的预标注 基于词典的多次迭代标注 数据集格式的转换 接下来对每一个部分进行详述。 计组数据集来源 目前数据的来源如下: 计算机组成原理第6版 (白中英),pdf 转 txt 计算机组成原理第6版 (白中英) 课件,ppt 转 txt 数据预处理 以下是大概的预处理过程: 将所有的文本合并到一个文件,方便后续操作; 手工去掉一些与课题无关的文本和小部分错误内容; 去掉所有的空白字符(空格、换行符、制表符等); 去掉所有的特殊字符(数字、半角符号、特殊字符); 以中文句号进行分割,分别以整句、分词的形式输出到 json 文件中。 处理结果: 1 2 3 4 // 整句 { "0": "\u8ba1\u7b97\u673a\u7cfb\u7edf\u4e0d\u540c\u4e8e\u4e00\u822c\u7684\u7535\u5b50\u8bbe\u5907\uff0c\u5b83\u662f\u4e00\u4e2a\u7531\u786c\u4ef6\u3001\u8f6f\u4ef6\u7ec4\u6210\u7684\u590d\u6742\u7684\u81ea\u52a8\u5316\u8bbe\u5907" } 1 2 3 4 // 分词 { "0": ["\u8ba1", "\u7b97", "\u673a", "\u7cfb", "\u7edf", "\u4e0d", "\u540c", "\u4e8e", "\u4e00", "\u822c", "\u7684", "\u7535", "\u5b50", "\u8bbe", "\u5907", "\uff0c", "\u5b83", "\u662f", "\u4e00", "\u4e2a", "\u7531", "\u786c", "\u4ef6", "\u3001", "\u8f6f", "\u4ef6", "\u7ec4", "\u6210", "\u7684", "\u590d", "\u6742", "\u7684", "\u81ea", "\u52a8", "\u5316", "\u8bbe", "\u5907"] } 数据集的预标注 以上所有数据处理完后,共得到5632条文本。如果要自己一条条的标注,真就是整一个月啥也别干,所以还是要用比较省力的方式进行标注。我选择用一个在中文语料集上训练过的预训练模型进行第一轮标注,也就是预标注。...

August 1, 2024 · 283 words · Kurong

neo4j常用命令

neo4j启动与访问 启动neo4j 1 2 docker start test_neo4j docker exec -it test_neo4j /bin/bash 访问browser 1 http://localhost:7474/browser/ 访问database 1 2 3 neo4j://localhost:7687 auth: neo4j pw: 5225400599 CQL语法 create 创建节点 1 2 3 4 5 6 7 8 CREATE ( <node-name>:<label-name> { <Property1-name>:<Property1-Value> ........ <Propertyn-name>:<Propertyn-Value> } ) match 查询节点或属性 1 2 3 4 5 6 7 8 9 10 11 12 13 14 # 查询Dept下的内容 MATCH (dept:Dept) return dept # 查询Employee标签下 id=123,name="Lokesh"的节点 MATCH (p:Employee {id:123,name:"Lokesh"}) RETURN p ## 查询Employee标签下name="Lokesh"的节点,使用(where命令) MATCH (p:Employee) WHERE p....

June 26, 2024 · 572 words · Kurong

SQL

第一章:数据库基础 数据库:保存有组织的数据的容器(通常是一个文件或一组文件) 数据库软件(DBMS):MySql,Oracle,MongoDB之类。人们通常用数据库来代替数据库软件的名称 表(table):某种特定类型数据的结构化清单 模式:关于数据库和表的布局及特性的信息 列(column):表中的一个字段(该列由字段来唯一标识),所有表都是由一个或多个列组成的,每一列都有自己的数据类型 行(row):表中的一条数据是由行来存储的 主键(primary key):唯一标识表中每行的这个列就是主键,应该总是定义主键 关于主键: 任意两行都不具有相同的主键值 每个行都必须有一个主键值 SQL:结构化查询语言 第二章:MySQL简介 略 第三章:使用MySQL 登录数据库 默认主机名:localhost 默认端口:3306 1 2 mysql -u root -p # 然后输入密码 选择数据库 1 USE database_name; 了解数据库和表 查看所有数据库 1 SHOW DATABASES; 查看一个数据库中的所有表 1 SHOW TABLES; 查看一个表的所有字段 1 SHOW COLUMNS FROM table; 还有一种快捷写法 1 DESCRIBE table; 在返回的列表中可以看到一些建表信息,如字段名,数据类型,键类型,是否为NULL,默认值,其他类型。 其他的show语句 1 2 3 4 5 SHOW GRANTS; # 显示授予用户的安全权限 SHOW ERRORS; # 显示服务器错误 SHOW WARNINGS; # 显示服务器警告信息 SHOW STATUS; # 显示服务器的状态信息 HELP SHOW; # 显示mysql允许的show语句 有一个书写规则:select这样的关键词要大写,表名、列名、数据库名要小写...

June 26, 2024 · 2531 words · Kurong

正则表达式

第二章. 匹配单个字符 ’ . ’ 用来匹配任意单一字符, 元字符的一种 ’ \ ‘为转义字符, 属于元字符的一种, 元字符: 有特殊含义的字符 正则表达式被称为模式(pattern) 第三章. 匹配一组字符 ’ [ ] ‘为元字符, 表示一个字符集合, 必须匹配其中的一个或多个字符, 也可以全部匹配. ’ [ ] ‘可以用来匹配大小写, 如[Aa].*就匹配任意以A或a或Aa开头的字符串. 还有几种常见的用法, 如[a-z] [A-Z] [0-9], 这几种很常用, 还有一个用法[A-Za-z0-9] 这个字符集可以匹配以上三种用法的合集 ’ - ‘表示连字符, 是一种较为特殊的元字符, 只有在’ [ ] ’ 里才是元字符, 在其他地方就是一个普通的字符’ - ‘, 也因此在这种情况下它不需要转义 ’ ^ ’ 表示排除, 也是元字符. 在上面的几种用法中, 在集合的最前面加上’ ^ ‘, 就表示匹配除了该集合以外的字符, 而且需要注意的是, ’ ^ ‘的作用域是整个字符集合, 而不是紧跟在其身后的单个字符什么的 第四章. 使用元字符 如果要匹配元字符本身, 可以用 ’ \ . 如: 匹配[ ], 用\ [ \ ]...

June 26, 2024 · 376 words · Kurong

记一次博客搭建

My Blog Construction 前言 这是第二次用 Hugo 搭建静态博客了,之前的那个博客不论是主题、工作流、文件结构都很不合理,用起来效率低下。遂决定在研一之前重新搞一次。 完整过程 hugo 安装 在官方的 Releases · gohugoio/hugo (github.com) 下载对应版本即可,然后设置环境变量。 环境配置 网站选用 Github Pages 搭建,因为静态网站可以满足我的所有写作需求。域名就是仓库名705248010.github.io. 将仓库拉取到本地后就要开始配置了。先用 1 hugo new site <your site name> 生成一个对应文件夹,然后我将选择的主题 adityatelange/hugo-PaperMod: A fast, clean, responsive Hugo theme. (github.com) 放到 themes 文件夹内。 可以通过 1 hugo server 查看效果。 写Markdown 根据官方文档配置完成后就可以本地写文章了,用以下命令生成 1 hugo new --kind post ./xxxx/xxxx.md KaTex PaperMod 本身没有对数学公式的支持,但在 Hugo 官网能找到相关文档:Mathematics in Markdown | Hugo (gohugo.io) 。 这里选用 KaTex ,不用Mathjax的原因在于其对于内联公式符号 $ 的不支持。...

June 24, 2024 · 97 words · Kurong