本周任务
本周主要还是做计组知识图谱课题。以下为本周具体进度:
- 把数据集分割为了训练集、验证集、测试集,对训练集以随机抽样进行进一步分割,以减小工作量
- 第一次标注采用预标注,之后用词典不断迭代标注
- 完成了第一份训练集1000条和验证集、测试集的标注,总共2000余条语料,用新标签PCC 标注
- 用 Adaseq 训练模型,但是遇到了诸多问题,尚未解决
课题下周改进
- PCC 标签过于笼统,下周对标签进一步细化,并去除少部分无用标签
- 弃用 Adaseq ,国产的玩意是真不如 Transformers 好用
- 找一个新的预训练模型进行训练(其实已经找到了)
- 多模型对比训练
以上修改标签预计最少3天,用 Transformers 训练最少2天,多模型能做多少算多少
本周反思
- 每一步的数据尽可能的量化并记录,方便日后发论文
- 对课题各个工作部分理解浅显,应当在阅读部分文献后再进行