本周任务

本周主要还是做计组知识图谱课题。以下为本周具体进度:

  • 把数据集分割为了训练集、验证集、测试集,对训练集以随机抽样进行进一步分割,以减小工作量
  • 第一次标注采用预标注,之后用词典不断迭代标注
  • 完成了第一份训练集1000条和验证集、测试集的标注,总共2000余条语料,用新标签PCC 标注
  • 用 Adaseq 训练模型,但是遇到了诸多问题,尚未解决

课题下周改进

  • PCC 标签过于笼统,下周对标签进一步细化,并去除少部分无用标签
  • 弃用 Adaseq ,国产的玩意是真不如 Transformers 好用
  • 找一个新的预训练模型进行训练(其实已经找到了)
  • 多模型对比训练

以上修改标签预计最少3天,用 Transformers 训练最少2天,多模型能做多少算多少

本周反思

  • 每一步的数据尽可能的量化并记录,方便日后发论文
  • 对课题各个工作部分理解浅显,应当在阅读部分文献后再进行