8.06-8.11:一周总结
本周工作 本周工作是从8月10号vpn重置之后才开始进行的,所以内容有点少 完成了第一版训练、验证代码 调试第一个模型,修复各种bug 学习 Transformer 相关内容 课题下周改进 先快速训练出几个模型出来,选出一个最好的模型 进行第二次及多次迭代训练,更新词典 关系抽取看相关文献 本周反思 本周算是玩爽了,课题下周尽快开展关系抽取的调研工作。
本周工作 本周工作是从8月10号vpn重置之后才开始进行的,所以内容有点少 完成了第一版训练、验证代码 调试第一个模型,修复各种bug 学习 Transformer 相关内容 课题下周改进 先快速训练出几个模型出来,选出一个最好的模型 进行第二次及多次迭代训练,更新词典 关系抽取看相关文献 本周反思 本周算是玩爽了,课题下周尽快开展关系抽取的调研工作。
本周任务 改进了数据集的标注格式,并更新了词典 完成 BERT 系、BiLSTM-CRF、CNN-CRF 等模型代码 第一版训练、验证代码进度50%,但是 vpn 流量过期,需要等到10号以后才能继续训练😅 课题下周改进 完成第一版训练、验证代码 改进现有模型结构,尽可能地从微调 BERT 的过时手段中走出 记录实验数据 继续 cs224n、Transformer 论文学习 本周反思 本周实在是有太多事,课题进展有限,预计下周会有一定进展。
本周任务 本周主要还是做计组知识图谱课题。以下为本周具体进度: 把数据集分割为了训练集、验证集、测试集,对训练集以随机抽样进行进一步分割,以减小工作量 第一次标注采用预标注,之后用词典不断迭代标注 完成了第一份训练集1000条和验证集、测试集的标注,总共2000余条语料,用新标签PCC 标注 用 Adaseq 训练模型,但是遇到了诸多问题,尚未解决 课题下周改进 PCC 标签过于笼统,下周对标签进一步细化,并去除少部分无用标签 弃用 Adaseq ,国产的玩意是真不如 Transformers 好用 找一个新的预训练模型进行训练(其实已经找到了) 多模型对比训练 以上修改标签预计最少3天,用 Transformers 训练最少2天,多模型能做多少算多少 本周反思 每一步的数据尽可能的量化并记录,方便日后发论文 对课题各个工作部分理解浅显,应当在阅读部分文献后再进行