高校地质学报 ›› 2023, Vol. 29 ›› Issue (3): 419-428.DOI: 10.16108/j.issn1006-7493.2023026
• 固体地球科学文本挖掘和知识图谱专栏 特邀主编:马 超 诸云强 闾海荣 胡修棉 • 上一篇 下一篇
邱芹军1,2,王 斌1,2,徐德馨5,马 凯3,4,谢 忠1,2*,潘声勇6,陶留锋1,2
QIU Qinjun1,2,WANG Bin1,2,XU Dexin5,MA Kai3,4,XIE Zhong1,2*,PAN Shengyong6,TAO Liufeng1,2
摘要: 地质领域实体关系抽取是构建地质知识图谱的基础,对地质领域文本信息抽取与知识库构建具有重要的作用。针对地质领域实体关系复杂、缺少人工标注语料库等特点,提出了面向地质领域实体关系联合抽取模型,着重对多地质文本中存在的复杂重叠关系进行识别,避免传统流水线模型中由于实体识别错误造成级联误差。文章构建了高质量地质领域实体关系语料库,提出了基于预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)和双向门控循环单元BiGRU(Bidirectional Gated Recurrent Units)与条件随机场CRF(Conditional Random Field)的序列标注模型,实现对实体关系的联合抽取。在构建数据集上进行了实验,结果表明,本文提出的联合抽取模型在实体关系抽取上的F1值达到0.671,验证了本文模型在地质实体关系抽取的有效性。
中图分类号: