长江大学 —— 地球科学学院欢迎您!今天是:

科普工作

科普工作
当前位置: 首页  >  科普工作  >  正文

地科学院硕士生章文琦在《地质论评》上发表论文——基于BERTwwm与数据增强的地质实体识别研究

时间:2024-12-10   来源:    访问量:

地科学院刘远刚团队硕士研究生章文琦在《地质论评》发表了题为《基于BERTwwm与数据增强的地质实体识别研究》的研究论文,长江大学地球科学学院为论文第一署名单位,章文琦为论文第一作者,其导师刘远刚为该文通讯作者。

论文提出了一种新的地质实体识别模型BERTwwm-BiLSTM-Attention-CRF。该研究为传统的地质文本智能处理带来了进展,有效解决了地质领域复杂实体识别精度不足和样本标注成本高昂的两个难题。传统的地质实体识别方法往往在处理复杂地质概念时表现欠佳,且需要投入大量人力进行数据标注。研究通过改进预训练层BERTwwm并引入Self-Attention模块,显著提升了模型性能,在地质文本测试集中实现了92.67%的精确率、94.21%的召回率和93.29%的F1值。此外,该研究对简易数据增强技术(EDA)进行了改进,通过利用预先建立的专题地质字典扩充小型数据集,解决了标注样本数量不足的问题。研究还引入了实体外随机增强方法,以增强模型对不同环境下实体的识别的鲁棒性,降低了构建大规模数据集的人工成本,而且在提高地质实体识别精度的同时,也增强了模型对复杂地质实体的识别能力。该研究同时采用迭代标注策略,让训练过程中的模型参与辅助标注,加速了命名实体识别模型的构建流程。最后,通过一系列的对比实验和消融实验,验证了所提出方法的有效性,为地质文本分析工作提供了一种高效准确的人工智能工具,可应用于自动化构建地质领域知识图谱。DOI:10.16509/j.georeview.2024.06.085


图1 BERTwwm—BiLSTM—Attention—CRF 模型架构


图2 地质实体识别模型识别精度


图3 论文首页

地址:湖北省武汉市蔡甸区蔡甸街大学路111号

邮编:430100

电子信箱:Geoscience@yangtzeu.edu.cn

学院办公室:  027-69111650          教学办公室 :  027-69111218

一流学科建设办公室:  027-69111109          学生工作办公室:  027-69111203