地科学院刘远刚团队硕士研究生章文琦在《地质论评》发表了题为《基于BERTwwm与数据增强的地质实体识别研究》的研究论文,长江大学地球科学学院为论文第一署名单位,章文琦为论文第一作者,其导师刘远刚为该文通讯作者。
论文提出了一种新的地质实体识别模型BERTwwm-BiLSTM-Attention-CRF。该研究为传统的地质文本智能处理带来了进展,有效解决了地质领域复杂实体识别精度不足和样本标注成本高昂的两个难题。传统的地质实体识别方法往往在处理复杂地质概念时表现欠佳,且需要投入大量人力进行数据标注。研究通过改进预训练层BERTwwm并引入Self-Attention模块,显著提升了模型性能,在地质文本测试集中实现了92.67%的精确率、94.21%的召回率和93.29%的F1值。此外,该研究对简易数据增强技术(EDA)进行了改进,通过利用预先建立的专题地质字典扩充小型数据集,解决了标注样本数量不足的问题。研究还引入了实体外随机增强方法,以增强模型对不同环境下实体的识别的鲁棒性,降低了构建大规模数据集的人工成本,而且在提高地质实体识别精度的同时,也增强了模型对复杂地质实体的识别能力。该研究同时采用迭代标注策略,让训练过程中的模型参与辅助标注,加速了命名实体识别模型的构建流程。最后,通过一系列的对比实验和消融实验,验证了所提出方法的有效性,为地质文本分析工作提供了一种高效准确的人工智能工具,可应用于自动化构建地质领域知识图谱。DOI:10.16509/j.georeview.2024.06.085
图1 BERTwwm—BiLSTM—Attention—CRF 模型架构
图2 地质实体识别模型识别精度
图3 论文首页