数据驱动的中文实体抽取方法综述-计算机工程与应用年期-手机知网

数据驱动的中文实体抽取方法综述

中文实体抽取(Chinese Named Entity Recognition，CNER)是中文自然语言处理领域的一项核心任务，是信息抽取的关键一步，是问答系统、机器翻译和知识图谱等下游任务的基础。CNER方法分为知识驱动和数据驱动两大类。知识驱动方法包括基于规则和词典与机器学习的传统方法，存在忽视上下文语义信息、计算成本高和低召回率的问题，而数据驱动方法包括深度学习与预训练语言模型。随着深度学习的发展，数据驱动通过端到端的深度神经网络对文本数据集进行特征提取，可以有效解决知识驱动方法的不足之处，但目前缺少基于数据驱动的中文实体抽取方法的总结。首先介绍中文实体抽取的定义和发展历程。然后详细整理中文实体抽取任务的典型数据集，工具、评价指标。接着围绕数据驱动的中文实体抽取方法进行系统分析和总结。最后对中文实体抽取任务的未来研究方向进行展望。