数据驱动的中文实体抽取方法综述
中文实体抽取(Chinese Named Entity Recognition,CNER)是中文自然语言处理领域的一项核心任务,是信息抽取的关键一步,是问答系统、机器翻译和知识图谱等下游任务的基础。CNER方法分为知识驱动和数据驱动两大类。知识驱动方法包括基于规则和词典与机器学习的传统方法,存在忽视上下文语义信息、计算成本高和低召回率的问题,而数据驱动方法包括深度学习与预训练语言模型。随着深度学习的发展,数据驱动通过端到端的深度神经网络对文本数据集进行特征提取,可以有效解决知识驱动方法的不足之处,但目前缺少基于数据驱动的中文实体抽取方法的总结。首先介绍中文实体抽取的定义和发展历程。然后详细整理中文实体抽取任务的典型数据集,工具、评价指标。接着围绕数据驱动的中文实体抽取方法进行系统分析和总结。最后对中文实体抽取任务的未来研究方向进行展望。
计算机工程与应用
网络首发
立即查看 >
图书推荐
相关工具书