中国语言文字论文_古汉语自动分词技术研
文章目录
一、古汉语分词的关键问题
(一)分词粒度界定
(二)未登录词处理
(三)分词歧义消解
二、基于词典和统计的分词方法
(一)基于分词词典的分词方法
(二)融合统计指标的分词技术
三、基于机器学习的序列标注方法
(一)基于条件随机场模型
(二)基于马尔科夫模型
四、基于深度神经网络的分词
(一)古汉语分词常用的基础网络模型
(二)融合特征的神经网络模型
(三)预训练和后处理方式
五、研究展望
(一)扩充古汉语分词语料数据量
(二)构建适应不同领域的古汉语分词模型
(三)开发一体化模型
文章摘要:古汉语自动分词技术是实现古汉语文本深度处理的重要前提。经过多年探索,该领域已有了实质性进展。但是古汉语自动分词仍然面临一些关键问题:分词粒度界定、歧义消解和未登录词处理等。通过对基于词典和统计、机器学习序列标注以及深度神经网络模型等自动分词方法研究现状的梳理,指明充分利用深度学习技术是古汉语自动分词的未来发展趋势,并对古汉语自动分词的探索提出了三个方面的展望:扩充古汉语分词语料数据量、构建适应不同文本领域的分词模型、开发一体化模型。
文章关键词: