中国文学论文_基于新词发现的古典文学作品分词
文章目录
0 引 言
1 新词发现的相关技术
1.1 N-Gram算法
1.2 互信息
1.3 左右信息熵
2 基于新词发现的古典文学作品分词方法
2.1 古典文学作品分词方法
2.2 分词方法的具体实现
(1)古文文本预处理。
(2)语料切分。
(3)计算候选词的互信息。
(4)计算候选词的左右信息熵。
3 实验及结果分析
3.1 实验语料
3.2 评价指标
4 结束语
文章摘要:对于中文文本的分词研究来说,现有的分词方法和技术较多都是针对现代汉语,现代汉语的分词方法和体系已经很成熟,但对古代汉语的研究较少。由于古文的特殊性,将现代汉语的分词方法技术直接用于古汉语时,无法得到分词准确的理想效果,目前对古汉语分词方法的研究还未形成成熟的体系。文中提出一种基于新词发现的古典文学作品分词方法,即从大量古典文学作品语料中发现新词,构建古汉语分词词典,在此基础上再对古文文本进行分词。以《三国演义》古文文本处理为例,验证了基于新词发现的古典文学作品分词方法能有效提高古文分词的准确率。
文章关键词:
论文分类号:I207.413;TP391.1
上一篇:中国通史论文_中国历史文选课程教学百年省思—
下一篇:没有了