计算机软件及计算机应用论文_古汉语词义标注语
文章目录
0 引言
1 基础词义知识库构建
1.1 选词的原则
1.2 义项的设立
1.3 义项整理中特殊语言现象的处理
1.3.1 同形词问题
1.3.2 临时用法或通假
1.3.3 专有名词
2 词义标注
2.1 语料采样及预处理
2.2 词义标注实践
3 语料库整体规模和义项分布概览
3.1 整体规模
3.2 义项分布概览
4 词义标注语料库的应用
4.1 古汉语词义消歧
4.2 古汉语历时词义演变
4.3 辅助词典编撰
5 结论
文章摘要:古汉语以单音节词为主,其一词多义现象十分突出,这为现代人理解古文含义带来了一定的挑战。为了更好地实现古汉语词义的分析和判别,该研究基于传统辞书和语料库反映的语言事实,设计了针对古汉语多义词的词义划分原则,并对常用古汉语单音节词进行词义级别的知识整理,据此对包含多义词的语料开展词义标注。现有的语料库包含3.87万条标注数据,规模超过117.6万字,丰富了古代汉语领域的语言资源。实验显示,基于该语料库和BERT语言模型,词义判别算法准确率达到80%左右。进一步地,该文以词义历时演变分析和义族归纳为案例,初步探索了语料库与词义消歧技术在语言本体研究和词典编撰等领域的应用。
文章关键词:
论文分类号:TP391.1
上一篇:中国语言文字论文_上古汉语状态变化动词句法
下一篇:没有了