×
古汉语研究

基于深度学习的古汉语命名实体识别研究

1.引言

命名实体识别[1] (Named Entity Recognition, NER)是自然语言处理(Natural Language Processing, NLP)基础性工作之一,它可以准确地从文本中识别出人名、机构名、地名、时间等信息,为信息检索、机器翻译、舆情分析等下游自然语言处理任务提供重要的特征信息。过去,命名实体识别任务多采用基于规则的方法、基于统计的方法和基于规则和统计相结合的方法[2]。

近年来,深度神经网络在自然语言处理领域广泛地受到关注,与上述方法相比,基于深度神经网络的方法具有更强的泛化能力、对人工特征依赖较少的优点。因此,面向现代汉语和英语等大语种,研究者已提出了许多基于深度神经网络的命名实体识别模型[3]-[18],但针对古汉语在这方面的研究才刚刚起步。

鉴于此,本文以《战国策》为例,根据古汉语独特的子语言特征,利用网格长短期记忆(Lattice LSTM)神经网络构建命名实体识别模型以解决古汉语中的信息提取问题。该方法将传统的LSTM单元改进为网格LSTM,在字模型的基础之上显性利用词与词序信息,从而避免了分词错误传递的问题。实验结果表明,Lattice LSTM能够学会从语境中自动找到所有与词典匹配的词汇,以取得较好的命名实体识别性能。在本研究构建的数据集上F1值达到92.16%。

2.模型

在英文领域,第一个采用神经网络进行命名实体识别的是Hammerton等人,由于LSTM良好的序列建模能力,LSTM-CRF [19]模型成为命名实体识别的基础架构之一,很多方法都是以LSTM-CRF为主体框架,在此之上融入各种相关特征。本文将LSTM-CRF作为主要网络结构,并且在该模型对一系列输入字符进行编码的同时将所有与词典匹配的词汇网格结构融入模型中。

一般将输入序列表示为 s = c1, c2,… , cn。其中,cj代表第j个字符。本文中应用t( i,k)表示索引j,代表第i个词的第k个字符。比如“医扁鹊”,索引从1开始,那么t (1 ,1) =1(医),t ( 2,1) = 2(扁)。本研究运用BIO标注策略进行字粒度和词粒度的命名实体识别标注,古汉语命名实体识别的字序列和标记序列举例说明如表1所示。

Table of character sequence and label sequence in ancient Chinese named entity recognition表1.古汉语命名实体识别的字序列和标记序列举例注:“O”是实体外部标记,“B”是实体开始标记,“I”是实体内部标记,“PER”表示人名,“POS”表示官职。字 舜 虽 贤 不 遇 尧 不 得 为 天 子 标记 B-PER O O O O B-PER O O O B-POS I-POS

2.1.基于字的模型

基于字的命名实体识别(见图1)存在一种缺陷,即无法充分利用词的显性以及词序信息。

Figure model图1.基于字符的模型

Figure lattice图2.词-字符网格

Figure model图模型

2.2.基于词的模型

基于词的模型见图4。

2. LSTM模型

本文利用Lattice LSTM [20]来处理句子中的词汇词(lexicon word),从而将所有潜在词信息全部整合到基于字符的LSTM-CRF中,见图2。并使用一个自动获取的词典来匹配句子,进而构建基于词的Lattice,见图3。由于在网格中存在指数数量的单词到字符路径,因此使用Lattice LSTM结构来自动控制从句子的开头到结尾的信息流。门控单元用于将不同路径的信息动态的传输到每个字符。在训练数据集上训练后,Lattice LSTM能够学会从信息流中自动找到有用的词,从而提升命名实体识别性能,见图5。与基于字符和基于词的命名实体识别方法相比,本文采用的模型优势在于利用词汇的显性信息进行分词,而不是仅仅自动关注,从而减少分词误差。

Figure model图4.基于词的模型

Figure LSTM model图 LSTM模型

2.4.LSTM层

RNN循环神经网络理论上可以处理任意长度的序列信息,但实际应用中,当序列过长时会出现梯度消失的问题,且很难学到长期依赖的特征。因此,Graves等人[21]改进了循环神经网络,提出长短期记忆网络(Long Short-Term Memory) LSTM模型。LSTM单元通过输入门、遗忘门和输出门来控制信息传递。它是一种特殊的RNN,能够学习长期的规律,应用十分广泛。LSTM编码单元如图6所示。

具体计算过程如公式(1)~(6)所示:

Figure 6.LSTM unit图6.LSTM编码单元

其中,σ是sigmoid函数,⊙是点积。xt为时刻t的输入向量,ht是隐藏状态,也是输出向量,包含前面t时刻所有有效信息。ct是一个更新门,控制信息流入下一个时刻;ft是一个遗忘门,控制信息丢失;二者共同决定隐藏状态的输出。

上一篇:中国优秀传统文化中的哲学思维初探
下一篇:那些催人奋进的『耻』味良药

Top