中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2014年
6期
18-25,55
,共9页
李国臣%党帅兵%王瑞波%李济洪
李國臣%黨帥兵%王瑞波%李濟洪
리국신%당수병%왕서파%리제홍
汉语基本块%分布表征%深层神经网络%序列标注
漢語基本塊%分佈錶徵%深層神經網絡%序列標註
한어기본괴%분포표정%심층신경망락%서렬표주
Chinese base-chunk%distributed representation%deep neural network%sequence labeling
汉语的基本块识别是汉语句法语义自动分析中的重要任务之一.传统的方法大多数直接将汉语基本块识别任务转化成词层面的一个序列标注问题,采用CRF模型来处理.虽然,在许多评测中得到最好的结果,但基于词为标注单位,在实用中受限于自动分词系统以及汉语词特征的稀疏性.为此,该文给出了一种以字为标注单位,以字为原始输入层,来构建汉语的基本块识别的深层神经网络模型,并通过无监督方法,学习到字的C&W和word2vec两种分布表征,将其作为深层神经网络模型的字的表示层的初始输入参数来强化模型参数的训练.实验结果表明,使用五层神经网络模型,以[-3,3]窗口的字的word2vec分布袁征,其准确率、召回率和F值分别达到80.74%,73.80%和77.12%,这比基于字的CRF高出约5%.这表明深层神经网络模型在汉语的基本块识别中是有作用的.
漢語的基本塊識彆是漢語句法語義自動分析中的重要任務之一.傳統的方法大多數直接將漢語基本塊識彆任務轉化成詞層麵的一箇序列標註問題,採用CRF模型來處理.雖然,在許多評測中得到最好的結果,但基于詞為標註單位,在實用中受限于自動分詞繫統以及漢語詞特徵的稀疏性.為此,該文給齣瞭一種以字為標註單位,以字為原始輸入層,來構建漢語的基本塊識彆的深層神經網絡模型,併通過無鑑督方法,學習到字的C&W和word2vec兩種分佈錶徵,將其作為深層神經網絡模型的字的錶示層的初始輸入參數來彊化模型參數的訓練.實驗結果錶明,使用五層神經網絡模型,以[-3,3]窗口的字的word2vec分佈袁徵,其準確率、召迴率和F值分彆達到80.74%,73.80%和77.12%,這比基于字的CRF高齣約5%.這錶明深層神經網絡模型在漢語的基本塊識彆中是有作用的.
한어적기본괴식별시한어구법어의자동분석중적중요임무지일.전통적방법대다수직접장한어기본괴식별임무전화성사층면적일개서렬표주문제,채용CRF모형래처리.수연,재허다평측중득도최호적결과,단기우사위표주단위,재실용중수한우자동분사계통이급한어사특정적희소성.위차,해문급출료일충이자위표주단위,이자위원시수입층,래구건한어적기본괴식별적심층신경망락모형,병통과무감독방법,학습도자적C&W화word2vec량충분포표정,장기작위심층신경망락모형적자적표시층적초시수입삼수래강화모형삼수적훈련.실험결과표명,사용오층신경망락모형,이[-3,3]창구적자적word2vec분포원정,기준학솔、소회솔화F치분별체도80.74%,73.80%화77.12%,저비기우자적CRF고출약5%.저표명심층신경망락모형재한어적기본괴식별중시유작용적.