计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
18期
120-125
,共6页
汉语逗号分类%最大熵%条件随机场(CRF)
漢語逗號分類%最大熵%條件隨機場(CRF)
한어두호분류%최대적%조건수궤장(CRF)
Chinese comma classification%maximum entropy%Conditional Random Field(CRF)
近年来,标点符号作为篇章的重要部分逐渐引起研究者的关注。然而,针对汉语逗号的研究才刚刚展开,采用的方法也大多都是在句法分析的基础上,尚不存在利用汉语句子的表层信息开展逗号自动分类的研究。提出了一种基于汉语句子的分词与词性标注信息做逗号自动分类的方法,并采用了两种有监督的机器学习分类器,即最大熵分类器和CRF分类器,来完成逗号的自动分类。在CTB 6.0语料上的实验表明,CRF的总体结果比最大熵的要好,而这两种分类器的分类精度都非常接近基于句法分析方法的分类精度。由此说明,基于词与词性做逗号分类的方法是可行的。
近年來,標點符號作為篇章的重要部分逐漸引起研究者的關註。然而,針對漢語逗號的研究纔剛剛展開,採用的方法也大多都是在句法分析的基礎上,尚不存在利用漢語句子的錶層信息開展逗號自動分類的研究。提齣瞭一種基于漢語句子的分詞與詞性標註信息做逗號自動分類的方法,併採用瞭兩種有鑑督的機器學習分類器,即最大熵分類器和CRF分類器,來完成逗號的自動分類。在CTB 6.0語料上的實驗錶明,CRF的總體結果比最大熵的要好,而這兩種分類器的分類精度都非常接近基于句法分析方法的分類精度。由此說明,基于詞與詞性做逗號分類的方法是可行的。
근년래,표점부호작위편장적중요부분축점인기연구자적관주。연이,침대한어두호적연구재강강전개,채용적방법야대다도시재구법분석적기출상,상불존재이용한어구자적표층신식개전두호자동분류적연구。제출료일충기우한어구자적분사여사성표주신식주두호자동분류적방법,병채용료량충유감독적궤기학습분류기,즉최대적분류기화CRF분류기,래완성두호적자동분류。재CTB 6.0어료상적실험표명,CRF적총체결과비최대적적요호,이저량충분류기적분류정도도비상접근기우구법분석방법적분류정도。유차설명,기우사여사성주두호분류적방법시가행적。
In recent years, punctuation as an important part of discourse is attracting more and more attention of the researchers. However, most methods are based on syntactic analysis. Research of Chinese comma classification using the surface information of Chinese sentences does not exist. This paper proposes a method for Chinese comma classification based on segmentation and part-of-speech tagging and adopts two supervised machine learning classifiers, namely the maximum entropy classifier and CRF classifier, to complete the automatic classification of commas. Experimental results on the CTB 6.0 corpus show that CRF model is better than maximum entropy model, and the accuracy of the two classifiers are very close to the method based on syntactic analysis. It demonstrates that the method for Chinese comma classification based on segmentation and part-of-speech tagging is feasible.