计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2014年
15期
172-176
,共5页
华却才让%姜文斌%赵海兴%刘群
華卻纔讓%薑文斌%趙海興%劉群
화각재양%강문빈%조해흥%류군
藏文音节%命名实体%藏文命名实体%感知机模型
藏文音節%命名實體%藏文命名實體%感知機模型
장문음절%명명실체%장문명명실체%감지궤모형
Tibetan syllable%Name Entity(NE)%Tibetan NE%perceptron model
藏文命名实体识别是藏文分词和标注系统中必须要解决的问题。通过对命名实体构词规律及分词歧义进行分析,提出基于音节特征感知机训练模型的藏文命名实体识别方案。重点研究了利用藏文紧缩格识别音节的方法,命名实体内部和边界音节的模型训练特征模板,训练模型,以及命名实体分类识别方法。提出的藏文命名实体识别方法在测试集上获得86.03%的F值,相对基于分词的基线系统高出10.5%个点。
藏文命名實體識彆是藏文分詞和標註繫統中必鬚要解決的問題。通過對命名實體構詞規律及分詞歧義進行分析,提齣基于音節特徵感知機訓練模型的藏文命名實體識彆方案。重點研究瞭利用藏文緊縮格識彆音節的方法,命名實體內部和邊界音節的模型訓練特徵模闆,訓練模型,以及命名實體分類識彆方法。提齣的藏文命名實體識彆方法在測試集上穫得86.03%的F值,相對基于分詞的基線繫統高齣10.5%箇點。
장문명명실체식별시장문분사화표주계통중필수요해결적문제。통과대명명실체구사규률급분사기의진행분석,제출기우음절특정감지궤훈련모형적장문명명실체식별방안。중점연구료이용장문긴축격식별음절적방법,명명실체내부화변계음절적모형훈련특정모판,훈련모형,이급명명실체분류식별방법。제출적장문명명실체식별방법재측시집상획득86.03%적F치,상대기우분사적기선계통고출10.5%개점。
Tibetan name entity recognition is essential for Tibetan text segmentation and the part of speech tagging. This paper proposes a syllable features perceptron training model to identify Tibetan name entity with detail analysis NE structure rule and word segmentation ambiguity. It focuses on Tibetan syllable segmentation, training features templates of inner and boundary of NE, training model and NE classification method. The F-score of NE identification is 86.03%for the test set, and 10.5%higher than the Tibetan segmentation baseline system.