计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
3期
109-111,185
,共4页
康才畯%龙从军%江荻
康纔畯%龍從軍%江荻
강재준%룡종군%강적
藏文人名%条件随机场%特征标签集
藏文人名%條件隨機場%特徵標籤集
장문인명%조건수궤장%특정표첨집
Tibetan name%Conditional Random Field(CRF)%tag set
基于条件随机场模型在字粒度上识别并切分藏文人名,其优势是可以较好地利用藏文人名在文本中出现的基本特征和上下文特征来确定藏文人名在文本序列中的边界。根据藏文人名自身的特点设定特征标签集,利用条件随机场模型作为标注建模工具来进行训练和测试。从实验结果来看,该方法有较高的识别正确率,具有进一步研究的价值。下一步的改进需要扩充训练语料,并针对人名与一般词语同形现象进行特征标签集的优化。
基于條件隨機場模型在字粒度上識彆併切分藏文人名,其優勢是可以較好地利用藏文人名在文本中齣現的基本特徵和上下文特徵來確定藏文人名在文本序列中的邊界。根據藏文人名自身的特點設定特徵標籤集,利用條件隨機場模型作為標註建模工具來進行訓練和測試。從實驗結果來看,該方法有較高的識彆正確率,具有進一步研究的價值。下一步的改進需要擴充訓練語料,併針對人名與一般詞語同形現象進行特徵標籤集的優化。
기우조건수궤장모형재자립도상식별병절분장문인명,기우세시가이교호지이용장문인명재문본중출현적기본특정화상하문특정래학정장문인명재문본서렬중적변계。근거장문인명자신적특점설정특정표첨집,이용조건수궤장모형작위표주건모공구래진행훈련화측시。종실험결과래간,해방법유교고적식별정학솔,구유진일보연구적개치。하일보적개진수요확충훈련어료,병침대인명여일반사어동형현상진행특정표첨집적우화。
The best feature of segmentation of Tibetan names based on Conditional Random Field(CRF)on the character level is making use of the basic and context features of the Tibetan names. This paper defines a feature tag set to fit in with the characters of Tibetan names, uses CRF as tagging model to train and test corpus data. The experimental result shows that the method has a high recognition rate and deserves further study. The next steps are to expand the corpus and optimize the tag set for the isomorphic phenomena of Tibetan names and general words.