计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2014年
11期
218-222
,共5页
康才畯%龙从军%江荻
康纔畯%龍從軍%江荻
강재준%룡종군%강적
藏文黏写形式%词位%条件随机场%特征模板%后处理
藏文黏寫形式%詞位%條件隨機場%特徵模闆%後處理
장문점사형식%사위%조건수궤장%특정모판%후처리
Tibetan abbreviated forms%word position%Conditional Random Field(CRF)%feature template%post process
基于词位的统计分析方法识别并切分现代藏语文本中的黏写形式,其最大特点是减少了未登录词对识别效果的影响。首先根据藏文自身的特点,将常用的四词位扩充为六词位,再利用条件随机场模型作为标注建模工具来进行训练和测试,并根据规则对识别结果进行后处理。从实验结果来看,该方法有较高的识别正确率,具有进一步研究的价值。下一步的改进需要扩充训练语料,并对模型选用的特征集进行优化。
基于詞位的統計分析方法識彆併切分現代藏語文本中的黏寫形式,其最大特點是減少瞭未登錄詞對識彆效果的影響。首先根據藏文自身的特點,將常用的四詞位擴充為六詞位,再利用條件隨機場模型作為標註建模工具來進行訓練和測試,併根據規則對識彆結果進行後處理。從實驗結果來看,該方法有較高的識彆正確率,具有進一步研究的價值。下一步的改進需要擴充訓練語料,併對模型選用的特徵集進行優化。
기우사위적통계분석방법식별병절분현대장어문본중적점사형식,기최대특점시감소료미등록사대식별효과적영향。수선근거장문자신적특점,장상용적사사위확충위륙사위,재이용조건수궤장모형작위표주건모공구래진행훈련화측시,병근거규칙대식별결과진행후처리。종실험결과래간,해방법유교고적식별정학솔,구유진일보연구적개치。하일보적개진수요확충훈련어료,병대모형선용적특정집진행우화。
The best feature of segmentation of Tibetan abbreviated forms based on word position is reducing the negative effects of unknown words. This article improves 4 word-position tag set to 6 word-position tag set to fit in with the charac-ters of Tibetan, uses CRF as tagging model to train and test corpus data, then builds a rule base to post process the result data. The experimental result shows that the method has a high recognition rate and deserves further study. The next steps are to expand the corpus and optimize the feature template.