中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2012年
1期
97-103
,共7页
刘汇丹%诺明花%赵维纳%吴健%贺也平
劉彙丹%諾明花%趙維納%吳健%賀也平
류회단%낙명화%조유납%오건%하야평
藏文分词%格助词%临界词识别%词频统计%藏文信息处理%中文信息处理
藏文分詞%格助詞%臨界詞識彆%詞頻統計%藏文信息處理%中文信息處理
장문분사%격조사%림계사식별%사빈통계%장문신식처리%중문신식처리
在分析现有藏文分词方法的基础上,该文重点研究了葳文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法.应用这些方法,设计实现了一个藏文分词系统SegT.该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别.系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧.实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低.系统最终分词正确率为96.98%,基本达到了实用的水平.
在分析現有藏文分詞方法的基礎上,該文重點研究瞭葳文分詞中的格助詞分塊、臨界詞識彆、詞頻統計、交集型歧義檢測和消歧等問題併提齣瞭相應的方法.應用這些方法,設計實現瞭一箇藏文分詞繫統SegT.該繫統採用格助詞分塊併識彆臨界詞,然後採用最大匹配方法分詞,併進行緊縮詞識彆.繫統採用雙嚮切分檢測交集型歧義字段併使用預先統計的詞頻信息進行消歧.實驗結果錶明,該文設計的格助詞分塊和臨界詞識彆方法可以將分詞速度提高15%左右,但格助詞分塊對分詞效果沒有明顯提高或降低.繫統最終分詞正確率為96.98%,基本達到瞭實用的水平.
재분석현유장문분사방법적기출상,해문중점연구료위문분사중적격조사분괴、림계사식별、사빈통계、교집형기의검측화소기등문제병제출료상응적방법.응용저사방법,설계실현료일개장문분사계통SegT.해계통채용격조사분괴병식별림계사,연후채용최대필배방법분사,병진행긴축사식별.계통채용쌍향절분검측교집형기의자단병사용예선통계적사빈신식진행소기.실험결과표명,해문설계적격조사분괴화림계사식별방법가이장분사속도제고15%좌우,단격조사분괴대분사효과몰유명현제고혹강저.계통최종분사정학솔위96.98%,기본체도료실용적수평.