中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2015年
2期
125-132
,共8页
藏文停用词%词频统计%文档频数%熵
藏文停用詞%詞頻統計%文檔頻數%熵
장문정용사%사빈통계%문당빈수%적
Tibetan stop word%TF%DF%entropy
停用词的处理是文本挖掘中一个关键的预处理步骤.该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结合的藏文停用词选取方法.实验结果表明,该方法可以确定一个较合理的藏文停用词袁.
停用詞的處理是文本挖掘中一箇關鍵的預處理步驟.該文結閤現有停用詞的處理技術,研究瞭基于統計的藏文停用詞選取方法,通過實驗分析瞭詞項頻率、文檔頻率、熵等方法的藏文停用詞選用情況,提齣瞭藏文虛詞、特殊動詞和自動處理方法相結閤的藏文停用詞選取方法.實驗結果錶明,該方法可以確定一箇較閤理的藏文停用詞袁.
정용사적처리시문본알굴중일개관건적예처리보취.해문결합현유정용사적처리기술,연구료기우통계적장문정용사선취방법,통과실험분석료사항빈솔、문당빈솔、적등방법적장문정용사선용정황,제출료장문허사、특수동사화자동처리방법상결합적장문정용사선취방법.실험결과표명,해방법가이학정일개교합리적장문정용사원.