计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2014年
6期
185-189
,共5页
藏文信息处理%改进卡方统计量%文本表示%自动断句%向量空间模型
藏文信息處理%改進卡方統計量%文本錶示%自動斷句%嚮量空間模型
장문신식처리%개진잡방통계량%문본표시%자동단구%향량공간모형
Tibetan information processing%improved Chi-squared statistic%document representation%auto sentence segmentation%Vector Space Model(VSM)
藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提.传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失.为此,结合向量空间模型,提出一种新的藏文文本表示方法.提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度.实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本.
藏文文本錶示是將非結構化的藏文文本轉換為計算機能夠處理的數據形式,是藏文文本分類、文本聚類等領域特徵抽取的前提.傳統的藏文文本錶示方法較少攷慮特徵項之間的關聯度,容易造成語義損失.為此,結閤嚮量空間模型,提齣一種新的藏文文本錶示方法.提取文本中詞頻統計TF-IDF值較高的部分詞項作為對比詞項,對藏文文本進行斷句處理,以每箇句子作為一箇語境主題,利用卡方統計量計算文本中詞項與對比詞項的關聯程度.實驗結果錶明,與傳統的嚮量空間模型相比,該方法能更準確地錶示藏文文本.
장문문본표시시장비결구화적장문문본전환위계산궤능구처리적수거형식,시장문문본분류、문본취류등영역특정추취적전제.전통적장문문본표시방법교소고필특정항지간적관련도,용역조성어의손실.위차,결합향량공간모형,제출일충신적장문문본표시방법.제취문본중사빈통계TF-IDF치교고적부분사항작위대비사항,대장문문본진행단구처리,이매개구자작위일개어경주제,이용잡방통계량계산문본중사항여대비사항적관련정도.실험결과표명,여전통적향량공간모형상비,해방법능경준학지표시장문문본.