科技通报
科技通報
과기통보
BULLETIN OF SCIENCE AND TECHNOLOGY
2012年
7期
148-151
,共4页
文本主题匹配%平衡优化%潜在语义索引
文本主題匹配%平衡優化%潛在語義索引
문본주제필배%평형우화%잠재어의색인
研究文本快速准确分类的问题.同一词语在不同的语言环境下或者由不同的人使用可能代表不同的含义,这些词语在文本分类中的描述特征却极为相似.传统的文本分类方法是将文本表示成向量空间模型,向量空间模型只是从词语的出现频率角度构造,当文中出现一些多义词和同义词时就会出现分类延时明显准确性不高等特点.为此提出一种基于语义索引的文本主题匹配方法.将文本进行关键词的抽取后构造文档-词语矩阵,SVD分解后通过优化平衡的方法进行矩阵降维与相似度的计算,克服传统方法的弊端.实践证明,这种方法能大幅度降低同义词与多义词对文本分类时的影响,使文本按主题匹配分类时准确高效,实验效果明显提高.
研究文本快速準確分類的問題.同一詞語在不同的語言環境下或者由不同的人使用可能代錶不同的含義,這些詞語在文本分類中的描述特徵卻極為相似.傳統的文本分類方法是將文本錶示成嚮量空間模型,嚮量空間模型隻是從詞語的齣現頻率角度構造,噹文中齣現一些多義詞和同義詞時就會齣現分類延時明顯準確性不高等特點.為此提齣一種基于語義索引的文本主題匹配方法.將文本進行關鍵詞的抽取後構造文檔-詞語矩陣,SVD分解後通過優化平衡的方法進行矩陣降維與相似度的計算,剋服傳統方法的弊耑.實踐證明,這種方法能大幅度降低同義詞與多義詞對文本分類時的影響,使文本按主題匹配分類時準確高效,實驗效果明顯提高.
연구문본쾌속준학분류적문제.동일사어재불동적어언배경하혹자유불동적인사용가능대표불동적함의,저사사어재문본분류중적묘술특정각겁위상사.전통적문본분류방법시장문본표시성향량공간모형,향량공간모형지시종사어적출현빈솔각도구조,당문중출현일사다의사화동의사시취회출현분류연시명현준학성불고등특점.위차제출일충기우어의색인적문본주제필배방법.장문본진행관건사적추취후구조문당-사어구진,SVD분해후통과우화평형적방법진행구진강유여상사도적계산,극복전통방법적폐단.실천증명,저충방법능대폭도강저동의사여다의사대문본분류시적영향,사문본안주제필배분류시준학고효,실험효과명현제고.