计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2010年
3期
917-918
,共2页
熊忠阳%暴自强%李智星%张玉芳
熊忠暘%暴自彊%李智星%張玉芳
웅충양%폭자강%리지성%장옥방
文本聚类%潜在语义分析%奇异值分解%谱聚类
文本聚類%潛在語義分析%奇異值分解%譜聚類
문본취류%잠재어의분석%기이치분해%보취류
text clustering%LSA%SVD%spectral cluster
传统的文本谱聚类需要的文本相似矩阵依赖于向量空间模型,忽略了词与词之间的语义关系,存在词频维数过高、计算代价高等问题.针对这些问题,提出了一种基于潜在语义分析(latent semantic analysis,LSA)的文本相似矩阵构造方法,利用奇异值分解(singular value decomposition,SVD)降维,在低维的语义空间表示文本,以此来提高同类文本间的语义相似度,并进行了相关对比实验.在该实验中,改进方法的聚类效果要好于传统的方法,从而验证了改进方法的有效性和可行性.
傳統的文本譜聚類需要的文本相似矩陣依賴于嚮量空間模型,忽略瞭詞與詞之間的語義關繫,存在詞頻維數過高、計算代價高等問題.針對這些問題,提齣瞭一種基于潛在語義分析(latent semantic analysis,LSA)的文本相似矩陣構造方法,利用奇異值分解(singular value decomposition,SVD)降維,在低維的語義空間錶示文本,以此來提高同類文本間的語義相似度,併進行瞭相關對比實驗.在該實驗中,改進方法的聚類效果要好于傳統的方法,從而驗證瞭改進方法的有效性和可行性.
전통적문본보취류수요적문본상사구진의뢰우향량공간모형,홀략료사여사지간적어의관계,존재사빈유수과고、계산대개고등문제.침대저사문제,제출료일충기우잠재어의분석(latent semantic analysis,LSA)적문본상사구진구조방법,이용기이치분해(singular value decomposition,SVD)강유,재저유적어의공간표시문본,이차래제고동류문본간적어의상사도,병진행료상관대비실험.재해실험중,개진방법적취류효과요호우전통적방법,종이험증료개진방법적유효성화가행성.