计算机与现代化
計算機與現代化
계산궤여현대화
COMPUTER AND MODERNIZATION
2014年
7期
24-27
,共4页
文本聚类%潜在语义索引%自组织映射
文本聚類%潛在語義索引%自組織映射
문본취류%잠재어의색인%자조직영사
text clustering%latent semantic index%self-organizing maps
提出一种改进的基于潜在语义索引的文本聚类算法。算法引入潜在语义索引理论,改进传统的SOM算法。用潜在语义索引理论表示文本特征向量,挖掘文本中词与词之间隐藏的语义结构关系,从而消除词语之间的相关性,实现特征向量的降维。改进传统的SOM算法的局限性,准确给出聚类类别数目的值。实验结果表明,本算法的聚类效果更好,聚类时间更少。
提齣一種改進的基于潛在語義索引的文本聚類算法。算法引入潛在語義索引理論,改進傳統的SOM算法。用潛在語義索引理論錶示文本特徵嚮量,挖掘文本中詞與詞之間隱藏的語義結構關繫,從而消除詞語之間的相關性,實現特徵嚮量的降維。改進傳統的SOM算法的跼限性,準確給齣聚類類彆數目的值。實驗結果錶明,本算法的聚類效果更好,聚類時間更少。
제출일충개진적기우잠재어의색인적문본취류산법。산법인입잠재어의색인이론,개진전통적SOM산법。용잠재어의색인이론표시문본특정향량,알굴문본중사여사지간은장적어의결구관계,종이소제사어지간적상관성,실현특정향량적강유。개진전통적SOM산법적국한성,준학급출취류유별수목적치。실험결과표명,본산법적취류효과경호,취류시간경소。
This paper presents an improved text clustering algorithm based on latent semantic indexing .This algorithm introduces the theory of latent semantic index , improves the traditional SOM algorithm .By using the latent semantic indexing text feature vector representation theory , we mine the semantic structure relationships hidden among the words in text , thereby eliminating the correlation among words , to reduce the feature vector dimension .The limitations of the traditional SOM algorithm are improved to accurately give the number of clustering classes .Experimental results show that the clustering effect of this algorithm is better , and the clustering time is less .