电子科技大学学报
電子科技大學學報
전자과기대학학보
JOURNAL OF UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA
2013年
4期
621-624
,共4页
施侃晟%刘海涛%白英彩%宋文涛%洪亮亮
施侃晟%劉海濤%白英綵%宋文濤%洪亮亮
시간성%류해도%백영채%송문도%홍량량
遗传算法%适应度函数%K-均值算法%相似性度量%文本聚类
遺傳算法%適應度函數%K-均值算法%相似性度量%文本聚類
유전산법%괄응도함수%K-균치산법%상사성도량%문본취류
genetic algorithm%fitness function%K-means algorithm%similarity measurement%text clustering
K-均值算法因其简单和高效性,在文本聚类中占有重要地位。针对传统的K-均值算法对初始点敏感、易陷入局部最优的问题,结合遗传算法已经成为一种趋势。在充分发挥K-均值算法的高效性的同时,该文利用遗传算法的全局自适应优化特点克服了对初始点敏感的问题。同时,以余弦度量评价对象间的相似性并以此构造新的遗传算法适应度函数、收敛准则以及遗传算法种群更新方式,提高了K-均值和遗传算法这种结合方式的聚类精度,并增强了该结合算法的稳定性。
K-均值算法因其簡單和高效性,在文本聚類中佔有重要地位。針對傳統的K-均值算法對初始點敏感、易陷入跼部最優的問題,結閤遺傳算法已經成為一種趨勢。在充分髮揮K-均值算法的高效性的同時,該文利用遺傳算法的全跼自適應優化特點剋服瞭對初始點敏感的問題。同時,以餘絃度量評價對象間的相似性併以此構造新的遺傳算法適應度函數、收斂準則以及遺傳算法種群更新方式,提高瞭K-均值和遺傳算法這種結閤方式的聚類精度,併增彊瞭該結閤算法的穩定性。
K-균치산법인기간단화고효성,재문본취류중점유중요지위。침대전통적K-균치산법대초시점민감、역함입국부최우적문제,결합유전산법이경성위일충추세。재충분발휘K-균치산법적고효성적동시,해문이용유전산법적전국자괄응우화특점극복료대초시점민감적문제。동시,이여현도량평개대상간적상사성병이차구조신적유전산법괄응도함수、수렴준칙이급유전산법충군경신방식,제고료K-균치화유전산법저충결합방식적취류정도,병증강료해결합산법적은정성。
The traditional K-means algorithm is widely used because of its simplicity and efficiency. However, it is sensitive to the initial point and easy to fall into local optimum. In this paper, we use cosine measure to evaluate the similarity between objects and construct a new fitness function of genetic algorithm and the new convergence criterion for K-means algorithm. Experimental results show that the new method enhances the clustering accuracy and stability for the combination of K-means and genetic algorithm.