计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2008年
14期
3709-3713
,共5页
文本聚类%K-均值算法%遗传算法%可变染色体长度编码%Reuters数据集
文本聚類%K-均值算法%遺傳算法%可變染色體長度編碼%Reuters數據集
문본취류%K-균치산법%유전산법%가변염색체장도편마%Reuters수거집
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺点,使用了一种基于可变染色体编码长度的遗传算法对传统K-均值聚类进行改进.该算法可以在事先不确定K值的情况下,通过多次的选择、交叉.变异的遗传操作,最终得到最优的聚类数,以及最优的初始质心集.通过Reuters数据集的实验结果表明,基于该算法的聚类划分结果明显优于传统K-均值聚类算法,并且好过基于固定染色体编码长度遗传算法的K-均值聚类算法.
針對傳統K-均值聚類算法需要事先確定聚類數,以及對初始質心的選擇具有敏感性,從而容易陷入跼部極值點的缺點,使用瞭一種基于可變染色體編碼長度的遺傳算法對傳統K-均值聚類進行改進.該算法可以在事先不確定K值的情況下,通過多次的選擇、交扠.變異的遺傳操作,最終得到最優的聚類數,以及最優的初始質心集.通過Reuters數據集的實驗結果錶明,基于該算法的聚類劃分結果明顯優于傳統K-均值聚類算法,併且好過基于固定染色體編碼長度遺傳算法的K-均值聚類算法.
침대전통K-균치취류산법수요사선학정취류수,이급대초시질심적선택구유민감성,종이용역함입국부겁치점적결점,사용료일충기우가변염색체편마장도적유전산법대전통K-균치취류진행개진.해산법가이재사선불학정K치적정황하,통과다차적선택、교차.변이적유전조작,최종득도최우적취류수,이급최우적초시질심집.통과Reuters수거집적실험결과표명,기우해산법적취류화분결과명현우우전통K-균치취류산법,병차호과기우고정염색체편마장도유전산법적K-균치취류산법.