情报学报
情報學報
정보학보
2014年
5期
491-497
,共7页
降维%K-means%聚类算法
降維%K-means%聚類算法
강유%K-means%취류산법
dimension reduction%K-means%clustering algorithm
面向大规模专利文本数据的处理过程中,特征降维对于有效消除无关和冗余特征,并进一步提高学习任务的效率具有重要的作用.本文在专利数据聚类过程中,采用了基于信息熵进行特征选择,并利用潜在语义索引(LSI)的方法实现了特征降维.在利用降维技术基础上,将K-means算法与基于密度的DBSCAN算法相结合,改进了K-means算法初始聚类中心的选择方式,将其应用于专利文本聚类.t检验的实验结果表明,改进后的K-means算法的聚类结果性能显著提高.
麵嚮大規模專利文本數據的處理過程中,特徵降維對于有效消除無關和冗餘特徵,併進一步提高學習任務的效率具有重要的作用.本文在專利數據聚類過程中,採用瞭基于信息熵進行特徵選擇,併利用潛在語義索引(LSI)的方法實現瞭特徵降維.在利用降維技術基礎上,將K-means算法與基于密度的DBSCAN算法相結閤,改進瞭K-means算法初始聚類中心的選擇方式,將其應用于專利文本聚類.t檢驗的實驗結果錶明,改進後的K-means算法的聚類結果性能顯著提高.
면향대규모전리문본수거적처리과정중,특정강유대우유효소제무관화용여특정,병진일보제고학습임무적효솔구유중요적작용.본문재전리수거취류과정중,채용료기우신식적진행특정선택,병이용잠재어의색인(LSI)적방법실현료특정강유.재이용강유기술기출상,장K-means산법여기우밀도적DBSCAN산법상결합,개진료K-means산법초시취류중심적선택방식,장기응용우전리문본취류.t검험적실험결과표명,개진후적K-means산법적취류결과성능현저제고.