情报学报
情報學報
정보학보
2014年
5期
530-537
,共8页
王旭仁%李娜%何发镁%王彦丽%宋蓓
王旭仁%李娜%何髮鎂%王彥麗%宋蓓
왕욱인%리나%하발미%왕언려%송배
互联网舆情%数据挖掘%关键词提取%文本聚类
互聯網輿情%數據挖掘%關鍵詞提取%文本聚類
호련망여정%수거알굴%관건사제취%문본취류
internet public opinion%data mining%keywords extraction%text clustering
针对互联网舆情挖掘领域的特点,提出了一种基于向量空间模型VSM的文本聚类算法STCC(Similarity Threshold Control Clustering Based VSM).该算法按照层次聚类从下至上凝聚的策略,获取初始簇信息,然后根据K-means算法的思想以设置的聚类相似度阈值作为度量来合并簇.该算法结合层次聚类和K-means算法的优点,克服其缺点.与层次聚类相比,每一次聚类时不需要比较所有簇之间的相似度,降低了时间复杂度,提高了聚类的效率;与K-means算法相比,不需要确定K值,灵活性更高.通过实验表明,该算法聚类效果好,实用性高,适合大规模的文本聚类.
針對互聯網輿情挖掘領域的特點,提齣瞭一種基于嚮量空間模型VSM的文本聚類算法STCC(Similarity Threshold Control Clustering Based VSM).該算法按照層次聚類從下至上凝聚的策略,穫取初始簇信息,然後根據K-means算法的思想以設置的聚類相似度閾值作為度量來閤併簇.該算法結閤層次聚類和K-means算法的優點,剋服其缺點.與層次聚類相比,每一次聚類時不需要比較所有簇之間的相似度,降低瞭時間複雜度,提高瞭聚類的效率;與K-means算法相比,不需要確定K值,靈活性更高.通過實驗錶明,該算法聚類效果好,實用性高,適閤大規模的文本聚類.
침대호련망여정알굴영역적특점,제출료일충기우향량공간모형VSM적문본취류산법STCC(Similarity Threshold Control Clustering Based VSM).해산법안조층차취류종하지상응취적책략,획취초시족신식,연후근거K-means산법적사상이설치적취류상사도역치작위도량래합병족.해산법결합층차취류화K-means산법적우점,극복기결점.여층차취류상비,매일차취류시불수요비교소유족지간적상사도,강저료시간복잡도,제고료취류적효솔;여K-means산법상비,불수요학정K치,령활성경고.통과실험표명,해산법취류효과호,실용성고,괄합대규모적문본취류.