计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2014年
4期
223-227
,共5页
吴舜尧%邵峰晶%王金龙%孙仁诚%王营
吳舜堯%邵峰晶%王金龍%孫仁誠%王營
오순요%소봉정%왕금룡%손인성%왕영
文本聚类%Wikipedia语义%簇中心初始化%网络推断%重要文档
文本聚類%Wikipedia語義%簇中心初始化%網絡推斷%重要文檔
문본취류%Wikipedia어의%족중심초시화%망락추단%중요문당
document clustering%Wikipedia semantics%initialization of cluster center%network inference%important document
融合关键词形式的属性层知识可有效提高文本聚类的聚类质量,但融合关键词的簇中心初始化仍是一个开放性问题.为此,提出一种融合语义资源和关键词的文本聚类方法.通过Wikipedia语义识别文本集的主题,采用基于资源分配的网络推断策略,通过文献协同关系发现潜在语义相关性,以选择最能代表各主题的重要文档(初始簇中心),并利用软约束与测度学习相结合的策略融合关键词辅助文本聚类.在20Newsgourp文本集上的实验结果表明,与k-means和仅融合关键词的文本聚类方法相比,该方法可有效提升聚类质量,尤其在News_Different3数据集上标准互信息最多可提升约20%.
融閤關鍵詞形式的屬性層知識可有效提高文本聚類的聚類質量,但融閤關鍵詞的簇中心初始化仍是一箇開放性問題.為此,提齣一種融閤語義資源和關鍵詞的文本聚類方法.通過Wikipedia語義識彆文本集的主題,採用基于資源分配的網絡推斷策略,通過文獻協同關繫髮現潛在語義相關性,以選擇最能代錶各主題的重要文檔(初始簇中心),併利用軟約束與測度學習相結閤的策略融閤關鍵詞輔助文本聚類.在20Newsgourp文本集上的實驗結果錶明,與k-means和僅融閤關鍵詞的文本聚類方法相比,該方法可有效提升聚類質量,尤其在News_Different3數據集上標準互信息最多可提升約20%.
융합관건사형식적속성층지식가유효제고문본취류적취류질량,단융합관건사적족중심초시화잉시일개개방성문제.위차,제출일충융합어의자원화관건사적문본취류방법.통과Wikipedia어의식별문본집적주제,채용기우자원분배적망락추단책략,통과문헌협동관계발현잠재어의상관성,이선택최능대표각주제적중요문당(초시족중심),병이용연약속여측도학습상결합적책략융합관건사보조문본취류.재20Newsgourp문본집상적실험결과표명,여k-means화부융합관건사적문본취류방법상비,해방법가유효제승취류질량,우기재News_Different3수거집상표준호신식최다가제승약20%.