科学技术与工程
科學技術與工程
과학기술여공정
SCIENCE TECHNOLOGY AND ENGINEERING
2010年
30期
7550-7553
,共4页
复杂网络%Newman快速算法%文本聚类%概念格
複雜網絡%Newman快速算法%文本聚類%概唸格
복잡망락%Newman쾌속산법%문본취류%개념격
针对文本聚类计算量大的特点,提出了一种将概念格和Newman快速算法两种理论相结合的聚类方法.首先将文本表示为特征词语集,用统计方法抽取特征向量;同时,用IDF权重计算公式来计算词语的权重,并将词语权值离散化;然后,用形式背景表达关键词:,通过相似度公式,计算出形式概念相似度大小;最后,构造Newman网络,根据Newman网络算法规则对待聚类文本进行聚类.实例表明,该算法不仅得到了正确的分类结果,而且大大降低了算法的复杂度,Newman快速算法仅为O((m+n)n).
針對文本聚類計算量大的特點,提齣瞭一種將概唸格和Newman快速算法兩種理論相結閤的聚類方法.首先將文本錶示為特徵詞語集,用統計方法抽取特徵嚮量;同時,用IDF權重計算公式來計算詞語的權重,併將詞語權值離散化;然後,用形式揹景錶達關鍵詞:,通過相似度公式,計算齣形式概唸相似度大小;最後,構造Newman網絡,根據Newman網絡算法規則對待聚類文本進行聚類.實例錶明,該算法不僅得到瞭正確的分類結果,而且大大降低瞭算法的複雜度,Newman快速算法僅為O((m+n)n).
침대문본취류계산량대적특점,제출료일충장개념격화Newman쾌속산법량충이론상결합적취류방법.수선장문본표시위특정사어집,용통계방법추취특정향량;동시,용IDF권중계산공식래계산사어적권중,병장사어권치리산화;연후,용형식배경표체관건사:,통과상사도공식,계산출형식개념상사도대소;최후,구조Newman망락,근거Newman망락산법규칙대대취류문본진행취류.실례표명,해산법불부득도료정학적분류결과,이차대대강저료산법적복잡도,Newman쾌속산법부위O((m+n)n).