计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2013年
7期
164-168
,共5页
白秋产%金春霞%章慧%周海岩
白鞦產%金春霞%章慧%週海巖
백추산%금춘하%장혜%주해암
词共现%关联规则%数据挖掘%层次聚类
詞共現%關聯規則%數據挖掘%層次聚類
사공현%관련규칙%수거알굴%층차취류
word co-occurrence%relation rules%data mining%hierarchical clustering
文本主题是文本聚类的关键,而文档中共现词对对文档主题的表现力非常强.因此,在对现有文本主题挖掘和共现词对抽取算法深入研究的基础上,提出了一种基于关联规则词共现的文本主题聚类算法(TCABARWC),即首先采用关联规则挖掘算法抽取文档共现词对,利用词共现提取文本主题信息,然后根据共现词对建模并实现共现词对相似度量,最后结合层次聚类算法实现文本聚类.实验结果表明,相比其他聚类算法,基于关联规则共现词对的层次聚类算法,大大降低了文本向量的维度以及算法复杂度,在聚类效率和准确性上都有显著提高,并获得了较好的聚类效果.
文本主題是文本聚類的關鍵,而文檔中共現詞對對文檔主題的錶現力非常彊.因此,在對現有文本主題挖掘和共現詞對抽取算法深入研究的基礎上,提齣瞭一種基于關聯規則詞共現的文本主題聚類算法(TCABARWC),即首先採用關聯規則挖掘算法抽取文檔共現詞對,利用詞共現提取文本主題信息,然後根據共現詞對建模併實現共現詞對相似度量,最後結閤層次聚類算法實現文本聚類.實驗結果錶明,相比其他聚類算法,基于關聯規則共現詞對的層次聚類算法,大大降低瞭文本嚮量的維度以及算法複雜度,在聚類效率和準確性上都有顯著提高,併穫得瞭較好的聚類效果.
문본주제시문본취류적관건,이문당중공현사대대문당주제적표현력비상강.인차,재대현유문본주제알굴화공현사대추취산법심입연구적기출상,제출료일충기우관련규칙사공현적문본주제취류산법(TCABARWC),즉수선채용관련규칙알굴산법추취문당공현사대,이용사공현제취문본주제신식,연후근거공현사대건모병실현공현사대상사도량,최후결합층차취류산법실현문본취류.실험결과표명,상비기타취류산법,기우관련규칙공현사대적층차취류산법,대대강저료문본향량적유도이급산법복잡도,재취류효솔화준학성상도유현저제고,병획득료교호적취류효과.