计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2014年
2期
515-519
,共5页
文本聚类%频繁项集%知网%簇相似度%软划分
文本聚類%頻繁項集%知網%簇相似度%軟劃分
문본취류%빈번항집%지망%족상사도%연화분
text clustering%frequent term set%HowNet%cluster similarity%elastic classification
针对FTC文本聚类算法未考虑词语之间语义联系以及硬划分聚类的缺陷,提出了一种结合语义的改进FTC文本聚类算法SFTC.SFTC基于知网把文本的关键词集映射成概念集合,采用FP-Growth算法在概念层次上挖掘频繁项集并以此生成候选簇.考虑到文本具有多主题性,定义了簇间相似度度量公式,在生成结果簇的过程中通过判断相似度大小来决定簇间是否应该存在重叠,实现了文本聚类在一定程度上的软划分.实验结果表明,SFTC算法具有更高的聚类准确度和更高的运行效率.
針對FTC文本聚類算法未攷慮詞語之間語義聯繫以及硬劃分聚類的缺陷,提齣瞭一種結閤語義的改進FTC文本聚類算法SFTC.SFTC基于知網把文本的關鍵詞集映射成概唸集閤,採用FP-Growth算法在概唸層次上挖掘頻繁項集併以此生成候選簇.攷慮到文本具有多主題性,定義瞭簇間相似度度量公式,在生成結果簇的過程中通過判斷相似度大小來決定簇間是否應該存在重疊,實現瞭文本聚類在一定程度上的軟劃分.實驗結果錶明,SFTC算法具有更高的聚類準確度和更高的運行效率.
침대FTC문본취류산법미고필사어지간어의련계이급경화분취류적결함,제출료일충결합어의적개진FTC문본취류산법SFTC.SFTC기우지망파문본적관건사집영사성개념집합,채용FP-Growth산법재개념층차상알굴빈번항집병이차생성후선족.고필도문본구유다주제성,정의료족간상사도도량공식,재생성결과족적과정중통과판단상사도대소래결정족간시부응해존재중첩,실현료문본취류재일정정도상적연화분.실험결과표명,SFTC산법구유경고적취류준학도화경고적운행효솔.