西安交通大学学报
西安交通大學學報
서안교통대학학보
JOURNAL OF XI'AN JIAOTONG UNIVERSITY
2007年
4期
398-401,411
,共5页
语义序列%增量式聚类%软聚类%文本聚类
語義序列%增量式聚類%軟聚類%文本聚類
어의서렬%증량식취류%연취류%문본취류
针对传统文本聚类算法时间复杂度较高,而与距离无关的算法又不适用于动态、变化的文本集等问题,提出了一种基于语义序列的增量式文本软聚类算法.该算法考虑了长文本的多主题特性,并利用语义序列相似关系计算相似语义序列集合的覆盖度,同时将每次选择的具有最小熵重叠值的候选类作为一个结果聚类,这样在整个聚类的过程中大大减小了文本向量空间的维数,缩短了计算时间.由于所提算法的语义序列只与文本自身相关,所以它适用于增量式聚类.实验结果表明,算法的聚类精度高于同条件下的其他聚类算法,尤其适合于长文本集的软聚类.
針對傳統文本聚類算法時間複雜度較高,而與距離無關的算法又不適用于動態、變化的文本集等問題,提齣瞭一種基于語義序列的增量式文本軟聚類算法.該算法攷慮瞭長文本的多主題特性,併利用語義序列相似關繫計算相似語義序列集閤的覆蓋度,同時將每次選擇的具有最小熵重疊值的候選類作為一箇結果聚類,這樣在整箇聚類的過程中大大減小瞭文本嚮量空間的維數,縮短瞭計算時間.由于所提算法的語義序列隻與文本自身相關,所以它適用于增量式聚類.實驗結果錶明,算法的聚類精度高于同條件下的其他聚類算法,尤其適閤于長文本集的軟聚類.
침대전통문본취류산법시간복잡도교고,이여거리무관적산법우불괄용우동태、변화적문본집등문제,제출료일충기우어의서렬적증량식문본연취류산법.해산법고필료장문본적다주제특성,병이용어의서렬상사관계계산상사어의서렬집합적복개도,동시장매차선택적구유최소적중첩치적후선류작위일개결과취류,저양재정개취류적과정중대대감소료문본향량공간적유수,축단료계산시간.유우소제산법적어의서렬지여문본자신상관,소이타괄용우증량식취류.실험결과표명,산법적취류정도고우동조건하적기타취류산법,우기괄합우장문본집적연취류.