计算机学报
計算機學報
계산궤학보
CHINESE JOURNAL OF COMPUTERS
2007年
8期
1354-1363
,共10页
彭京%杨冬青%唐世渭%付艳%蒋汉奎
彭京%楊鼕青%唐世渭%付豔%蔣漢奎
팽경%양동청%당세위%부염%장한규
内积空间%文本聚类%概念相似度%相似计算%数据挖掘
內積空間%文本聚類%概唸相似度%相似計算%數據挖掘
내적공간%문본취류%개념상사도%상사계산%수거알굴
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好.
現有數據聚類方法在處理文本數據,尤其是短文本數據時,由于沒有攷慮詞之間潛在存在的相似情況,因此導緻聚類效果不理想.文中針對文本數據高維度和稀疏空間的特點,提齣瞭一種基于語義內積空間模型的文本聚類算法.算法首先利用內積空間的定義建立瞭針對中文概唸、詞和文本的相似度度量方法,然後從理論上進行瞭分析.最後通過一箇兩階段處理過程,即嚮下分裂和嚮上聚閤,完成文本數據的聚類.該方法成功用于中文短文本數據的聚類.實驗錶明相對于傳統方法,文中提供的方法聚類質量更好.
현유수거취류방법재처리문본수거,우기시단문본수거시,유우몰유고필사지간잠재존재적상사정황,인차도치취류효과불이상.문중침대문본수거고유도화희소공간적특점,제출료일충기우어의내적공간모형적문본취류산법.산법수선이용내적공간적정의건립료침대중문개념、사화문본적상사도도량방법,연후종이론상진행료분석.최후통과일개량계단처리과정,즉향하분렬화향상취합,완성문본수거적취류.해방법성공용우중문단문본수거적취류.실험표명상대우전통방법,문중제공적방법취류질량경호.