计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2010年
9期
2002-2004,2088
,共4页
网页目录%文本聚类%特征向量%层次聚类%增量聚类
網頁目錄%文本聚類%特徵嚮量%層次聚類%增量聚類
망혈목록%문본취류%특정향량%층차취류%증량취류
web directory%text clustering%feature vector%hierarchical clustering%incremental clustering
为了提高网页目录的构建效率、增加其灵活性,提出了一种改进的文本聚类算法.改进的CBC算法用于快速确定文本的聚类中心,根据网页目录的特点,该算法增加了层次聚类方法,以形成文本类别的层次结构,考虑到网页文本的快速增长,采用增量方式对新网页进行聚类.把该算法应用于网页文本集,产生了有意义的聚类结果,对比K-Means算法,获得了更高的精度,并具有较高的时间性能,实验结果表明了该算法的有效性.
為瞭提高網頁目錄的構建效率、增加其靈活性,提齣瞭一種改進的文本聚類算法.改進的CBC算法用于快速確定文本的聚類中心,根據網頁目錄的特點,該算法增加瞭層次聚類方法,以形成文本類彆的層次結構,攷慮到網頁文本的快速增長,採用增量方式對新網頁進行聚類.把該算法應用于網頁文本集,產生瞭有意義的聚類結果,對比K-Means算法,穫得瞭更高的精度,併具有較高的時間性能,實驗結果錶明瞭該算法的有效性.
위료제고망혈목록적구건효솔、증가기령활성,제출료일충개진적문본취류산법.개진적CBC산법용우쾌속학정문본적취류중심,근거망혈목록적특점,해산법증가료층차취류방법,이형성문본유별적층차결구,고필도망혈문본적쾌속증장,채용증량방식대신망혈진행취류.파해산법응용우망혈문본집,산생료유의의적취류결과,대비K-Means산법,획득료경고적정도,병구유교고적시간성능,실험결과표명료해산법적유효성.
To improve the efficiency of constructing web directories and enhance its flexibility,an improved text clustering algorithm is proposed.The improved CBC algorithm is employed to identify the cluster center quickly.According to the characteristic of web directories,hierarchical clustering is used to form the hierarchy of text clusters.Considering the fast growth of web text,incremental clustering is used to cluster the new web text.The proposed method is applied to a set of web text,it generates valid clusters.Compared to K-Means,it acquires beaer accuracy.It also has high time performance.The feasibility of this algorithm is validated by experiments.