计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2008年
3期
198-201
,共4页
蔡东风%王智超%季铎%张桂平
蔡東風%王智超%季鐸%張桂平
채동풍%왕지초%계탁%장계평
距离计算%文本表示%多向量%文本聚类
距離計算%文本錶示%多嚮量%文本聚類
거리계산%문본표시%다향량%문본취류
文本聚类是自然语言处理中的一项重要研究课题,主要应用于信息检索和Web挖掘等领域.其中的关键是文本的表示和聚类算法.在层次聚类的基础上,提出了一种新的基于边界距离的层次聚类算法,该方法通过选择两个类间边缘样本点的距离作为类间距离,有效地利用类的边界信息,提高类间距离计算的准确性.综合考虑不同词性特征对文本的贡献,采用多向量模型对文本进行表示.不同文本集上的实验表明,基于边界距离的多向量文本聚类算法取得了较好的性能.
文本聚類是自然語言處理中的一項重要研究課題,主要應用于信息檢索和Web挖掘等領域.其中的關鍵是文本的錶示和聚類算法.在層次聚類的基礎上,提齣瞭一種新的基于邊界距離的層次聚類算法,該方法通過選擇兩箇類間邊緣樣本點的距離作為類間距離,有效地利用類的邊界信息,提高類間距離計算的準確性.綜閤攷慮不同詞性特徵對文本的貢獻,採用多嚮量模型對文本進行錶示.不同文本集上的實驗錶明,基于邊界距離的多嚮量文本聚類算法取得瞭較好的性能.
문본취류시자연어언처리중적일항중요연구과제,주요응용우신식검색화Web알굴등영역.기중적관건시문본적표시화취류산법.재층차취류적기출상,제출료일충신적기우변계거리적층차취류산법,해방법통과선택량개류간변연양본점적거리작위류간거리,유효지이용류적변계신식,제고류간거리계산적준학성.종합고필불동사성특정대문본적공헌,채용다향량모형대문본진행표시.불동문본집상적실험표명,기우변계거리적다향량문본취류산법취득료교호적성능.