软件学报
軟件學報
연건학보
JOURNAL OF SOFTWARE
2010年
11期
2802-2813
,共12页
曾依灵%许洪波%吴高巍%白硕
曾依靈%許洪波%吳高巍%白碩
증의령%허홍파%오고외%백석
CADIC(clustering algorithm based on the distributions of intrinsic clusters)%文本聚类%模型不匹配%重标度%信息检索
CADIC(clustering algorithm based on the distributions of intrinsic clusters)%文本聚類%模型不匹配%重標度%信息檢索
CADIC(clustering algorithm based on the distributions of intrinsic clusters)%문본취류%모형불필배%중표도%신식검색
为寻求模型不匹配问题的一种恰当的解决途径,提出了基于语料分布特性的CADIC(clustering algorithm based on the distributions of intrinsic clusters)聚类算法.CADIC以重标度的形式隐式地将语料特性融入算法框架,从而使算法模型具备更灵活的适应能力.在聚类过程中,CADIC选择一组具有良好区分度的方向构建CADIC坐标系,在该坐标系下统计固有簇的分布特性,以构造各个坐标轴的重标度函数,并以重标度的形式对语料分布进行隐式的归一化,从而提高聚类决策的有效性.CADIC以迭代的方式收敛到最终解,其时间复杂度与K-means保持在同一量级.在国际知名评测语料上的实验结果表明,CADIC算法的基本框架是合理的,其聚类性能与当前领先水平的聚类算法相当.
為尋求模型不匹配問題的一種恰噹的解決途徑,提齣瞭基于語料分佈特性的CADIC(clustering algorithm based on the distributions of intrinsic clusters)聚類算法.CADIC以重標度的形式隱式地將語料特性融入算法框架,從而使算法模型具備更靈活的適應能力.在聚類過程中,CADIC選擇一組具有良好區分度的方嚮構建CADIC坐標繫,在該坐標繫下統計固有簇的分佈特性,以構造各箇坐標軸的重標度函數,併以重標度的形式對語料分佈進行隱式的歸一化,從而提高聚類決策的有效性.CADIC以迭代的方式收斂到最終解,其時間複雜度與K-means保持在同一量級.在國際知名評測語料上的實驗結果錶明,CADIC算法的基本框架是閤理的,其聚類性能與噹前領先水平的聚類算法相噹.
위심구모형불필배문제적일충흡당적해결도경,제출료기우어료분포특성적CADIC(clustering algorithm based on the distributions of intrinsic clusters)취류산법.CADIC이중표도적형식은식지장어료특성융입산법광가,종이사산법모형구비경령활적괄응능력.재취류과정중,CADIC선택일조구유량호구분도적방향구건CADIC좌표계,재해좌표계하통계고유족적분포특성,이구조각개좌표축적중표도함수,병이중표도적형식대어료분포진행은식적귀일화,종이제고취류결책적유효성.CADIC이질대적방식수렴도최종해,기시간복잡도여K-means보지재동일량급.재국제지명평측어료상적실험결과표명,CADIC산법적기본광가시합리적,기취류성능여당전령선수평적취류산법상당.