计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2004年
35期
139-141,204
,共4页
文本聚类%层次聚类%K-均值%机器学习%计算复杂度
文本聚類%層次聚類%K-均值%機器學習%計算複雜度
문본취류%층차취류%K-균치%궤기학습%계산복잡도
文章研究分级聚类与平面划分结合方法在网页分类中的应用.阐述了网页分类问题中样本特征分布的特点和复杂性,分级聚类能够生成层次化的嵌套类,且具有较高的准确度,但具有较高的计算复杂度,不适合计算大量样本的计算问题.K-均值算法受初始聚类中心的选择影响较大,对于不规则分布的样本往往聚类的效果不佳.文章考虑利用少数样本和分级聚类算法进行样本集合的初始聚类中心的划分,再利用K-均值算法对整个样本集合做聚类,则既可以避免分级聚类算法的计算复杂又可充分利用K-均值算法的快速特点;另一方面则利用了分级聚类算法准确度高为确定初始聚类中心提供了可靠的方法.文中给出了纯K-均值方法、分级聚类与平面划分结合方法在解决文本分类问题上的实验结果.
文章研究分級聚類與平麵劃分結閤方法在網頁分類中的應用.闡述瞭網頁分類問題中樣本特徵分佈的特點和複雜性,分級聚類能夠生成層次化的嵌套類,且具有較高的準確度,但具有較高的計算複雜度,不適閤計算大量樣本的計算問題.K-均值算法受初始聚類中心的選擇影響較大,對于不規則分佈的樣本往往聚類的效果不佳.文章攷慮利用少數樣本和分級聚類算法進行樣本集閤的初始聚類中心的劃分,再利用K-均值算法對整箇樣本集閤做聚類,則既可以避免分級聚類算法的計算複雜又可充分利用K-均值算法的快速特點;另一方麵則利用瞭分級聚類算法準確度高為確定初始聚類中心提供瞭可靠的方法.文中給齣瞭純K-均值方法、分級聚類與平麵劃分結閤方法在解決文本分類問題上的實驗結果.
문장연구분급취류여평면화분결합방법재망혈분류중적응용.천술료망혈분류문제중양본특정분포적특점화복잡성,분급취류능구생성층차화적감투류,차구유교고적준학도,단구유교고적계산복잡도,불괄합계산대량양본적계산문제.K-균치산법수초시취류중심적선택영향교대,대우불규칙분포적양본왕왕취류적효과불가.문장고필이용소수양본화분급취류산법진행양본집합적초시취류중심적화분,재이용K-균치산법대정개양본집합주취류,칙기가이피면분급취류산법적계산복잡우가충분이용K-균치산법적쾌속특점;령일방면칙이용료분급취류산법준학도고위학정초시취류중심제공료가고적방법.문중급출료순K-균치방법、분급취류여평면화분결합방법재해결문본분류문제상적실험결과.