信息与控制
信息與控製
신식여공제
INFORMATION AND CONTROL
2006年
5期
657-661
,共5页
硬聚类%软聚类%EM算法%文本聚类优化模型(TCOM)
硬聚類%軟聚類%EM算法%文本聚類優化模型(TCOM)
경취류%연취류%EM산법%문본취류우화모형(TCOM)
针对现有的文本聚类算法难以取得满意结果的问题,以EM算法为基础,提出能分别描述相似、不相似聚类对的相似性分布以及重要、不重要文档的重要性分布的文本聚类优化模型(text clustering optimization model,TCOM).基于该模型,设计一种通过合并不同的文本聚类结果以获取最优性能的方法.实验结果表明,利用该方法同时改善了聚类精度和召回率,其性能优于单独使用现有的硬、软聚类算法.
針對現有的文本聚類算法難以取得滿意結果的問題,以EM算法為基礎,提齣能分彆描述相似、不相似聚類對的相似性分佈以及重要、不重要文檔的重要性分佈的文本聚類優化模型(text clustering optimization model,TCOM).基于該模型,設計一種通過閤併不同的文本聚類結果以穫取最優性能的方法.實驗結果錶明,利用該方法同時改善瞭聚類精度和召迴率,其性能優于單獨使用現有的硬、軟聚類算法.
침대현유적문본취류산법난이취득만의결과적문제,이EM산법위기출,제출능분별묘술상사、불상사취류대적상사성분포이급중요、불중요문당적중요성분포적문본취류우화모형(text clustering optimization model,TCOM).기우해모형,설계일충통과합병불동적문본취류결과이획취최우성능적방법.실험결과표명,이용해방법동시개선료취류정도화소회솔,기성능우우단독사용현유적경、연취류산법.