计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2010年
5期
796-803
,共8页
盛振华%吴羽%江锦华%寿黎但%陈刚
盛振華%吳羽%江錦華%壽黎但%陳剛
성진화%오우%강금화%수려단%진강
Web对象%词频序TFS%信息分布集中度%相似度直方图%记录簇
Web對象%詞頻序TFS%信息分佈集中度%相似度直方圖%記錄簇
Web대상%사빈서TFS%신식분포집중도%상사도직방도%기록족
面向Web对象的细粒度聚类已经成为学术界研究的热点.然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,充分挖掘Web文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对Web对象的细粒度聚类.算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录间的相似度,减少噪音对合并过程的影响.实验结果表明,InfoSigs算法比传统聚类算法-I-Match和Shingling-在F-Measure值上平均约有21.3%的提高,可以有效地运用到多领域Web对象的聚类问题.
麵嚮Web對象的細粒度聚類已經成為學術界研究的熱點.然而現有大多數聚類模型隻關註如何對文本內容或文章主題進行聚類,聚類結果粒度較粗,無法滿足大規模網絡信息檢索的質量要求.針對上述挑戰,充分挖掘Web文檔中詞彙間的樹狀概率層次關繫,提齣一種以詞彙信息分佈作為特徵標誌的聚類算法InfoSigs,實現對Web對象的細粒度聚類.算法構建一箇信息傳遞有嚮無環圖,根據詞彙在圖中信息分佈的集中度賦予其閤理的權重,產生更具代錶性的特徵嚮量;同時算法提齣瞭一箇自適應的記錄閤併模型,有效提高記錄簇中記錄間的相似度,減少譟音對閤併過程的影響.實驗結果錶明,InfoSigs算法比傳統聚類算法-I-Match和Shingling-在F-Measure值上平均約有21.3%的提高,可以有效地運用到多領域Web對象的聚類問題.
면향Web대상적세립도취류이경성위학술계연구적열점.연이현유대다수취류모형지관주여하대문본내용혹문장주제진행취류,취류결과립도교조,무법만족대규모망락신식검색적질량요구.침대상술도전,충분알굴Web문당중사회간적수상개솔층차관계,제출일충이사회신식분포작위특정표지적취류산법InfoSigs,실현대Web대상적세립도취류.산법구건일개신식전체유향무배도,근거사회재도중신식분포적집중도부여기합리적권중,산생경구대표성적특정향량;동시산법제출료일개자괄응적기록합병모형,유효제고기록족중기록간적상사도,감소조음대합병과정적영향.실험결과표명,InfoSigs산법비전통취류산법-I-Match화Shingling-재F-Measure치상평균약유21.3%적제고,가이유효지운용도다영역Web대상적취류문제.