计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2014年
12期
197-201
,共5页
王洁%于颜硕%周宽久%侯刚
王潔%于顏碩%週寬久%侯剛
왕길%우안석%주관구%후강
Web标签聚类%SOINN算法%MapReduce
Web標籤聚類%SOINN算法%MapReduce
Web표첨취류%SOINN산법%MapReduce
Web tag clustering%SOINN algorithm%MapReduce
Web标签有助于用户根据自己特定的兴趣完成信息资源的分类、组织和检索.然而,正是由于协同标记系统特有的公开性、自由化的特点,采用其对信息资源进行描述、组织、分类和检索,存在着信息描述不精确、标签组织混乱和标签语意模糊等问题.在此背景下提出了3种基于特征向量表示法(FVR)的Web标签SOINN聚类算法:基于资源的特征向量表示法、基于其他共现标签的特征向量表示法和基于全集共现标签的特征向量表示法.同时应用MapReduce框架将SOINN算法进行并行化.实验表明,当类中心数量超过2000时,3种分布式聚类FVR算法的召回率和准确度优于原始算法,可获得很好的加速比.从而证明此分布式聚类算法具有很好的可扩展性,可以用于更为海量的Web日志聚类分析系统.
Web標籤有助于用戶根據自己特定的興趣完成信息資源的分類、組織和檢索.然而,正是由于協同標記繫統特有的公開性、自由化的特點,採用其對信息資源進行描述、組織、分類和檢索,存在著信息描述不精確、標籤組織混亂和標籤語意模糊等問題.在此揹景下提齣瞭3種基于特徵嚮量錶示法(FVR)的Web標籤SOINN聚類算法:基于資源的特徵嚮量錶示法、基于其他共現標籤的特徵嚮量錶示法和基于全集共現標籤的特徵嚮量錶示法.同時應用MapReduce框架將SOINN算法進行併行化.實驗錶明,噹類中心數量超過2000時,3種分佈式聚類FVR算法的召迴率和準確度優于原始算法,可穫得很好的加速比.從而證明此分佈式聚類算法具有很好的可擴展性,可以用于更為海量的Web日誌聚類分析繫統.
Web표첨유조우용호근거자기특정적흥취완성신식자원적분류、조직화검색.연이,정시유우협동표기계통특유적공개성、자유화적특점,채용기대신식자원진행묘술、조직、분류화검색,존재착신식묘술불정학、표첨조직혼란화표첨어의모호등문제.재차배경하제출료3충기우특정향량표시법(FVR)적Web표첨SOINN취류산법:기우자원적특정향량표시법、기우기타공현표첨적특정향량표시법화기우전집공현표첨적특정향량표시법.동시응용MapReduce광가장SOINN산법진행병행화.실험표명,당류중심수량초과2000시,3충분포식취류FVR산법적소회솔화준학도우우원시산법,가획득흔호적가속비.종이증명차분포식취류산법구유흔호적가확전성,가이용우경위해량적Web일지취류분석계통.