软件导刊
軟件導刊
연건도간
SOFT WARE GUIDE
2014年
10期
53-55
,共3页
施磊磊%施化吉%宋玉平%束长波
施磊磊%施化吉%宋玉平%束長波
시뢰뢰%시화길%송옥평%속장파
Hadoop集群%MapReduce%Nutch%HBase
Hadoop集群%MapReduce%Nutch%HBase
Hadoop집군%MapReduce%Nutch%HBase
针对Nutch网页排序算法和中文分词的不足以及单机运行的效率问题,在Nutch综合网页排序中添加用户点击率、网页发布时间以及主题内容相关度3个影响因子,同时添加JE中文分词器,最后利用基于 HDFS的 HBase技术使Nutch能够实时高效地索引和检索海量数据。通过对实验结果数据的分析发现,Nutch的爬取和索引效率提高了7.93%,用户检索效率与查询准确度分别提高了11.11%与19.51%。
針對Nutch網頁排序算法和中文分詞的不足以及單機運行的效率問題,在Nutch綜閤網頁排序中添加用戶點擊率、網頁髮佈時間以及主題內容相關度3箇影響因子,同時添加JE中文分詞器,最後利用基于 HDFS的 HBase技術使Nutch能夠實時高效地索引和檢索海量數據。通過對實驗結果數據的分析髮現,Nutch的爬取和索引效率提高瞭7.93%,用戶檢索效率與查詢準確度分彆提高瞭11.11%與19.51%。
침대Nutch망혈배서산법화중문분사적불족이급단궤운행적효솔문제,재Nutch종합망혈배서중첨가용호점격솔、망혈발포시간이급주제내용상관도3개영향인자,동시첨가JE중문분사기,최후이용기우 HDFS적 HBase기술사Nutch능구실시고효지색인화검색해량수거。통과대실험결과수거적분석발현,Nutch적파취화색인효솔제고료7.93%,용호검색효솔여사순준학도분별제고료11.11%여19.51%。