电脑知识与技术
電腦知識與技術
전뇌지식여기술
COMPUTER KNOWLEDGE AND TECHNOLOGY
2008年
35期
2145-2146,2149
,共3页
baseline聚焦爬虫%朴素的贝叶斯分类器%未来回报率%基于规则的聚焦爬虫%通道
baseline聚焦爬蟲%樸素的貝葉斯分類器%未來迴報率%基于規則的聚焦爬蟲%通道
baseline취초파충%박소적패협사분류기%미래회보솔%기우규칙적취초파충%통도
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战.对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页,为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究思路和方法.该文针对聚焦爬虫这一研究热点,对现今聚焦爬虫的爬行方法(主要是网页分析算法和网页搜索策略)做了深入分析和对比.提出了一种改进的聚焦爬行算法.这种基于类间规则的聚焦爬行方法借助baseline聚焦爬虫的架构,应用朴素的贝叶斯分类器并利用主题团间链接的统计关系构造规则找到在一定链接距离内的"未来回报"页面,并通过实验对该算法的性能进行分析、评价,证明其对聚焦爬虫的爬行收获率和覆盖率有很好的改善.
因特網的迅速髮展對萬維網信息的查找與髮現提齣瞭巨大的挑戰.對于大多用戶提齣的與主題或領域相關的查詢需求,傳統的通用搜索引擎往往不能提供令人滿意的結果網頁,為瞭剋服通用搜索引擎的以上不足,提齣瞭麵嚮主題的聚焦爬蟲的研究思路和方法.該文針對聚焦爬蟲這一研究熱點,對現今聚焦爬蟲的爬行方法(主要是網頁分析算法和網頁搜索策略)做瞭深入分析和對比.提齣瞭一種改進的聚焦爬行算法.這種基于類間規則的聚焦爬行方法藉助baseline聚焦爬蟲的架構,應用樸素的貝葉斯分類器併利用主題糰間鏈接的統計關繫構造規則找到在一定鏈接距離內的"未來迴報"頁麵,併通過實驗對該算法的性能進行分析、評價,證明其對聚焦爬蟲的爬行收穫率和覆蓋率有很好的改善.
인특망적신속발전대만유망신식적사조여발현제출료거대적도전.대우대다용호제출적여주제혹영역상관적사순수구,전통적통용수색인경왕왕불능제공령인만의적결과망혈,위료극복통용수색인경적이상불족,제출료면향주제적취초파충적연구사로화방법.해문침대취초파충저일연구열점,대현금취초파충적파행방법(주요시망혈분석산법화망혈수색책략)주료심입분석화대비.제출료일충개진적취초파행산법.저충기우류간규칙적취초파행방법차조baseline취초파충적가구,응용박소적패협사분류기병이용주제단간련접적통계관계구조규칙조도재일정련접거리내적"미래회보"혈면,병통과실험대해산법적성능진행분석、평개,증명기대취초파충적파행수획솔화복개솔유흔호적개선.