山东师范大学学报(自然科学版)
山東師範大學學報(自然科學版)
산동사범대학학보(자연과학판)
JOURNAL OF SHANGOND NORMAL UNIVERSITY(NATURAL SCIENCE)
2015年
3期
21-24
,共4页
主题爬虫%VSM%相关度计算%搜索策略
主題爬蟲%VSM%相關度計算%搜索策略
주제파충%VSM%상관도계산%수색책략
focused crawler%VSM%relevance calculation%search strategy
详细阐述了主题描述与定义、相关度计算、抓取策略等主题爬虫的关键技术。综合考虑了特征词在相同文本的不同位置和在不同文本的位置权重,利用改进的 TF - IDF 公式计算,同时将这些特殊位置考虑进去以改进传统的向量空间模型 VSM (Vector Space Model)。根据改进的 VSM 方法计算主题页面相关性,同时将改进的 Shark Search 和 HITS 算法结合,既弥补了 Web 全局性之不足,也消除了 HITS 算法中的“主题漂移”现象。实验结果表明该方案用于指导主题爬虫的抓取具有很高的灵活性和准确性。
詳細闡述瞭主題描述與定義、相關度計算、抓取策略等主題爬蟲的關鍵技術。綜閤攷慮瞭特徵詞在相同文本的不同位置和在不同文本的位置權重,利用改進的 TF - IDF 公式計算,同時將這些特殊位置攷慮進去以改進傳統的嚮量空間模型 VSM (Vector Space Model)。根據改進的 VSM 方法計算主題頁麵相關性,同時將改進的 Shark Search 和 HITS 算法結閤,既瀰補瞭 Web 全跼性之不足,也消除瞭 HITS 算法中的“主題漂移”現象。實驗結果錶明該方案用于指導主題爬蟲的抓取具有很高的靈活性和準確性。
상세천술료주제묘술여정의、상관도계산、조취책략등주제파충적관건기술。종합고필료특정사재상동문본적불동위치화재불동문본적위치권중,이용개진적 TF - IDF 공식계산,동시장저사특수위치고필진거이개진전통적향량공간모형 VSM (Vector Space Model)。근거개진적 VSM 방법계산주제혈면상관성,동시장개진적 Shark Search 화 HITS 산법결합,기미보료 Web 전국성지불족,야소제료 HITS 산법중적“주제표이”현상。실험결과표명해방안용우지도주제파충적조취구유흔고적령활성화준학성。
This paper researched the key techniques of focused crawler,such as the crawling topic description,calculation of correlation and the search strategy of Web pages. Overall considering the key words in different locations in the same text and the location weight in different text,using of modified TF - IDF formula to calculate,and taking the special position into account,the traditional vector space model(VSM)is improved. The theme page relevance is calculated based on the improved VSM. And the integration of improved Shark Search and HITS algorithm can not only make up the deficiency of Web global,but also eliminate the‘ topic drift’ phenomenon in the HITS algorithm. The experimental results indicate that the flexibility and accuracy of our scheme are very high in focused crawling.