计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2012年
8期
48-52
,共5页
遗传算法%爬虫%主题爬虫%主题相关度%网页重要性
遺傳算法%爬蟲%主題爬蟲%主題相關度%網頁重要性
유전산법%파충%주제파충%주제상관도%망혈중요성
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案.引入了结合文本内容的PageRank算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页.与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题.
針對目前主題網絡爬蟲搜索策略難以在全跼範圍內找到最優解,通過對遺傳算法的分析與研究,文中設計瞭一箇基于遺傳算法的主題爬蟲方案.引入瞭結閤文本內容的PageRank算法;採用嚮量空間模型算法計算網頁主題相關度;採取網頁鏈接結構與主題相關度來評判網頁的重要性;依據網頁重要性選擇爬行中的遺傳因子;設置適應度函數篩選與主題相關的網頁.與普通的主題爬蟲比較,該策略能夠穫取大量主題相關度高的網頁信息,能夠提高穫取的網頁的重要性,能夠滿足用戶對所需主題網頁的檢索需求,併在一定程度上解決瞭上述問題.
침대목전주제망락파충수색책략난이재전국범위내조도최우해,통과대유전산법적분석여연구,문중설계료일개기우유전산법적주제파충방안.인입료결합문본내용적PageRank산법;채용향량공간모형산법계산망혈주제상관도;채취망혈련접결구여주제상관도래평판망혈적중요성;의거망혈중요성선택파행중적유전인자;설치괄응도함수사선여주제상관적망혈.여보통적주제파충비교,해책략능구획취대량주제상관도고적망혈신식,능구제고획취적망혈적중요성,능구만족용호대소수주제망혈적검색수구,병재일정정도상해결료상술문제.