CAJ | 학술논문

간체로 보기 번체로 보기

基于网页的站内信息采集技术的研究与实现
기우망혈적참내신식채집기술적연구여실현
A Study and Implement of Intranet Gather Information Technology Based on Web Page

万方数据

内蒙古大学学报(自然科学版) 內矇古大學學報(自然科學版) 내몽고대학학보(자연과학판)
JOURNAL OF INNER MONGOLIA AGRICULTURAL UNIVERSITY
2009年 2期 203-207 ,共5页

马志强%赵汐%贾鹏馬誌彊%趙汐%賈鵬

마지강%조석%가붕

信息采集%广度优先搜索算法%增量存储信息採集%廣度優先搜索算法%增量存儲
신식채집%엄도우선수색산법%증량존저

实现站内搜索引擎的关键一步是信息的自动采集.站内信息采集技术是通过分析网页的HTML代码,获取网内的超链信息,使用广度优先搜索算法和增量存储算法,实现自动地连续分析链接、抓取文件、处理和保存数据的过程.系统在再次运行中通过应用属性对比技术,在一定程度上避免了对网页的重复分析和采集,提高了信息的更新速度和搜全率.
실현참내수색인경적관건일보시신식적자동채집.참내신식채집기술시통과분석망혈적HTML대마,획취망내적초련신식,사용엄도우선수색산법화증량존저산법,실현자동지련속분석련접、조취문건、처리화보존수거적과정.계통재재차운행중통과응용속성대비기술,재일정정도상피면료대망혈적중복분석화채집,제고료신식적경신속도화수전솔.