内蒙古大学学报(自然科学版)
內矇古大學學報(自然科學版)
내몽고대학학보(자연과학판)
JOURNAL OF INNER MONGOLIA AGRICULTURAL UNIVERSITY
2009年
2期
203-207
,共5页
信息采集%广度优先搜索算法%增量存储
信息採集%廣度優先搜索算法%增量存儲
신식채집%엄도우선수색산법%증량존저
实现站内搜索引擎的关键一步是信息的自动采集.站内信息采集技术是通过分析网页的HTML代码,获取网内的超链信息,使用广度优先搜索算法和增量存储算法,实现自动地连续分析链接、抓取文件、处理和保存数据的过程.系统在再次运行中通过应用属性对比技术,在一定程度上避免了对网页的重复分析和采集,提高了信息的更新速度和搜全率.
實現站內搜索引擎的關鍵一步是信息的自動採集.站內信息採集技術是通過分析網頁的HTML代碼,穫取網內的超鏈信息,使用廣度優先搜索算法和增量存儲算法,實現自動地連續分析鏈接、抓取文件、處理和保存數據的過程.繫統在再次運行中通過應用屬性對比技術,在一定程度上避免瞭對網頁的重複分析和採集,提高瞭信息的更新速度和搜全率.
실현참내수색인경적관건일보시신식적자동채집.참내신식채집기술시통과분석망혈적HTML대마,획취망내적초련신식,사용엄도우선수색산법화증량존저산법,실현자동지련속분석련접、조취문건、처리화보존수거적과정.계통재재차운행중통과응용속성대비기술,재일정정도상피면료대망혈적중복분석화채집,제고료신식적경신속도화수전솔.