计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2010年
z1期
49-50,53
,共3页
URL消重%K-PickHash%MD5
URL消重%K-PickHash%MD5
URL소중%K-PickHash%MD5
在Web信息采集的过程中,为了避免对同一页面的重复下载,需要对URL进行消重.当URL数量变得非常庞大时,URL编码、计算和存储将会给网页消重性能造成很大的影响.通过对URL网址的观察和工程实践,提出一种简单高效的K-PickHash算法,能够快速对绝大多数的URL生成唯一编码,同时保证较低的碰撞率.实验结果证明,计算相同数量的URL时,K-PickHfIp算法所占用的时间小于信息-摘要算法(MD5)的1/3,内存使用比MD5节省1/3,碰撞率也控制在可接受的范围.
在Web信息採集的過程中,為瞭避免對同一頁麵的重複下載,需要對URL進行消重.噹URL數量變得非常龐大時,URL編碼、計算和存儲將會給網頁消重性能造成很大的影響.通過對URL網阯的觀察和工程實踐,提齣一種簡單高效的K-PickHash算法,能夠快速對絕大多數的URL生成唯一編碼,同時保證較低的踫撞率.實驗結果證明,計算相同數量的URL時,K-PickHfIp算法所佔用的時間小于信息-摘要算法(MD5)的1/3,內存使用比MD5節省1/3,踫撞率也控製在可接受的範圍.
재Web신식채집적과정중,위료피면대동일혈면적중복하재,수요대URL진행소중.당URL수량변득비상방대시,URL편마、계산화존저장회급망혈소중성능조성흔대적영향.통과대URL망지적관찰화공정실천,제출일충간단고효적K-PickHash산법,능구쾌속대절대다수적URL생성유일편마,동시보증교저적팽당솔.실험결과증명,계산상동수량적URL시,K-PickHfIp산법소점용적시간소우신식-적요산법(MD5)적1/3,내존사용비MD5절성1/3,팽당솔야공제재가접수적범위.