电脑编程技巧与维护
電腦編程技巧與維護
전뇌편정기교여유호
COMPUTER PROGRAMMING SKILLS & MAINTENANCE
2010年
20期
66-67,84
,共3页
Bloom Filter%错误率%shingling%MD5%相似网页
Bloom Filter%錯誤率%shingling%MD5%相似網頁
Bloom Filter%착오솔%shingling%MD5%상사망혈
利用Bloom Filter数据结构、shingling算法和MD5编码,构造双层网页去重模型.通过Bloom Filter结构,在网络蜘蛛程序下载网页时,去除重复的网址,并讨论了Bloom Filter出错概率.对已下载的网页用shingling算法去重,阐述了相似网页的判断方法.通过实验,得到了最后的结果,并指出了模型存在的缺点和该方法的后续研究方向.
利用Bloom Filter數據結構、shingling算法和MD5編碼,構造雙層網頁去重模型.通過Bloom Filter結構,在網絡蜘蛛程序下載網頁時,去除重複的網阯,併討論瞭Bloom Filter齣錯概率.對已下載的網頁用shingling算法去重,闡述瞭相似網頁的判斷方法.通過實驗,得到瞭最後的結果,併指齣瞭模型存在的缺點和該方法的後續研究方嚮.
이용Bloom Filter수거결구、shingling산법화MD5편마,구조쌍층망혈거중모형.통과Bloom Filter결구,재망락지주정서하재망혈시,거제중복적망지,병토론료Bloom Filter출착개솔.대이하재적망혈용shingling산법거중,천술료상사망혈적판단방법.통과실험,득도료최후적결과,병지출료모형존재적결점화해방법적후속연구방향.