广西师范大学学报(自然科学版)
廣西師範大學學報(自然科學版)
엄서사범대학학보(자연과학판)
JOURNAL OF GUANGXI NORMAL UNIVERSITY(NATURAL SCIENCE EDITION)
2010年
1期
122-126
,共5页
布隆过滤器%散列函数%URL%网页去重
佈隆過濾器%散列函數%URL%網頁去重
포륭과려기%산렬함수%URL%망혈거중
通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filtex算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进行了实验并和其他策略进行了比较,实验证明该应用策略能够在误判率较低的情况下取得较好的去重效果.
通過對Bloom Filter算法及其改進型在Web信息採集時的去重策略進行分析,結閤Dynamic Bloom Filtex算法,採用動態數組對集閤元素進行錶示,提齣瞭一種去重應用策略,實現瞭對集閤中重複URL的頻度查詢和刪除操作支持,最後使用該去重策略進行瞭實驗併和其他策略進行瞭比較,實驗證明該應用策略能夠在誤判率較低的情況下取得較好的去重效果.
통과대Bloom Filter산법급기개진형재Web신식채집시적거중책략진행분석,결합Dynamic Bloom Filtex산법,채용동태수조대집합원소진행표시,제출료일충거중응용책략,실현료대집합중중복URL적빈도사순화산제조작지지,최후사용해거중책략진행료실험병화기타책략진행료비교,실험증명해응용책략능구재오판솔교저적정황하취득교호적거중효과.