情报学报
情報學報
정보학보
2008年
2期
256-260
,共5页
藕军%任明仑%左春荣%章成志
藕軍%任明崙%左春榮%章成誌
우군%임명륜%좌춘영%장성지
Deep Web%中文Web%搜索引擎
Deep Web%中文Web%搜索引擎
Deep Web%중문Web%수색인경
Deep Web中包含着大量高质量内容,当前的搜索引擎技术还不能对其进行搜索,研究Deep Web的大小、质量及分布情况将有助于找到对其进行有效搜索的方法和技术.以网络蜘蛛采集的2006年10月的数据为样本,利用统计、概率等定量方法和定性方法,首次对中文Deep Web的大小、质量及分布情况进行调查,得出概况如下:① Deep Web大小比Surface Web 的大240倍以上;②包含的文件总数量和总存储量分别为507亿、11 700TB;③可搜索数据库数量超过3万个;④内容质量较高;⑤内容主题分布不均匀.
Deep Web中包含著大量高質量內容,噹前的搜索引擎技術還不能對其進行搜索,研究Deep Web的大小、質量及分佈情況將有助于找到對其進行有效搜索的方法和技術.以網絡蜘蛛採集的2006年10月的數據為樣本,利用統計、概率等定量方法和定性方法,首次對中文Deep Web的大小、質量及分佈情況進行調查,得齣概況如下:① Deep Web大小比Surface Web 的大240倍以上;②包含的文件總數量和總存儲量分彆為507億、11 700TB;③可搜索數據庫數量超過3萬箇;④內容質量較高;⑤內容主題分佈不均勻.
Deep Web중포함착대량고질량내용,당전적수색인경기술환불능대기진행수색,연구Deep Web적대소、질량급분포정황장유조우조도대기진행유효수색적방법화기술.이망락지주채집적2006년10월적수거위양본,이용통계、개솔등정량방법화정성방법,수차대중문Deep Web적대소、질량급분포정황진행조사,득출개황여하:① Deep Web대소비Surface Web 적대240배이상;②포함적문건총수량화총존저량분별위507억、11 700TB;③가수색수거고수량초과3만개;④내용질량교고;⑤내용주제분포불균균.