软件学报
軟件學報
연건학보
JOURNAL OF SOFTWARE
2008年
2期
179-193
,共15页
deep Web%Web数据库%数据库采样
deep Web%Web數據庫%數據庫採樣
deep Web%Web수거고%수거고채양
Web数据库中,海量的信息隐藏在具有特定查询能力的查询接口后面,使人无法了解一个Web数据库内容的特征,比如主题的分布、更新的频率等,这就为Deep Web数据集成带来了巨大的挑战.为了解决这个问题,提出了一种基于图模型的Web数据库采样方法,可以通过查询接口从Web数据库中以增量的方式获取近似随机的样本,即每次查询获取一定数量的样本记录,并且利用已经保存在本地的样本记录生成下一次的查询.该方法的一个重要特点是不受查询接口中属性表现形式的局限,因此是一种一般的Web数据库采样方法.在本地的模拟实验和真实Web数据库上的大量实验表明,该方法可以在较小代价下获得高质量的样本.
Web數據庫中,海量的信息隱藏在具有特定查詢能力的查詢接口後麵,使人無法瞭解一箇Web數據庫內容的特徵,比如主題的分佈、更新的頻率等,這就為Deep Web數據集成帶來瞭巨大的挑戰.為瞭解決這箇問題,提齣瞭一種基于圖模型的Web數據庫採樣方法,可以通過查詢接口從Web數據庫中以增量的方式穫取近似隨機的樣本,即每次查詢穫取一定數量的樣本記錄,併且利用已經保存在本地的樣本記錄生成下一次的查詢.該方法的一箇重要特點是不受查詢接口中屬性錶現形式的跼限,因此是一種一般的Web數據庫採樣方法.在本地的模擬實驗和真實Web數據庫上的大量實驗錶明,該方法可以在較小代價下穫得高質量的樣本.
Web수거고중,해량적신식은장재구유특정사순능력적사순접구후면,사인무법료해일개Web수거고내용적특정,비여주제적분포、경신적빈솔등,저취위Deep Web수거집성대래료거대적도전.위료해결저개문제,제출료일충기우도모형적Web수거고채양방법,가이통과사순접구종Web수거고중이증량적방식획취근사수궤적양본,즉매차사순획취일정수량적양본기록,병차이용이경보존재본지적양본기록생성하일차적사순.해방법적일개중요특점시불수사순접구중속성표현형식적국한,인차시일충일반적Web수거고채양방법.재본지적모의실험화진실Web수거고상적대량실험표명,해방법가이재교소대개하획득고질량적양본.