计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2010年
12期
12-14,54
,共4页
贺晟%程家兴%王为为%蔡欣宝
賀晟%程傢興%王為為%蔡訢寶
하성%정가흥%왕위위%채흔보
去重%文档对象模型%聚类%结构化数据
去重%文檔對象模型%聚類%結構化數據
거중%문당대상모형%취류%결구화수거
针对载有结构化数据的网页特点,提出了一种新的有效字段发现策略,据此设计了一个基于学习的自动去重方法.对样本网页集进行聚类分析并生成每类网页的包装器,识别出包装器中的有效数据字段;对有效数据字段进行映射,通过计算有效数据字段内容的相似度来判断网页是否重复.实验证明该方法对结构化Web数据的去重有很好的召回率和准确率.
針對載有結構化數據的網頁特點,提齣瞭一種新的有效字段髮現策略,據此設計瞭一箇基于學習的自動去重方法.對樣本網頁集進行聚類分析併生成每類網頁的包裝器,識彆齣包裝器中的有效數據字段;對有效數據字段進行映射,通過計算有效數據字段內容的相似度來判斷網頁是否重複.實驗證明該方法對結構化Web數據的去重有很好的召迴率和準確率.
침대재유결구화수거적망혈특점,제출료일충신적유효자단발현책략,거차설계료일개기우학습적자동거중방법.대양본망혈집진행취류분석병생성매류망혈적포장기,식별출포장기중적유효수거자단;대유효수거자단진행영사,통과계산유효수거자단내용적상사도래판단망혈시부중복.실험증명해방법대결구화Web수거적거중유흔호적소회솔화준학솔.