计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2011年
3期
64-66,69
,共4页
主题爬虫%正文提取%DBSCAN算法%密度
主題爬蟲%正文提取%DBSCAN算法%密度
주제파충%정문제취%DBSCAN산법%밀도
针对网页正文提取问题,提出一种基于分段因子的方法对网页源文件进行过滤得到纯文本段,将每段看作二维空间中的一个点,利用DBSCAN聚类算法对这些点进行聚类得到正文内容.该方法复杂度低,并且不依赖于网站布局风格,适应性强.对各大国内外新闻类网站进行实验,结果表明,该方法对中英文新闻类网站的正文提取效果明显,具有较高的平均准确率.
針對網頁正文提取問題,提齣一種基于分段因子的方法對網頁源文件進行過濾得到純文本段,將每段看作二維空間中的一箇點,利用DBSCAN聚類算法對這些點進行聚類得到正文內容.該方法複雜度低,併且不依賴于網站佈跼風格,適應性彊.對各大國內外新聞類網站進行實驗,結果錶明,該方法對中英文新聞類網站的正文提取效果明顯,具有較高的平均準確率.
침대망혈정문제취문제,제출일충기우분단인자적방법대망혈원문건진행과려득도순문본단,장매단간작이유공간중적일개점,이용DBSCAN취류산법대저사점진행취류득도정문내용.해방법복잡도저,병차불의뢰우망참포국풍격,괄응성강.대각대국내외신문류망참진행실험,결과표명,해방법대중영문신문류망참적정문제취효과명현,구유교고적평균준학솔.