智能计算机与应用
智能計算機與應用
지능계산궤여응용
Intelligent Computer and Applications
2015年
4期
42-44,47
,共4页
DOM%标点密度%文本密度%正文提取
DOM%標點密度%文本密度%正文提取
DOM%표점밀도%문본밀도%정문제취
本文提出了一种基于DOM树的正文提取方法.该方法是在基于DOM树的文本密度的正文提取算法的框架上改进而来的.基于对文言文翻译网站的观察,本方法使用标点符号密度取代原方法的文本密度.通过随机选取50篇文言文翻译网页作为测试集,本文提出的方法获得了更好的准确率、召回率和F值.
本文提齣瞭一種基于DOM樹的正文提取方法.該方法是在基于DOM樹的文本密度的正文提取算法的框架上改進而來的.基于對文言文翻譯網站的觀察,本方法使用標點符號密度取代原方法的文本密度.通過隨機選取50篇文言文翻譯網頁作為測試集,本文提齣的方法穫得瞭更好的準確率、召迴率和F值.
본문제출료일충기우DOM수적정문제취방법.해방법시재기우DOM수적문본밀도적정문제취산법적광가상개진이래적.기우대문언문번역망참적관찰,본방법사용표점부호밀도취대원방법적문본밀도.통과수궤선취50편문언문번역망혈작위측시집,본문제출적방법획득료경호적준학솔、소회솔화F치.