网络新媒体技术
網絡新媒體技術
망락신매체기술
Journal of Network New Media
2015年
4期
28-34,40
,共8页
董微%倪宏%邓浩江%刘学
董微%倪宏%鄧浩江%劉學
동미%예굉%산호강%류학
Web信息抽取%交叉定位%包装器%内部特征%DOM树
Web信息抽取%交扠定位%包裝器%內部特徵%DOM樹
Web신식추취%교차정위%포장기%내부특정%DOM수
Web Information Extraction%Cross Locating%Wrapper%Internal Characteristic%DOM Tree
针对包装器在抽取Web网站的过程中抽取精度差、耗时长以及鲁棒性差等问题,提出了一种改进的基于内部特征、自底向上归纳总结的数据交叉定位方法,该方法建立了基于元素文本特征和基于元素属性特征的坐标系,将两种坐标系中的坐标值进行交叉验证获取待抽取的元数据信息.实验结果表明:该方法抽取数据相较于绝对路径方法、相对路径方法、绝对特征路径方法、相对特征路径方法以及交叉定位方法,在召回率略降2.2%的情况下,精确度提高了31.1%,并且相较于交叉定位法,抽取数据的时间提高了17.9秒.
針對包裝器在抽取Web網站的過程中抽取精度差、耗時長以及魯棒性差等問題,提齣瞭一種改進的基于內部特徵、自底嚮上歸納總結的數據交扠定位方法,該方法建立瞭基于元素文本特徵和基于元素屬性特徵的坐標繫,將兩種坐標繫中的坐標值進行交扠驗證穫取待抽取的元數據信息.實驗結果錶明:該方法抽取數據相較于絕對路徑方法、相對路徑方法、絕對特徵路徑方法、相對特徵路徑方法以及交扠定位方法,在召迴率略降2.2%的情況下,精確度提高瞭31.1%,併且相較于交扠定位法,抽取數據的時間提高瞭17.9秒.
침대포장기재추취Web망참적과정중추취정도차、모시장이급로봉성차등문제,제출료일충개진적기우내부특정、자저향상귀납총결적수거교차정위방법,해방법건립료기우원소문본특정화기우원소속성특정적좌표계,장량충좌표계중적좌표치진행교차험증획취대추취적원수거신식.실험결과표명:해방법추취수거상교우절대로경방법、상대로경방법、절대특정로경방법、상대특정로경방법이급교차정위방법,재소회솔략강2.2%적정황하,정학도제고료31.1%,병차상교우교차정위법,추취수거적시간제고료17.9초.