计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2013年
1期
76-79
,共4页
链接路径%网页标题%半结构化数据%结构化数据库%锚文本%URL属性
鏈接路徑%網頁標題%半結構化數據%結構化數據庫%錨文本%URL屬性
련접로경%망혈표제%반결구화수거%결구화수거고%묘문본%URL속성
在W2DR算法实验中,部分网页因其锚文本提供的信息量不足,导致利用半结构化的网页信息填充结构化数据库内容效果不佳.为此,提出一种基于链接路径包的URL属性集成方法.采用将锚文本和网页标题相结合的机制,从被搜索网页集中,根据最佳匹配策略求解得到URL属性值,并将其填充到目标数据库.实验结果表明,与W2DR算法相比,该方法在2个不同数据集中的F值分别提高13.91%和3.54%.
在W2DR算法實驗中,部分網頁因其錨文本提供的信息量不足,導緻利用半結構化的網頁信息填充結構化數據庫內容效果不佳.為此,提齣一種基于鏈接路徑包的URL屬性集成方法.採用將錨文本和網頁標題相結閤的機製,從被搜索網頁集中,根據最佳匹配策略求解得到URL屬性值,併將其填充到目標數據庫.實驗結果錶明,與W2DR算法相比,該方法在2箇不同數據集中的F值分彆提高13.91%和3.54%.
재W2DR산법실험중,부분망혈인기묘문본제공적신식량불족,도치이용반결구화적망혈신식전충결구화수거고내용효과불가.위차,제출일충기우련접로경포적URL속성집성방법.채용장묘문본화망혈표제상결합적궤제,종피수색망혈집중,근거최가필배책략구해득도URL속성치,병장기전충도목표수거고.실험결과표명,여W2DR산법상비,해방법재2개불동수거집중적F치분별제고13.91%화3.54%.