计算机与应用化学
計算機與應用化學
계산궤여응용화학
COMPUTERS AND APPLIED CHEMISTRY
2006年
11期
1137-1141
,共5页
Web数据提取%化学深层网%XML%XSLT%XPath%化学数据库
Web數據提取%化學深層網%XML%XSLT%XPath%化學數據庫
Web수거제취%화학심층망%XML%XSLT%XPath%화학수거고
Internet上的化学数据库是宝贵的化学信息资源,如何有效地利用这些数据是化学深层网所要解决的问题.本文总结了化学深层网的特点,基于XML技术实现从数据库检索返回的半结构化HTML页面中提取数据的目标,使之成为可供程序直接调用做进一步计算的数据.在数据提取过程中,先采用JTidy规范化HTML,得到格式上完整、内容无误的XHTML文档,利用包含着XPath路径语言的XSLT数据转换模板实现数据转换和提取.其中XPath表达式的优劣决定了XSLT数据转换模板能否长久有效地提取化学数据,文中着重介绍了如何编辑健壮的XPath表达式,强调了XPath表达式应利用内容和属性特征实现对源树中数据的定位,并尽可能地降低表达式之间的耦合度,前瞻性地预测化学站点可能出现的变化并在XSLT数据转换模板中采取相应的措施以提高表达式的长期有效性.为创建化学深层网数据提取的XSLT数据提取模板提供方法指导.
Internet上的化學數據庫是寶貴的化學信息資源,如何有效地利用這些數據是化學深層網所要解決的問題.本文總結瞭化學深層網的特點,基于XML技術實現從數據庫檢索返迴的半結構化HTML頁麵中提取數據的目標,使之成為可供程序直接調用做進一步計算的數據.在數據提取過程中,先採用JTidy規範化HTML,得到格式上完整、內容無誤的XHTML文檔,利用包含著XPath路徑語言的XSLT數據轉換模闆實現數據轉換和提取.其中XPath錶達式的優劣決定瞭XSLT數據轉換模闆能否長久有效地提取化學數據,文中著重介紹瞭如何編輯健壯的XPath錶達式,彊調瞭XPath錶達式應利用內容和屬性特徵實現對源樹中數據的定位,併儘可能地降低錶達式之間的耦閤度,前瞻性地預測化學站點可能齣現的變化併在XSLT數據轉換模闆中採取相應的措施以提高錶達式的長期有效性.為創建化學深層網數據提取的XSLT數據提取模闆提供方法指導.
Internet상적화학수거고시보귀적화학신식자원,여하유효지이용저사수거시화학심층망소요해결적문제.본문총결료화학심층망적특점,기우XML기술실현종수거고검색반회적반결구화HTML혈면중제취수거적목표,사지성위가공정서직접조용주진일보계산적수거.재수거제취과정중,선채용JTidy규범화HTML,득도격식상완정、내용무오적XHTML문당,이용포함착XPath로경어언적XSLT수거전환모판실현수거전환화제취.기중XPath표체식적우렬결정료XSLT수거전환모판능부장구유효지제취화학수거,문중착중개소료여하편집건장적XPath표체식,강조료XPath표체식응이용내용화속성특정실현대원수중수거적정위,병진가능지강저표체식지간적우합도,전첨성지예측화학참점가능출현적변화병재XSLT수거전환모판중채취상응적조시이제고표체식적장기유효성.위창건화학심층망수거제취적XSLT수거제취모판제공방법지도.