计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2009年
14期
32-34
,共3页
HTML表格%结构分析%规范化%信息提取%可扩展标记语言
HTML錶格%結構分析%規範化%信息提取%可擴展標記語言
HTML표격%결구분석%규범화%신식제취%가확전표기어언
XML已经成为处理与管理信息的标准格式,而HTML表格被广泛应用于Web.为了充分利用与管理HTML表格信息,需要将HTML表格转换成XML.提出一种有效的处理方法,该方法包含2个部分,即表格识别与结构转换.表格识别通过检查格式、语法及语义的特征将表格提取出来并分割成值域与属性域,使用预设的表格模板分析属性域与值域间的层次结构并将其转换成XML格式.通过 300多个表格的实验表明,所提出的方法要优于传统方法,结果的准确率达86.7%.
XML已經成為處理與管理信息的標準格式,而HTML錶格被廣汎應用于Web.為瞭充分利用與管理HTML錶格信息,需要將HTML錶格轉換成XML.提齣一種有效的處理方法,該方法包含2箇部分,即錶格識彆與結構轉換.錶格識彆通過檢查格式、語法及語義的特徵將錶格提取齣來併分割成值域與屬性域,使用預設的錶格模闆分析屬性域與值域間的層次結構併將其轉換成XML格式.通過 300多箇錶格的實驗錶明,所提齣的方法要優于傳統方法,結果的準確率達86.7%.
XML이경성위처리여관리신식적표준격식,이HTML표격피엄범응용우Web.위료충분이용여관리HTML표격신식,수요장HTML표격전환성XML.제출일충유효적처리방법,해방법포함2개부분,즉표격식별여결구전환.표격식별통과검사격식、어법급어의적특정장표격제취출래병분할성치역여속성역,사용예설적표격모판분석속성역여치역간적층차결구병장기전환성XML격식.통과 300다개표격적실험표명,소제출적방법요우우전통방법,결과적준학솔체86.7%.