清华大学学报(自然科学版)
清華大學學報(自然科學版)
청화대학학보(자연과학판)
JOURNAL OF TSINGHUA UNIVERSITY SCIENCE AND TECHNOLOGY
2007年
10期
1586-1590
,共5页
行标题表格%列标题表格%行列标题表格%内容树
行標題錶格%列標題錶格%行列標題錶格%內容樹
행표제표격%렬표제표격%행렬표제표격%내용수
针对目前方法不能处理复杂表格或嵌套表格等缺点,提出了自动获取超文本标记语言(HTML)表格的语义层次结构的方法.该方法以表格的4种基本类型为基础,使用内容树表示表格的语义层次结构.方法主要包含3个步骤:识别HTML表格的属性单元格和值单元格;将表格拆分为基本表格;为拆分后的基本表格构造内容树,获取表格的语义层次结构.实验结果证明该方法能自动处理嵌套表格和复杂表格,复杂性不高,精度较好.
針對目前方法不能處理複雜錶格或嵌套錶格等缺點,提齣瞭自動穫取超文本標記語言(HTML)錶格的語義層次結構的方法.該方法以錶格的4種基本類型為基礎,使用內容樹錶示錶格的語義層次結構.方法主要包含3箇步驟:識彆HTML錶格的屬性單元格和值單元格;將錶格拆分為基本錶格;為拆分後的基本錶格構造內容樹,穫取錶格的語義層次結構.實驗結果證明該方法能自動處理嵌套錶格和複雜錶格,複雜性不高,精度較好.
침대목전방법불능처리복잡표격혹감투표격등결점,제출료자동획취초문본표기어언(HTML)표격적어의층차결구적방법.해방법이표격적4충기본류형위기출,사용내용수표시표격적어의층차결구.방법주요포함3개보취:식별HTML표격적속성단원격화치단원격;장표격탁분위기본표격;위탁분후적기본표격구조내용수,획취표격적어의층차결구.실험결과증명해방법능자동처리감투표격화복잡표격,복잡성불고,정도교호.