计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2010年
2期
217-220
,共4页
HTML表格%信息抽取%Web%XML
HTML錶格%信息抽取%Web%XML
HTML표격%신식추취%Web%XML
如今,Web成为了网络信息的主要平台.根据研究发现,表格在Web文本中被经常使用.正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义.互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询.论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析.在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取.
如今,Web成為瞭網絡信息的主要平檯.根據研究髮現,錶格在Web文本中被經常使用.正因為錶格形式簡潔併且含有豐富的信息,自動理解錶格在知識管理、信息檢索、Web挖掘等應用中有著廣汎的用途,所以研究Web錶格信息抽取有著重要的現實意義.互聯網上有大量信息採用HTML錶格錶示,由于HTML不描述數據的內容,機器不能理解和查詢.論文首先將HTML文檔轉換為XML文檔,結閤本體形成啟髮式規則,對錶格定位、錶格結構識彆兩箇關鍵技術進行瞭分析.在此基礎上,利用HTML錶格屬性,將HTML錶格標準化,從而適用于複雜錶格的信息抽取.
여금,Web성위료망락신식적주요평태.근거연구발현,표격재Web문본중피경상사용.정인위표격형식간길병차함유봉부적신식,자동리해표격재지식관리、신식검색、Web알굴등응용중유착엄범적용도,소이연구Web표격신식추취유착중요적현실의의.호련망상유대량신식채용HTML표격표시,유우HTML불묘술수거적내용,궤기불능리해화사순.논문수선장HTML문당전환위XML문당,결합본체형성계발식규칙,대표격정위、표격결구식별량개관건기술진행료분석.재차기출상,이용HTML표격속성,장HTML표격표준화,종이괄용우복잡표격적신식추취.