计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2015年
9期
2651-2654,2658
,共5页
列表页%网页数据抽取%标签树匹配%部分树对齐
列錶頁%網頁數據抽取%標籤樹匹配%部分樹對齊
렬표혈%망혈수거추취%표첨수필배%부분수대제
list pages%Web data extraction%matching of tag tree%partial tree alignment
抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性改进了数据记录识别算法,提高了识别数据记录的准确率。而对于数据记录之间的不规则性问题,在已有的标签树匹配算法的基础上加入了对节点内容的考虑,提高了两棵标签树匹配的准确率。根据构成数据记录的标签树之间的匹配结果,再采用部分树对齐算法生成一个数据记录的最大匹配结构,进而用于抽取出所有数据记录。实验结果表明,提出的改进算法有效提高了自动抽取列表页数据的准确率和适应性。
抽取列錶頁中的列錶數據可以用于進一步的數據挖掘以及數據集成等繫統。針對怎樣提高自動抽取列錶頁數據的準確率和適應性進行瞭研究。在研究已有的多數據區域挖掘算法和數據記錄識彆算法的基礎上,針對列錶頁數據記錄組織方式的多樣性改進瞭數據記錄識彆算法,提高瞭識彆數據記錄的準確率。而對于數據記錄之間的不規則性問題,在已有的標籤樹匹配算法的基礎上加入瞭對節點內容的攷慮,提高瞭兩棵標籤樹匹配的準確率。根據構成數據記錄的標籤樹之間的匹配結果,再採用部分樹對齊算法生成一箇數據記錄的最大匹配結構,進而用于抽取齣所有數據記錄。實驗結果錶明,提齣的改進算法有效提高瞭自動抽取列錶頁數據的準確率和適應性。
추취렬표혈중적렬표수거가이용우진일보적수거알굴이급수거집성등계통。침대즘양제고자동추취렬표혈수거적준학솔화괄응성진행료연구。재연구이유적다수거구역알굴산법화수거기록식별산법적기출상,침대렬표혈수거기록조직방식적다양성개진료수거기록식별산법,제고료식별수거기록적준학솔。이대우수거기록지간적불규칙성문제,재이유적표첨수필배산법적기출상가입료대절점내용적고필,제고료량과표첨수필배적준학솔。근거구성수거기록적표첨수지간적필배결과,재채용부분수대제산법생성일개수거기록적최대필배결구,진이용우추취출소유수거기록。실험결과표명,제출적개진산법유효제고료자동추취렬표혈수거적준학솔화괄응성。
Data extracted from list page can be used for further data mining and data integration,etc.This paper studied how to improve the accuracy and adaptability of automatic extraction of list pages.Based on the existing algorithms of mining multi-ple data regions and data records,it improved the algorithm of identifing data records against the diversity of the organization of data records,and improved the accuracy of identifing data records.As for the irregularities of data records,it considered the content enclosed in nodes based on the algothrim of tree matching and improved its accuracy.Based on the comparion between tag trees which represented data records,it used the algorithm of tree alignment to generate an extraction model that contained all the data fileds.And the model would be used for extracion of all the data reocrds.The results show that the improved algo-rithm effectively improve the accuracy and adaptability when extracting data from list pages.