计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2012年
9期
1926-1936
,共11页
雷向欣%杨智应%黄少寅%胡运发
雷嚮訢%楊智應%黃少寅%鬍運髮
뢰향흔%양지응%황소인%호운발
XML%数据流%分页%频繁子树%数据挖掘
XML%數據流%分頁%頻繁子樹%數據挖掘
XML%수거류%분혈%빈번자수%수거알굴
随着XML数据流的广泛应用,从挖掘XML数据流中发现知识具有重要的理论与应用价值.相比其他频繁模式挖掘,大型XML文档与数据流的频繁子树挖掘面临困难:XML数据流不可能整体在内存解析;对XML数据流分段挖掘必须考虑XML数据的半结构化特征等.针对上述问题,提出数据流分页频繁子树挖掘模型Tmlist.Tmlist对XML数据流进行分页,管理跨页节点及频繁候选子树的跨页增长,逐页挖掘频繁子树;频繁候选子树的增长根据根节点层次由浅至深地在最右路径加入频繁候选节点,避免以低层次为根子树的重复性递归增长;对频繁候选子树采用子树拓扑序列和最右路径共同标识,子树的增长不需要对子树前缀进行匹配,省去前缀节点存储与匹配开销;以页面最小支持度对频繁候选子树按页筛选,子树按页面衰减度衰减支持度、剪枝.Tmlist在可控误差范围内降低频繁子树挖掘的空间消耗,提高内存利用率和挖掘效率.
隨著XML數據流的廣汎應用,從挖掘XML數據流中髮現知識具有重要的理論與應用價值.相比其他頻繁模式挖掘,大型XML文檔與數據流的頻繁子樹挖掘麵臨睏難:XML數據流不可能整體在內存解析;對XML數據流分段挖掘必鬚攷慮XML數據的半結構化特徵等.針對上述問題,提齣數據流分頁頻繁子樹挖掘模型Tmlist.Tmlist對XML數據流進行分頁,管理跨頁節點及頻繁候選子樹的跨頁增長,逐頁挖掘頻繁子樹;頻繁候選子樹的增長根據根節點層次由淺至深地在最右路徑加入頻繁候選節點,避免以低層次為根子樹的重複性遞歸增長;對頻繁候選子樹採用子樹拓撲序列和最右路徑共同標識,子樹的增長不需要對子樹前綴進行匹配,省去前綴節點存儲與匹配開銷;以頁麵最小支持度對頻繁候選子樹按頁篩選,子樹按頁麵衰減度衰減支持度、剪枝.Tmlist在可控誤差範圍內降低頻繁子樹挖掘的空間消耗,提高內存利用率和挖掘效率.
수착XML수거류적엄범응용,종알굴XML수거류중발현지식구유중요적이론여응용개치.상비기타빈번모식알굴,대형XML문당여수거류적빈번자수알굴면림곤난:XML수거류불가능정체재내존해석;대XML수거류분단알굴필수고필XML수거적반결구화특정등.침대상술문제,제출수거류분혈빈번자수알굴모형Tmlist.Tmlist대XML수거류진행분혈,관리과혈절점급빈번후선자수적과혈증장,축혈알굴빈번자수;빈번후선자수적증장근거근절점층차유천지심지재최우로경가입빈번후선절점,피면이저층차위근자수적중복성체귀증장;대빈번후선자수채용자수탁복서렬화최우로경공동표식,자수적증장불수요대자수전철진행필배,성거전철절점존저여필배개소;이혈면최소지지도대빈번후선자수안혈사선,자수안혈면쇠감도쇠감지지도、전지.Tmlist재가공오차범위내강저빈번자수알굴적공간소모,제고내존이용솔화알굴효솔.