吉林大学学报(信息科学版)
吉林大學學報(信息科學版)
길림대학학보(신식과학판)
JOURNAL OF JILIN UNIVERSITY(INFORMATION SCIENCE EDITION)
2010年
1期
68-76
,共9页
李巍%孙涛%陈建孝%罗梓恒%李雄飞
李巍%孫濤%陳建孝%囉梓恆%李雄飛
리외%손도%진건효%라재항%리웅비
XML文档聚类%加权余弦相似度%频繁变化结构
XML文檔聚類%加權餘絃相似度%頻繁變化結構
XML문당취류%가권여현상사도%빈번변화결구
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变.为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法.该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类.经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类.用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果.
在實際應用中,XML(eXtensible Markup Language)文檔中的一些結構經常被改變.為瞭挖掘XML文檔在歷史變化過程中經常改變的結構所蘊含的知識,提齣瞭髮現頻繁變化結構的方法.該方法用一組頻繁變化結構組成的文檔嚮量模型代錶一箇XML文檔,將頻繁變化結構在簇中的齣現比例作為權值,使用加權餘絃相似度對XML文檔進行聚類.經過實驗分析,根據XML文檔歷史變化過程中的頻繁變化結構能較好地將XML文檔進行聚類.用加權餘絃相似度對XML文檔進行聚類,其聚類結果的正確率、召迴率和簇內部距離均優于使用非加權餘絃相似度對XML文檔進行聚類得到的結果.
재실제응용중,XML(eXtensible Markup Language)문당중적일사결구경상피개변.위료알굴XML문당재역사변화과정중경상개변적결구소온함적지식,제출료발현빈번변화결구적방법.해방법용일조빈번변화결구조성적문당향량모형대표일개XML문당,장빈번변화결구재족중적출현비례작위권치,사용가권여현상사도대XML문당진행취류.경과실험분석,근거XML문당역사변화과정중적빈번변화결구능교호지장XML문당진행취류.용가권여현상사도대XML문당진행취류,기취류결과적정학솔、소회솔화족내부거리균우우사용비가권여현상사도대XML문당진행취류득도적결과.