计算机应用与软件
計算機應用與軟件
계산궤응용여연건
Computer Applications and Software
2015年
10期
113-115,126
,共4页
XML%分类%相似性%路径%语义
XML%分類%相似性%路徑%語義
XML%분류%상사성%로경%어의
XML%Classification%Similarity%Path%Semantics
XML 是互联网上信息表示和数据交互的重要标准,文档分类是解决从海量信息中获取有效信息的重要方法,提出一种基于模糊路径匹配的 XML 文档分类方法。首先去除对分类没有影响的信息;然后采用一种混合的 XML 文档相似性计算方法,将XML 文档表示为路径的集合。为了提高效率,删除了文档中重复出现的路径后进行模糊匹配,用匈牙利算法计算出文档间的相似度;最后使用改进的 K 近邻算法进行文档的分类。使用自动生成及真实的文档集进行实验,结果表明:两组文档分类的正确率均可以达到100%。
XML 是互聯網上信息錶示和數據交互的重要標準,文檔分類是解決從海量信息中穫取有效信息的重要方法,提齣一種基于模糊路徑匹配的 XML 文檔分類方法。首先去除對分類沒有影響的信息;然後採用一種混閤的 XML 文檔相似性計算方法,將XML 文檔錶示為路徑的集閤。為瞭提高效率,刪除瞭文檔中重複齣現的路徑後進行模糊匹配,用匈牙利算法計算齣文檔間的相似度;最後使用改進的 K 近鄰算法進行文檔的分類。使用自動生成及真實的文檔集進行實驗,結果錶明:兩組文檔分類的正確率均可以達到100%。
XML 시호련망상신식표시화수거교호적중요표준,문당분류시해결종해량신식중획취유효신식적중요방법,제출일충기우모호로경필배적 XML 문당분류방법。수선거제대분류몰유영향적신식;연후채용일충혼합적 XML 문당상사성계산방법,장XML 문당표시위로경적집합。위료제고효솔,산제료문당중중복출현적로경후진행모호필배,용흉아리산법계산출문당간적상사도;최후사용개진적 K 근린산법진행문당적분류。사용자동생성급진실적문당집진행실험,결과표명:량조문당분류적정학솔균가이체도100%。
XML is an important standard of information representation and data exchange over Internet,document classification is an important way to get useful information from mass of information solutions,in this paper we propose a method of XML document classification which is based on fuzzy matching path.First,it removes the information that has no influence on the classification;Then it uses a mixed computation method of XML document similarity,expresses the XML document as a collection of paths;In order to improve the efficiency, the method deletes the recurring paths in the document and carries out fuzzy matching,and employs Hungarian algorithm to calculate the similarity between documents;Finally it uses the improved k-nearest neighbour algorithm to classify documents.The automatically generated documentation sets and real data sets are used in the experiment,and results show the accuracy of document classification in both sets could all reach 100%.