计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2010年
z1期
60-65
,共6页
廉鑫%林伟坚%张海威%袁晓洁
廉鑫%林偉堅%張海威%袁曉潔
렴흠%림위견%장해위%원효길
XML%文档相似度%双向路径约束模型%N-Gram
XML%文檔相似度%雙嚮路徑約束模型%N-Gram
XML%문당상사도%쌍향로경약속모형%N-Gram
为了弥补树编辑距离方法时间复杂度高和频繁路径方法丢失过多语义信息的不足,建立XML文档的双向路径约束模型,从而更全面地提取XML文档的结构信息,为更精确的XML相似度计算打下基础.引入自然语言领域中成熟的N-Gram思想,将基于N-Gram的划分方式应用在路径约束相似度计算中,加快了计算效率和精确度.运用正整数和各种权值简化N-Gram信息的提取和运算.实验结果表明,方法提高了聚类的准确率和召回率.
為瞭瀰補樹編輯距離方法時間複雜度高和頻繁路徑方法丟失過多語義信息的不足,建立XML文檔的雙嚮路徑約束模型,從而更全麵地提取XML文檔的結構信息,為更精確的XML相似度計算打下基礎.引入自然語言領域中成熟的N-Gram思想,將基于N-Gram的劃分方式應用在路徑約束相似度計算中,加快瞭計算效率和精確度.運用正整數和各種權值簡化N-Gram信息的提取和運算.實驗結果錶明,方法提高瞭聚類的準確率和召迴率.
위료미보수편집거리방법시간복잡도고화빈번로경방법주실과다어의신식적불족,건립XML문당적쌍향로경약속모형,종이경전면지제취XML문당적결구신식,위경정학적XML상사도계산타하기출.인입자연어언영역중성숙적N-Gram사상,장기우N-Gram적화분방식응용재로경약속상사도계산중,가쾌료계산효솔화정학도.운용정정수화각충권치간화N-Gram신식적제취화운산.실험결과표명,방법제고료취류적준학솔화소회솔.