长沙理工大学学报(自然科学版)
長沙理工大學學報(自然科學版)
장사리공대학학보(자연과학판)
Journal of Changsha University of Science and Technology(Natural Science)
2015年
2期
72-77
,共6页
潜在语义索引%检索结果聚类%权重算法%聚类算法
潛在語義索引%檢索結果聚類%權重算法%聚類算法
잠재어의색인%검색결과취류%권중산법%취류산법
latent semantic indexing(LSI)%clustering search results%weighting algorithms%clustering algorithms
在XML文档检索中,结果聚类是一种改善检索效果的有效方法,其文档距离度量是影响聚类质量的关键因素.针对XML文档检索结果聚类中TF×IDF方法的频率因子和长度因子处理上的不合理和不能突显重要词条的缺点,提出了一种基于“频率因子”和“长度因子”的新权重方案.并在建立向量空间模型时引入LSI理论,在词条之间搭建了语义关系,减少了原词-文档矩阵中包含的噪声,聚类速度和精度都有所提高.在IEEE无类别信息数据集上试验表明,与同类相似度计算方法和聚类方法相比,本研究方法在聚类速度和效果上都有所提高和改善.
在XML文檔檢索中,結果聚類是一種改善檢索效果的有效方法,其文檔距離度量是影響聚類質量的關鍵因素.針對XML文檔檢索結果聚類中TF×IDF方法的頻率因子和長度因子處理上的不閤理和不能突顯重要詞條的缺點,提齣瞭一種基于“頻率因子”和“長度因子”的新權重方案.併在建立嚮量空間模型時引入LSI理論,在詞條之間搭建瞭語義關繫,減少瞭原詞-文檔矩陣中包含的譟聲,聚類速度和精度都有所提高.在IEEE無類彆信息數據集上試驗錶明,與同類相似度計算方法和聚類方法相比,本研究方法在聚類速度和效果上都有所提高和改善.
재XML문당검색중,결과취류시일충개선검색효과적유효방법,기문당거리도량시영향취류질량적관건인소.침대XML문당검색결과취류중TF×IDF방법적빈솔인자화장도인자처리상적불합리화불능돌현중요사조적결점,제출료일충기우“빈솔인자”화“장도인자”적신권중방안.병재건립향량공간모형시인입LSI이론,재사조지간탑건료어의관계,감소료원사-문당구진중포함적조성,취류속도화정도도유소제고.재IEEE무유별신식수거집상시험표명,여동류상사도계산방법화취류방법상비,본연구방법재취류속도화효과상도유소제고화개선.