系统工程与电子技术
繫統工程與電子技術
계통공정여전자기술
SYSTEMS ENGINEERING AND ELECTRONICS
2014年
3期
591-597
,共7页
张佩云%陈恩红%谢荣见%宫秀文%黄波
張珮雲%陳恩紅%謝榮見%宮秀文%黃波
장패운%진은홍%사영견%궁수문%황파
文本元数据%领域概念树%元数据特征向量%文本相似度
文本元數據%領域概唸樹%元數據特徵嚮量%文本相似度
문본원수거%영역개념수%원수거특정향량%문본상사도
metadata of documents%domain concepts tree%metadata feature vector%documents similarity
随着网络与信息技术的快速发展,导致网络上产生了大量的电子文本,而文本间的相似度计算是文本处理的一种重要手段.对于大规模的文本集,通常采用向量空间模型(vector space model,VSM)进行文本表示,但是该方法面临着文本向量维度较高及文本语义相似度难以度量的问题.提出一种改进的文本相似度计算方法,从大量的特征空间中选择出具有代表性的元数据特征向量元素,以降低向量空间的维度;构建领域概念树并设计基于领域概念树的文本相似度算法,对领域概念中广泛存在的同义词进行处理,以提高文本之间语义相似度度量的性能.实验结果表明:通过降维和概念相似度计算可提高文本相似度计算的性能.
隨著網絡與信息技術的快速髮展,導緻網絡上產生瞭大量的電子文本,而文本間的相似度計算是文本處理的一種重要手段.對于大規模的文本集,通常採用嚮量空間模型(vector space model,VSM)進行文本錶示,但是該方法麵臨著文本嚮量維度較高及文本語義相似度難以度量的問題.提齣一種改進的文本相似度計算方法,從大量的特徵空間中選擇齣具有代錶性的元數據特徵嚮量元素,以降低嚮量空間的維度;構建領域概唸樹併設計基于領域概唸樹的文本相似度算法,對領域概唸中廣汎存在的同義詞進行處理,以提高文本之間語義相似度度量的性能.實驗結果錶明:通過降維和概唸相似度計算可提高文本相似度計算的性能.
수착망락여신식기술적쾌속발전,도치망락상산생료대량적전자문본,이문본간적상사도계산시문본처리적일충중요수단.대우대규모적문본집,통상채용향량공간모형(vector space model,VSM)진행문본표시,단시해방법면림착문본향량유도교고급문본어의상사도난이도량적문제.제출일충개진적문본상사도계산방법,종대량적특정공간중선택출구유대표성적원수거특정향량원소,이강저향량공간적유도;구건영역개념수병설계기우영역개념수적문본상사도산법,대영역개념중엄범존재적동의사진행처리,이제고문본지간어의상사도도량적성능.실험결과표명:통과강유화개념상사도계산가제고문본상사도계산적성능.