计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2011年
z2期
575-582
,共8页
潜在语义分析%基于链接的聚类算法%查询扩展
潛在語義分析%基于鏈接的聚類算法%查詢擴展
잠재어의분석%기우련접적취류산법%사순확전
潜在语义分析(LSA)是一种用于自动实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从其中挖掘出词语之间的潜在联系.LSA有效地解决了一义多词的问题,但是,由于LSA在大矩阵的计算效率和存储上的不足,这限制了LSA在大规模数据集上的应用.另一方面,在关系数据库中,数据对象通过多种类型的链接连接到一起.这些链接中蕴藏了丰富的语义信息.数据对象之间的相似性也可以通过这些链接体现出来.针对这个特点,提出了一种基于链接聚类的查询算法:利用数据对象之间的链接对数据对象进行聚类,用聚类代替文档来进行LSA处理,有效地减少处理文档的个数;在检索的过程中,寻找与关键字序列相似度最接近的簇,然后将簇内的文档返回给用户.实验结果表明,所提出的方法能够充分利用数据对象之间的链接,聚类效果明显;利用聚类后进行LSA处理,能够成倍地提高空间和时间开销,对精确度有提高作用.
潛在語義分析(LSA)是一種用于自動實現知識提取和錶示的理論和方法,它通過對大量的文本集進行統計分析,從其中挖掘齣詞語之間的潛在聯繫.LSA有效地解決瞭一義多詞的問題,但是,由于LSA在大矩陣的計算效率和存儲上的不足,這限製瞭LSA在大規模數據集上的應用.另一方麵,在關繫數據庫中,數據對象通過多種類型的鏈接連接到一起.這些鏈接中蘊藏瞭豐富的語義信息.數據對象之間的相似性也可以通過這些鏈接體現齣來.針對這箇特點,提齣瞭一種基于鏈接聚類的查詢算法:利用數據對象之間的鏈接對數據對象進行聚類,用聚類代替文檔來進行LSA處理,有效地減少處理文檔的箇數;在檢索的過程中,尋找與關鍵字序列相似度最接近的簇,然後將簇內的文檔返迴給用戶.實驗結果錶明,所提齣的方法能夠充分利用數據對象之間的鏈接,聚類效果明顯;利用聚類後進行LSA處理,能夠成倍地提高空間和時間開銷,對精確度有提高作用.
잠재어의분석(LSA)시일충용우자동실현지식제취화표시적이론화방법,타통과대대량적문본집진행통계분석,종기중알굴출사어지간적잠재련계.LSA유효지해결료일의다사적문제,단시,유우LSA재대구진적계산효솔화존저상적불족,저한제료LSA재대규모수거집상적응용.령일방면,재관계수거고중,수거대상통과다충류형적련접련접도일기.저사련접중온장료봉부적어의신식.수거대상지간적상사성야가이통과저사련접체현출래.침대저개특점,제출료일충기우련접취류적사순산법:이용수거대상지간적련접대수거대상진행취류,용취류대체문당래진행LSA처리,유효지감소처리문당적개수;재검색적과정중,심조여관건자서렬상사도최접근적족,연후장족내적문당반회급용호.실험결과표명,소제출적방법능구충분이용수거대상지간적련접,취류효과명현;이용취류후진행LSA처리,능구성배지제고공간화시간개소,대정학도유제고작용.