东南大学学报(英文版)
東南大學學報(英文版)
동남대학학보(영문판)
JOURNAL OF SOUTHEAST UNIVERSITY
2008年
3期
312-314
,共3页
deep web%信息检索%潜在语义分析%奇异值分解
deep web%信息檢索%潛在語義分析%奇異值分解
deep web%신식검색%잠재어의분석%기이치분해
deep web%information retrieval%latent semanticanalysis%singular value decomposition
为了进一步提高搜索引擎的效率,实现对deep web中所蕴含的大量有用信息的检索、索引和定位,引入潜在语义分析理论是一种简单而有效的方法.通过对作为deep web站点入口的查询界面里的表单属性进行潜在语义分析,从表单属性中挖掘出潜在语义结构,并实现一定程度上的降维.利用这种潜在语义结构,推断对应站点的数据内容并改善不同站点的相似度计算.实验结果显示,潜在语义分析修正和改善了deep web站点的表单属性的语义理解,弥补了单纯的关键字匹配带来的一些不足.该方法可以被用来实现为某一站点查找网络上相似度高的站点及通过键入表单属性给出拥有相似表单的站点列表.
為瞭進一步提高搜索引擎的效率,實現對deep web中所蘊含的大量有用信息的檢索、索引和定位,引入潛在語義分析理論是一種簡單而有效的方法.通過對作為deep web站點入口的查詢界麵裏的錶單屬性進行潛在語義分析,從錶單屬性中挖掘齣潛在語義結構,併實現一定程度上的降維.利用這種潛在語義結構,推斷對應站點的數據內容併改善不同站點的相似度計算.實驗結果顯示,潛在語義分析脩正和改善瞭deep web站點的錶單屬性的語義理解,瀰補瞭單純的關鍵字匹配帶來的一些不足.該方法可以被用來實現為某一站點查找網絡上相似度高的站點及通過鍵入錶單屬性給齣擁有相似錶單的站點列錶.
위료진일보제고수색인경적효솔,실현대deep web중소온함적대량유용신식적검색、색인화정위,인입잠재어의분석이론시일충간단이유효적방법.통과대작위deep web참점입구적사순계면리적표단속성진행잠재어의분석,종표단속성중알굴출잠재어의결구,병실현일정정도상적강유.이용저충잠재어의결구,추단대응참점적수거내용병개선불동참점적상사도계산.실험결과현시,잠재어의분석수정화개선료deep web참점적표단속성적어의리해,미보료단순적관건자필배대래적일사불족.해방법가이피용래실현위모일참점사조망락상상사도고적참점급통과건입표단속성급출옹유상사표단적참점렬표.
To further enhance the efficiencies of search engines, achieving capabilities of searching, indexing and locating the information in the deep web, latent semantic analysis is a simple and effective way. Through the latent semantic analysis of the attributes in the query interfaces and the unique entrances of the deep web sites, the hidden semantic structure information can be retrieved and dimension reduction can be achieved to a certain extent. Using this semantic structure information, the contents in the site can be inferred and the similarity measures among sites in deep web can be revised. Experimental results show that latent semantic analysis revises and improves the semantic understanding of the query form in the deep web, which overcomes the shortcomings of the keyword-based methods. This approach can be used to effectively search the most similar site for any given site and to obtain a site list which conforms to the restrictions one specifies.