计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2011年
2期
224-231
,共8页
语义聚类%独立分量分析%查询模型%相关模型%语言模型%伪相关反馈
語義聚類%獨立分量分析%查詢模型%相關模型%語言模型%偽相關反饋
어의취류%독립분량분석%사순모형%상관모형%어언모형%위상관반궤
如何有效生成文档聚类并使用聚类信息提高检索效果是信息检索中的重要研究课题.如果假设文档中存在若干隐含的独立主题,那么文档可以看成是由这些隐含的独立主题混合噪声相互作用的结果.基于这个假设提出了一种基于独立分量分析的语义聚类技术,试图借助于独立分量分析的良好主题区分能力,将一组文档按照实际隐含的主题在语义空间上聚类.在语言模型的框架下,语义主题聚类将由用户初始查询按照一定的度量方式激活.利用激活语义聚类的信息估计一个反馈语义主题模型,并与初始查询模型一起形成新的查询模型.在5个TREC数据集上的实验结果表明:基于统计语义聚类估计的查询模型相比传统的查询模型以及其他基于聚类的语言模型在检索性能上有显著性提高.其主要原因是应用了和用户查询最相似的语义聚类信息来估计查询模型.
如何有效生成文檔聚類併使用聚類信息提高檢索效果是信息檢索中的重要研究課題.如果假設文檔中存在若榦隱含的獨立主題,那麽文檔可以看成是由這些隱含的獨立主題混閤譟聲相互作用的結果.基于這箇假設提齣瞭一種基于獨立分量分析的語義聚類技術,試圖藉助于獨立分量分析的良好主題區分能力,將一組文檔按照實際隱含的主題在語義空間上聚類.在語言模型的框架下,語義主題聚類將由用戶初始查詢按照一定的度量方式激活.利用激活語義聚類的信息估計一箇反饋語義主題模型,併與初始查詢模型一起形成新的查詢模型.在5箇TREC數據集上的實驗結果錶明:基于統計語義聚類估計的查詢模型相比傳統的查詢模型以及其他基于聚類的語言模型在檢索性能上有顯著性提高.其主要原因是應用瞭和用戶查詢最相似的語義聚類信息來估計查詢模型.
여하유효생성문당취류병사용취류신식제고검색효과시신식검색중적중요연구과제.여과가설문당중존재약간은함적독립주제,나요문당가이간성시유저사은함적독립주제혼합조성상호작용적결과.기우저개가설제출료일충기우독립분량분석적어의취류기술,시도차조우독립분량분석적량호주제구분능력,장일조문당안조실제은함적주제재어의공간상취류.재어언모형적광가하,어의주제취류장유용호초시사순안조일정적도량방식격활.이용격활어의취류적신식고계일개반궤어의주제모형,병여초시사순모형일기형성신적사순모형.재5개TREC수거집상적실험결과표명:기우통계어의취류고계적사순모형상비전통적사순모형이급기타기우취류적어언모형재검색성능상유현저성제고.기주요원인시응용료화용호사순최상사적어의취류신식래고계사순모형.