华南理工大学学报(自然科学版)
華南理工大學學報(自然科學版)
화남리공대학학보(자연과학판)
JOURNAL OF SOUTH CHINA UNIVERSITY OF TECHNOLOGY(NATURAL SCIENCE EDITION)
2008年
9期
37-42
,共6页
贾西平%彭宏%郑启伦%石时需%江焯林
賈西平%彭宏%鄭啟倫%石時需%江焯林
가서평%팽굉%정계륜%석시수%강작림
主题%文档相似性%文档检索%信息检索%数据挖掘
主題%文檔相似性%文檔檢索%信息檢索%數據挖掘
주제%문당상사성%문당검색%신식검색%수거알굴
现有文档检索模型大多缺乏语义学习能力,难以从主题层次上学习文档相似性.为此,文中提出了一种基于主题的文档检索模型TDRM.TDRM为所有文档建立公共主题空间,把每篇文档表示为公共主题空间中的一个向量,用向量夹角余弦定义文档相似度,并利用Latent Dirichlet Allocation学习每篇文档的主题分布.实验结果表明,与基于TextTiling和二分图最佳匹配的文档相似模型相比,TDRM在相似文档检索方面有更高的平均查准率和平均查全率,且平均查准率和平均查全率的调和平均数约高出参考模型44%.
現有文檔檢索模型大多缺乏語義學習能力,難以從主題層次上學習文檔相似性.為此,文中提齣瞭一種基于主題的文檔檢索模型TDRM.TDRM為所有文檔建立公共主題空間,把每篇文檔錶示為公共主題空間中的一箇嚮量,用嚮量夾角餘絃定義文檔相似度,併利用Latent Dirichlet Allocation學習每篇文檔的主題分佈.實驗結果錶明,與基于TextTiling和二分圖最佳匹配的文檔相似模型相比,TDRM在相似文檔檢索方麵有更高的平均查準率和平均查全率,且平均查準率和平均查全率的調和平均數約高齣參攷模型44%.
현유문당검색모형대다결핍어의학습능력,난이종주제층차상학습문당상사성.위차,문중제출료일충기우주제적문당검색모형TDRM.TDRM위소유문당건립공공주제공간,파매편문당표시위공공주제공간중적일개향량,용향량협각여현정의문당상사도,병이용Latent Dirichlet Allocation학습매편문당적주제분포.실험결과표명,여기우TextTiling화이분도최가필배적문당상사모형상비,TDRM재상사문당검색방면유경고적평균사준솔화평균사전솔,차평균사준솔화평균사전솔적조화평균수약고출삼고모형44%.