计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2008年
10期
178-180,218
,共4页
贾西平%彭宏%郑启伦%石时需
賈西平%彭宏%鄭啟倫%石時需
가서평%팽굉%정계륜%석시수
主题%主题相似性%文档相关性%文本挖掘
主題%主題相似性%文檔相關性%文本挖掘
주제%주제상사성%문당상관성%문본알굴
现有文档关系分析模型难以从主题层次上判别文档相关性.为此,提出了一个基于主题的概率文档相关模型(TPDC).TPDC借助Latent Dirichlet Allocation模型学习文档的主题结构;在计算出主题后验概率和主题相似度的基础上推导出文档后验概率;基于文档后验概率构建文档相关性分析模型.实验结果证明,TPDC模型在文档检索精度和文档压缩程度两方面优于向量空间模型,因而更能胜任实际应用中的文档检索任务.
現有文檔關繫分析模型難以從主題層次上判彆文檔相關性.為此,提齣瞭一箇基于主題的概率文檔相關模型(TPDC).TPDC藉助Latent Dirichlet Allocation模型學習文檔的主題結構;在計算齣主題後驗概率和主題相似度的基礎上推導齣文檔後驗概率;基于文檔後驗概率構建文檔相關性分析模型.實驗結果證明,TPDC模型在文檔檢索精度和文檔壓縮程度兩方麵優于嚮量空間模型,因而更能勝任實際應用中的文檔檢索任務.
현유문당관계분석모형난이종주제층차상판별문당상관성.위차,제출료일개기우주제적개솔문당상관모형(TPDC).TPDC차조Latent Dirichlet Allocation모형학습문당적주제결구;재계산출주제후험개솔화주제상사도적기출상추도출문당후험개솔;기우문당후험개솔구건문당상관성분석모형.실험결과증명,TPDC모형재문당검색정도화문당압축정도량방면우우향량공간모형,인이경능성임실제응용중적문당검색임무.