计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2011年
1期
143-149
,共7页
王君泽%黄本雄%胡广%温杰
王君澤%黃本雄%鬍廣%溫傑
왕군택%황본웅%호엄%온걸
短文本分类%Kullback-Leibler Distance%语言模型
短文本分類%Kullback-Leibler Distance%語言模型
단문본분류%Kullback-Leibler Distance%어언모형
类似"百度知道"这类社区问答服务系统的主要任务之一是对问题进行分类,以便于对用户的提问进行组织.社区问答服务的实际应用需求对问题分类算法提出了高准确性、小计算量、对噪音数据敏感度低等要求.基于Kullback-Leibler Distance的分类算法在大规模文本和高维向量分类任务中表现出较高的分类精度,本文在该分类算法的基础上,结合语言模型的思想,提出一种改进的分类算法:n-gram KLD.通过在一个大尺度的问答对数据集合上进行的一系列实验,表明n-gram KLD算法在问题分类任务中取得了优于传统算法的分类效果,并且在计算复杂度以及对噪声数据敏感度方面都较好地满足了问题分类任务的要求.
類似"百度知道"這類社區問答服務繫統的主要任務之一是對問題進行分類,以便于對用戶的提問進行組織.社區問答服務的實際應用需求對問題分類算法提齣瞭高準確性、小計算量、對譟音數據敏感度低等要求.基于Kullback-Leibler Distance的分類算法在大規模文本和高維嚮量分類任務中錶現齣較高的分類精度,本文在該分類算法的基礎上,結閤語言模型的思想,提齣一種改進的分類算法:n-gram KLD.通過在一箇大呎度的問答對數據集閤上進行的一繫列實驗,錶明n-gram KLD算法在問題分類任務中取得瞭優于傳統算法的分類效果,併且在計算複雜度以及對譟聲數據敏感度方麵都較好地滿足瞭問題分類任務的要求.
유사"백도지도"저류사구문답복무계통적주요임무지일시대문제진행분류,이편우대용호적제문진행조직.사구문답복무적실제응용수구대문제분류산법제출료고준학성、소계산량、대조음수거민감도저등요구.기우Kullback-Leibler Distance적분류산법재대규모문본화고유향량분류임무중표현출교고적분류정도,본문재해분류산법적기출상,결합어언모형적사상,제출일충개진적분류산법:n-gram KLD.통과재일개대척도적문답대수거집합상진행적일계렬실험,표명n-gram KLD산법재문제분류임무중취득료우우전통산법적분류효과,병차재계산복잡도이급대조성수거민감도방면도교호지만족료문제분류임무적요구.