信息与电脑
信息與電腦
신식여전뇌
China Computer & Communication
2015年
12期
32-34
,共3页
相似性度量%类条件概率%词袋模型%信息检索
相似性度量%類條件概率%詞袋模型%信息檢索
상사성도량%류조건개솔%사대모형%신식검색
从特征项的类条件概率密度分布的角度出发,提出一种在词袋模型下基于类条件概率分布的词项合并和聚类算法,该算法以样本相似度的损失函数作为评价准则模型并通过线性搜索寻找最优的新词簇集。实验表明,对于维数较高的数据集,该算法能够取得比较好的降维效果,而且相比较原始特征集的检索精度能达到较大幅度的提升。
從特徵項的類條件概率密度分佈的角度齣髮,提齣一種在詞袋模型下基于類條件概率分佈的詞項閤併和聚類算法,該算法以樣本相似度的損失函數作為評價準則模型併通過線性搜索尋找最優的新詞簇集。實驗錶明,對于維數較高的數據集,該算法能夠取得比較好的降維效果,而且相比較原始特徵集的檢索精度能達到較大幅度的提升。
종특정항적류조건개솔밀도분포적각도출발,제출일충재사대모형하기우류조건개솔분포적사항합병화취류산법,해산법이양본상사도적손실함수작위평개준칙모형병통과선성수색심조최우적신사족집。실험표명,대우유수교고적수거집,해산법능구취득비교호적강유효과,이차상비교원시특정집적검색정도능체도교대폭도적제승。