中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2012年
2期
116-120
,共5页
唐国瑜%夏云庆%张民%郑方
唐國瑜%夏雲慶%張民%鄭方
당국유%하운경%장민%정방
跨语言文档聚类%跨语言广义向量空间模型%文档聚类%跨语言信息检索
跨語言文檔聚類%跨語言廣義嚮量空間模型%文檔聚類%跨語言信息檢索
과어언문당취류%과어언엄의향량공간모형%문당취류%과어언신식검색
跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇.该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),并且比较了不同相似度在文档聚类下的性能.同时提出了适用于GVSM的特征选择算法.实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA.
跨語言文檔聚類主要是將跨語言文檔按照內容或者話題組織為不同的類簇.該文通過採用跨語言詞相似度計算將單語廣義嚮量空間模型(Generalized Vector Space Model,GVSM)拓展到跨語言文檔錶示中,即跨語言廣義空間嚮量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),併且比較瞭不同相似度在文檔聚類下的性能.同時提齣瞭適用于GVSM的特徵選擇算法.實驗證明,採用SOCPMI詞彙相似度度量算法構造GVSM時,跨語言文檔聚類的性能優于LSA.
과어언문당취류주요시장과어언문당안조내용혹자화제조직위불동적류족.해문통과채용과어언사상사도계산장단어엄의향량공간모형(Generalized Vector Space Model,GVSM)탁전도과어언문당표시중,즉과어언엄의공간향량모형(Cross-Lingual Generalized Vector Space Model,CLGVSM),병차비교료불동상사도재문당취류하적성능.동시제출료괄용우GVSM적특정선택산법.실험증명,채용SOCPMI사회상사도도량산법구조GVSM시,과어언문당취류적성능우우LSA.