计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2013年
6期
2200-2203,2211
,共5页
余弦%距离度量学习%伪K近邻%文本分类%向量空间模型
餘絃%距離度量學習%偽K近鄰%文本分類%嚮量空間模型
여현%거리도량학습%위K근린%문본분류%향량공간모형
cosine%distance metric learning%pseudo-K-nearest neighbor%text classification%vector space model
距离度量学习在分类领域有着广泛的应用,将其应用到文本分类时,由于一般采用的向量空间模型(VSM)中的TF*IDF算法在对文本向量表达时向量均是维度相同并且归一化的,这就导致传统距离度量学习过程中采用的欧式距离作为相似度判别标准在文本分类领域往往无法取得预期的效果,在距离度量学习中的LMNN算法的启发下提出一种余弦距离度量学习算法,使其适应于文本分类领域,称之为CS-LMNN.考虑到文本分类领域中样本类偏斜情况比较普遍,提出采用一种伪K近邻分类算法与CS-LMNN结合实现文本分类,该算法首先利用CS-LMNN算法对训练数据进行距离度量学习,根据训练结果对测试数据使用伪K近邻分类算法进行分类,实验结果表明,该算法可以有效的提高分类精度.
距離度量學習在分類領域有著廣汎的應用,將其應用到文本分類時,由于一般採用的嚮量空間模型(VSM)中的TF*IDF算法在對文本嚮量錶達時嚮量均是維度相同併且歸一化的,這就導緻傳統距離度量學習過程中採用的歐式距離作為相似度判彆標準在文本分類領域往往無法取得預期的效果,在距離度量學習中的LMNN算法的啟髮下提齣一種餘絃距離度量學習算法,使其適應于文本分類領域,稱之為CS-LMNN.攷慮到文本分類領域中樣本類偏斜情況比較普遍,提齣採用一種偽K近鄰分類算法與CS-LMNN結閤實現文本分類,該算法首先利用CS-LMNN算法對訓練數據進行距離度量學習,根據訓練結果對測試數據使用偽K近鄰分類算法進行分類,實驗結果錶明,該算法可以有效的提高分類精度.
거리도량학습재분류영역유착엄범적응용,장기응용도문본분류시,유우일반채용적향량공간모형(VSM)중적TF*IDF산법재대문본향량표체시향량균시유도상동병차귀일화적,저취도치전통거리도량학습과정중채용적구식거리작위상사도판별표준재문본분류영역왕왕무법취득예기적효과,재거리도량학습중적LMNN산법적계발하제출일충여현거리도량학습산법,사기괄응우문본분류영역,칭지위CS-LMNN.고필도문본분류영역중양본류편사정황비교보편,제출채용일충위K근린분류산법여CS-LMNN결합실현문본분류,해산법수선이용CS-LMNN산법대훈련수거진행거리도량학습,근거훈련결과대측시수거사용위K근린분류산법진행분류,실험결과표명,해산법가이유효적제고분류정도.