情报学报
情報學報
정보학보
2007年
1期
60-64
,共5页
KNN%文本分类%相似度
KNN%文本分類%相似度
KNN%문본분류%상사도
KNN算法是一种简单、有效、非参数的Web文本分类方法.传统KNN方法的明显缺陷是样本相似度的计算量很大,使其在具有大量高维样本的Web文本分类中缺乏实用性.本文提出一种快速查找精确的k个最近邻的FKNN(Fast-k-Nearest-Neighbor)算法.FKNN算法首先选择一个样本作为基准点,并将所有样本按照距基准样本的距离进行排序并建立索引表,然后根据索引表和有序队列查找k个最近邻,减小了查找范围,极大降低了相似度计算量.
KNN算法是一種簡單、有效、非參數的Web文本分類方法.傳統KNN方法的明顯缺陷是樣本相似度的計算量很大,使其在具有大量高維樣本的Web文本分類中缺乏實用性.本文提齣一種快速查找精確的k箇最近鄰的FKNN(Fast-k-Nearest-Neighbor)算法.FKNN算法首先選擇一箇樣本作為基準點,併將所有樣本按照距基準樣本的距離進行排序併建立索引錶,然後根據索引錶和有序隊列查找k箇最近鄰,減小瞭查找範圍,極大降低瞭相似度計算量.
KNN산법시일충간단、유효、비삼수적Web문본분류방법.전통KNN방법적명현결함시양본상사도적계산량흔대,사기재구유대량고유양본적Web문본분류중결핍실용성.본문제출일충쾌속사조정학적k개최근린적FKNN(Fast-k-Nearest-Neighbor)산법.FKNN산법수선선택일개양본작위기준점,병장소유양본안조거기준양본적거리진행배서병건립색인표,연후근거색인표화유서대렬사조k개최근린,감소료사조범위,겁대강저료상사도계산량.