情报学报
情報學報
정보학보
2007年
5期
643-647
,共5页
文本分类%神经网络%KNN算法
文本分類%神經網絡%KNN算法
문본분류%신경망락%KNN산법
本文提出了一种基于权重优化的样本相似度测量的距离公式,改进了KNN文本分类算法.KNN算法通常采用传统的VSM模型,各个特征具有相同的权重,使其不适应于文本处理的环境.本文首先根据神经网络理论,采用灵敏度方法对文本特征向量的每个特征的权重进行修正,并且采用降低运算量的神经网络特征选择方法进行第二次降维处理.然后根据同一特征对不同类别的文本类的分类作用不同,对距离公式中的特征权重进行进一步改进,从而进一步提高了KNN文本分类算法的精度.
本文提齣瞭一種基于權重優化的樣本相似度測量的距離公式,改進瞭KNN文本分類算法.KNN算法通常採用傳統的VSM模型,各箇特徵具有相同的權重,使其不適應于文本處理的環境.本文首先根據神經網絡理論,採用靈敏度方法對文本特徵嚮量的每箇特徵的權重進行脩正,併且採用降低運算量的神經網絡特徵選擇方法進行第二次降維處理.然後根據同一特徵對不同類彆的文本類的分類作用不同,對距離公式中的特徵權重進行進一步改進,從而進一步提高瞭KNN文本分類算法的精度.
본문제출료일충기우권중우화적양본상사도측량적거리공식,개진료KNN문본분류산법.KNN산법통상채용전통적VSM모형,각개특정구유상동적권중,사기불괄응우문본처리적배경.본문수선근거신경망락이론,채용령민도방법대문본특정향량적매개특정적권중진행수정,병차채용강저운산량적신경망락특정선택방법진행제이차강유처리.연후근거동일특정대불동유별적문본류적분류작용불동,대거리공식중적특정권중진행진일보개진,종이진일보제고료KNN문본분류산법적정도.