图书情报知识
圖書情報知識
도서정보지식
Documentation,Information & Knowledge
2010年
4期
71~76
,共null页
李湘东 徐朋 黄莉 沈祥兴
李湘東 徐朋 黃莉 瀋祥興
리상동 서붕 황리 침상흥
KNN算法 自动归类 栏目 Jensen—Shannon散度 动态k值
KNN算法 自動歸類 欄目 Jensen—Shannon散度 動態k值
KNN산법 자동귀류 란목 Jensen—Shannon산도 동태k치
KNN algorithm Categorization Columns Jensen-Shannon divergence Dynamic k value
本文将期刊目录中按照主题设置的有关栏目(常设主题栏目)看作不同的类别,应用改进的KNN算法对属于不同类别(栏目)的期刊论文进行自动归类(归栏)处理。在分析期刊常设主题栏目特征的基础之上,从建立自动分类所需的训练文本集、测试集及分类(归栏)效果评价等多个方面加以定义,利用Jensen—shannon散度计算文本间的相似度,按照栏目动态决定k值等方面对KNN算法的基本原理加以改进。该方法以论文标题、摘要和作者关键词构成的短小文本为分类对象,对期刊常设主题栏目的自动归类(归栏)处理取得77.25%的F测度值,可以针对短小文本以及训练文本数量有限的情况下开展有效的文本自动分类处理。
本文將期刊目錄中按照主題設置的有關欄目(常設主題欄目)看作不同的類彆,應用改進的KNN算法對屬于不同類彆(欄目)的期刊論文進行自動歸類(歸欄)處理。在分析期刊常設主題欄目特徵的基礎之上,從建立自動分類所需的訓練文本集、測試集及分類(歸欄)效果評價等多箇方麵加以定義,利用Jensen—shannon散度計算文本間的相似度,按照欄目動態決定k值等方麵對KNN算法的基本原理加以改進。該方法以論文標題、摘要和作者關鍵詞構成的短小文本為分類對象,對期刊常設主題欄目的自動歸類(歸欄)處理取得77.25%的F測度值,可以針對短小文本以及訓練文本數量有限的情況下開展有效的文本自動分類處理。
본문장기간목록중안조주제설치적유관란목(상설주제란목)간작불동적유별,응용개진적KNN산법대속우불동유별(란목)적기간논문진행자동귀류(귀란)처리。재분석기간상설주제란목특정적기출지상,종건립자동분류소수적훈련문본집、측시집급분류(귀란)효과평개등다개방면가이정의,이용Jensen—shannon산도계산문본간적상사도,안조란목동태결정k치등방면대KNN산법적기본원리가이개진。해방법이논문표제、적요화작자관건사구성적단소문본위분류대상,대기간상설주제란목적자동귀류(귀란)처리취득77.25%적F측도치,가이침대단소문본이급훈련문본수량유한적정황하개전유효적문본자동분류처리。
Looking the regular subject columns of journals as categories, this work improves KNN algorithm so that it is suitable to categorize manuscript to proper columns to further review with expert in the field. Based on the feature of regular columns of academic journals, this work explains a way how to collect dataset from a journals as corpus; uses Jensen-Shannon Divergence to calculate similarity between documents which is constituted from title, abstract and author keywords; dynamically determine k value; defines evaluation method how to use published papers in the regular subject columns in past years. The results demonstrate a significant F1 score of 77.25%.