科学技术与工程
科學技術與工程
과학기술여공정
SCIENCE TECHNOLOGY AND ENGINEERING
2013年
1期
219-222
,共4页
苟和平%景永霞%冯百明%李勇
茍和平%景永霞%馮百明%李勇
구화평%경영하%풍백명%리용
K最近邻%文本分类%样本裁剪
K最近鄰%文本分類%樣本裁剪
K최근린%문본분류%양본재전
K最近邻算法(KNN)在分类时,需要计算待分类样本与训练样本集中每个样本之间的相似度.当训练样本过多时,计算代价大,分类效率降低.因此,提出一种基于DBSCAN聚类的改进算法.利用DBSCAN聚类消除训练样本的噪声数据.同时,对于核心样本集中的样本,根据其样本相似度阈值和密度进行样本裁剪,以缩减与待分类样本计算相似度的训练样本个数.实验表明此算法能够在保持基本分类能力不变的情况下,有效地降低分类计算量.
K最近鄰算法(KNN)在分類時,需要計算待分類樣本與訓練樣本集中每箇樣本之間的相似度.噹訓練樣本過多時,計算代價大,分類效率降低.因此,提齣一種基于DBSCAN聚類的改進算法.利用DBSCAN聚類消除訓練樣本的譟聲數據.同時,對于覈心樣本集中的樣本,根據其樣本相似度閾值和密度進行樣本裁剪,以縮減與待分類樣本計算相似度的訓練樣本箇數.實驗錶明此算法能夠在保持基本分類能力不變的情況下,有效地降低分類計算量.
K최근린산법(KNN)재분류시,수요계산대분류양본여훈련양본집중매개양본지간적상사도.당훈련양본과다시,계산대개대,분류효솔강저.인차,제출일충기우DBSCAN취류적개진산법.이용DBSCAN취류소제훈련양본적조성수거.동시,대우핵심양본집중적양본,근거기양본상사도역치화밀도진행양본재전,이축감여대분류양본계산상사도적훈련양본개수.실험표명차산법능구재보지기본분류능력불변적정황하,유효지강저분류계산량.