计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2012年
2期
346-353
,共8页
李雄飞%李军%屈成伟%刘丽娟%孙涛
李雄飛%李軍%屈成偉%劉麗娟%孫濤
리웅비%리군%굴성위%류려연%손도
分类%偏斜训练集%平衡算法%少数类别样例%模
分類%偏斜訓練集%平衡算法%少數類彆樣例%模
분류%편사훈련집%평형산법%소수유별양례%모
分类是数据挖掘的重要任务之一,训练分类器的训练集可能是偏斜数据.传统分类算法处理偏斜训练集,通常会使少数类别样例的分类精度很低.已有的偏斜训练集平衡算法都是针对只有两种目标类的情况.为平衡拥有多种目标类的偏斜训练集,基于同类样例差异较小的思想给出SSGP算法,在同类样例附近增加少数类别样例,且使多种少数类别样例同速增加.并证明SSGP算法不会向数据集中添加噪声样例.为提高效率,用样例取模取代大量相异度计算.实验表明,只需执行一遍SSGP算法就能同时提高多种少数类别样例的分类精度.
分類是數據挖掘的重要任務之一,訓練分類器的訓練集可能是偏斜數據.傳統分類算法處理偏斜訓練集,通常會使少數類彆樣例的分類精度很低.已有的偏斜訓練集平衡算法都是針對隻有兩種目標類的情況.為平衡擁有多種目標類的偏斜訓練集,基于同類樣例差異較小的思想給齣SSGP算法,在同類樣例附近增加少數類彆樣例,且使多種少數類彆樣例同速增加.併證明SSGP算法不會嚮數據集中添加譟聲樣例.為提高效率,用樣例取模取代大量相異度計算.實驗錶明,隻需執行一遍SSGP算法就能同時提高多種少數類彆樣例的分類精度.
분류시수거알굴적중요임무지일,훈련분류기적훈련집가능시편사수거.전통분류산법처리편사훈련집,통상회사소수유별양례적분류정도흔저.이유적편사훈련집평형산법도시침대지유량충목표류적정황.위평형옹유다충목표류적편사훈련집,기우동류양례차이교소적사상급출SSGP산법,재동류양례부근증가소수유별양례,차사다충소수유별양례동속증가.병증명SSGP산법불회향수거집중첨가조성양례.위제고효솔,용양례취모취대대량상이도계산.실험표명,지수집행일편SSGP산법취능동시제고다충소수유별양례적분류정도.