计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2013年
7期
280-282
,共3页
虚拟样本%样本集扩充%特征向量%标签赋值
虛擬樣本%樣本集擴充%特徵嚮量%標籤賦值
허의양본%양본집확충%특정향량%표첨부치
Virtual samples%Training sample set expansion%Feature vectors%Label assignment
虚拟样本是一种在学习过程中引入先验知识的有效手段,一定程度上提高了分类器的性能.然而由于生成的虚拟样本集的数据分布与原始训练集的分布不一致,因此利用虚拟样本扩充后的训练样本集进行学习的分类器分类性能上存在波动.针对这种不足,提出一种基于权重选择虚拟样本的新分类算法.该方法首先利用TrAdaBoost算法对扩充后的样本集进行预处理,然后选取权重大于某一给定阈值的样本构造新训练样本集,最后根据新样本集进行训练得到分类器.由于排出了不重要的样本,因此在新样本集上得到的分类器具有更高的精度.在部分UCI标准数据集与KDD cup 99网络入侵检测数据集上的对比实验说明了该算法较不产生虚拟样本的直接分类算法和利用虚拟样本全集进行训练的分类算法具有更高的精度.
虛擬樣本是一種在學習過程中引入先驗知識的有效手段,一定程度上提高瞭分類器的性能.然而由于生成的虛擬樣本集的數據分佈與原始訓練集的分佈不一緻,因此利用虛擬樣本擴充後的訓練樣本集進行學習的分類器分類性能上存在波動.針對這種不足,提齣一種基于權重選擇虛擬樣本的新分類算法.該方法首先利用TrAdaBoost算法對擴充後的樣本集進行預處理,然後選取權重大于某一給定閾值的樣本構造新訓練樣本集,最後根據新樣本集進行訓練得到分類器.由于排齣瞭不重要的樣本,因此在新樣本集上得到的分類器具有更高的精度.在部分UCI標準數據集與KDD cup 99網絡入侵檢測數據集上的對比實驗說明瞭該算法較不產生虛擬樣本的直接分類算法和利用虛擬樣本全集進行訓練的分類算法具有更高的精度.
허의양본시일충재학습과정중인입선험지식적유효수단,일정정도상제고료분류기적성능.연이유우생성적허의양본집적수거분포여원시훈련집적분포불일치,인차이용허의양본확충후적훈련양본집진행학습적분류기분류성능상존재파동.침대저충불족,제출일충기우권중선택허의양본적신분류산법.해방법수선이용TrAdaBoost산법대확충후적양본집진행예처리,연후선취권중대우모일급정역치적양본구조신훈련양본집,최후근거신양본집진행훈련득도분류기.유우배출료불중요적양본,인차재신양본집상득도적분류기구유경고적정도.재부분UCI표준수거집여KDD cup 99망락입침검측수거집상적대비실험설명료해산법교불산생허의양본적직접분류산법화이용허의양본전집진행훈련적분류산법구유경고적정도.