计算机技术与发展
計算機技術與髮展
계산궤기술여발전
Computer Technology and Development
2015年
10期
131-134,139
,共5页
梁天超%荆晓远%姚永芳%董西伟
樑天超%荊曉遠%姚永芳%董西偉
량천초%형효원%요영방%동서위
软件缺陷%特征选择%朴素贝叶斯%缺陷预测
軟件缺陷%特徵選擇%樸素貝葉斯%缺陷預測
연건결함%특정선택%박소패협사%결함예측
software defect%feature selection%Naive Bayes%defect prediction
近年来,软件缺陷预测逐渐成为软件工程领域的重要内容。很多典型的机器学习方法已经被应用到软件缺陷预测中,包括SVM、随机森林、决策树和朴素贝叶斯等。早期的研究工作对所有软件产品采取相同的特征提取方式,分类效果并不理想。后来一些特征选择方法被提出,比如基于启发试的回归特征消除方法已经成功与SVM方法结合起来,取得了较好的效果。文中在现有工作基础上借鉴了RFE(回归特征消除)的思想,考虑到朴素贝叶斯方法在处理小样本分类问题时的优越性,首次将RFE与朴素贝叶斯方法结合起来,利用贝叶斯模型的特性在特征选择后将特征权值应用到对分类决策的改进中,进一步提高了分类器性能。实验采用NASA的软件缺陷数据集,并对比了其他效果较好的分类算法,体现了该算法的优越性和有效性。
近年來,軟件缺陷預測逐漸成為軟件工程領域的重要內容。很多典型的機器學習方法已經被應用到軟件缺陷預測中,包括SVM、隨機森林、決策樹和樸素貝葉斯等。早期的研究工作對所有軟件產品採取相同的特徵提取方式,分類效果併不理想。後來一些特徵選擇方法被提齣,比如基于啟髮試的迴歸特徵消除方法已經成功與SVM方法結閤起來,取得瞭較好的效果。文中在現有工作基礎上藉鑒瞭RFE(迴歸特徵消除)的思想,攷慮到樸素貝葉斯方法在處理小樣本分類問題時的優越性,首次將RFE與樸素貝葉斯方法結閤起來,利用貝葉斯模型的特性在特徵選擇後將特徵權值應用到對分類決策的改進中,進一步提高瞭分類器性能。實驗採用NASA的軟件缺陷數據集,併對比瞭其他效果較好的分類算法,體現瞭該算法的優越性和有效性。
근년래,연건결함예측축점성위연건공정영역적중요내용。흔다전형적궤기학습방법이경피응용도연건결함예측중,포괄SVM、수궤삼림、결책수화박소패협사등。조기적연구공작대소유연건산품채취상동적특정제취방식,분류효과병불이상。후래일사특정선택방법피제출,비여기우계발시적회귀특정소제방법이경성공여SVM방법결합기래,취득료교호적효과。문중재현유공작기출상차감료RFE(회귀특정소제)적사상,고필도박소패협사방법재처리소양본분류문제시적우월성,수차장RFE여박소패협사방법결합기래,이용패협사모형적특성재특정선택후장특정권치응용도대분류결책적개진중,진일보제고료분류기성능。실험채용NASA적연건결함수거집,병대비료기타효과교호적분류산법,체현료해산법적우월성화유효성。
In recent years,software defect prediction is becoming an important part of the software engineering field. Many typical meth-ods like SVM,random forest,decision trees and Bayes have been applied to software defect prediction. However,earlier research almost takes the same feature set to train all kinds of software products and does not achieve a desired effect. Years later,some feature selection method are proposed. For example,the method combined recursive feature elimination and SVM,has got a good effect. In this paper, based on existing work,propose an algorithm which combines recursive feature elimination and Native Bayes. This algorithm will do a se-lection of feature set before training the model according to the contribution of each feature to get the optimal feature subset to be the in-put to train the model. The experiment adopts the software defect data set of NASA. Make a comparison with other machine learning methods,the experimental results demonstrate the superiority and effectiveness of this method.