淮北师范大学学报(自然科学版)
淮北師範大學學報(自然科學版)
회북사범대학학보(자연과학판)
JOURNAL OF HUAIBEI COAL INDUSTRY TEACHERS COLLEGE(NATURAL SCIENCE)
2015年
2期
12-20
,共9页
分类算法%不完整数据%决策树%权重%模糊决策%Boosting算法
分類算法%不完整數據%決策樹%權重%模糊決策%Boosting算法
분류산법%불완정수거%결책수%권중%모호결책%Boosting산법
classification algorithm%incomplete data%decision tree%weight%fuzzy decision%Boosting algorithm
中医药领域不完整的数据普遍存在,而数据的不完整很大程度地降低分类模型的学习效果。大多数已有的处理不完整数据的分类算法只关注在其学习阶段处理不完整数据,而对于不完整数据出现在分类阶段则不能处理或效果不好。文章提出一种新的分类算法用于处理不完整数据的分类问题。首先给出一个新的用于处理不完整数据的决策树算法,并针对传统的Boosting算法在迭代过程中使用确定性决策方法而没有充分考虑到数据集中的不完整数据,进一步提出改进的Boosting算法,在迭代过程中对每一个假设使用模糊决策方法,权重的更新机制是增加错误分类样本的权重和减少正确分类样本的权重,最终使用加权投票的方式得出最优的分类结果。最后,通过两组实验证明提出的算法策略在处理不完整数据问题时的优越性。
中醫藥領域不完整的數據普遍存在,而數據的不完整很大程度地降低分類模型的學習效果。大多數已有的處理不完整數據的分類算法隻關註在其學習階段處理不完整數據,而對于不完整數據齣現在分類階段則不能處理或效果不好。文章提齣一種新的分類算法用于處理不完整數據的分類問題。首先給齣一箇新的用于處理不完整數據的決策樹算法,併針對傳統的Boosting算法在迭代過程中使用確定性決策方法而沒有充分攷慮到數據集中的不完整數據,進一步提齣改進的Boosting算法,在迭代過程中對每一箇假設使用模糊決策方法,權重的更新機製是增加錯誤分類樣本的權重和減少正確分類樣本的權重,最終使用加權投票的方式得齣最優的分類結果。最後,通過兩組實驗證明提齣的算法策略在處理不完整數據問題時的優越性。
중의약영역불완정적수거보편존재,이수거적불완정흔대정도지강저분류모형적학습효과。대다수이유적처리불완정수거적분류산법지관주재기학습계단처리불완정수거,이대우불완정수거출현재분류계단칙불능처리혹효과불호。문장제출일충신적분류산법용우처리불완정수거적분류문제。수선급출일개신적용우처리불완정수거적결책수산법,병침대전통적Boosting산법재질대과정중사용학정성결책방법이몰유충분고필도수거집중적불완정수거,진일보제출개진적Boosting산법,재질대과정중대매일개가설사용모호결책방법,권중적경신궤제시증가착오분류양본적권중화감소정학분류양본적권중,최종사용가권투표적방식득출최우적분류결과。최후,통과량조실험증명제출적산법책략재처리불완정수거문제시적우월성。
The incomplete data usually exist in traditional Chinese medicine field.The incompleteness of data degrades the learning quality of classification models.Most previous methods dealing with incomplete data on?ly focus on handling incomplete data in the learning phase.For the incomplete data appearing in the classifi?cation phase,most of the current approaches cannot work or perform badly.In this paper a novel classifier is proposed to solve the incomplete data classification problem.First of all,a new decision tree for incomplete data is proposed.And then,in contrast to the conventional Boosting algorithm which uses a deterministic deci?sion method during the iterations without considering the incomplete data in the data set sufficiently ,we pro?pose a new Boosting algorithm using fuzzy decisions for every hypothesis at the iterations of the Boosting scheme.It selects the data events from a dataset,the weight update mechanism increases the weights of incor?rectly classified examples and decreases the weights of those correctly classified examples.The result is a weighted majority vote of the multiple hypotheses.Finally,the experimental results demonstrate the superiori?ty of the proposed strategies for solving incomplete data problem.