计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2010年
4期
231-233,237
,共4页
连续属性离散化%决策表%信息熵%不一致率
連續屬性離散化%決策錶%信息熵%不一緻率
련속속성리산화%결책표%신식적%불일치솔
Discretization%Decision table%Information entropy%Inconsistency
连续属性离散化方法对后续阶段的机器学习和数据挖掘过程有着重要的意义.提出一种新的针对决策表的离散化算法,在该算法中,首先将信息熵用作判断标准,从候选断点集中选择合适的断点,然后删除一些冗余的断点来优化离散结果,在删除过程中为了尽可能保证决策表分类能力不变,使用不一致率对该过程进行控制.最后选取多组实验数据,使用当前流行的分类算法--支持向量机(SVM)对离散化后的数据进行分类预测,并与其它离散算法进行对比,结果表明本算法是有效的.
連續屬性離散化方法對後續階段的機器學習和數據挖掘過程有著重要的意義.提齣一種新的針對決策錶的離散化算法,在該算法中,首先將信息熵用作判斷標準,從候選斷點集中選擇閤適的斷點,然後刪除一些冗餘的斷點來優化離散結果,在刪除過程中為瞭儘可能保證決策錶分類能力不變,使用不一緻率對該過程進行控製.最後選取多組實驗數據,使用噹前流行的分類算法--支持嚮量機(SVM)對離散化後的數據進行分類預測,併與其它離散算法進行對比,結果錶明本算法是有效的.
련속속성리산화방법대후속계단적궤기학습화수거알굴과정유착중요적의의.제출일충신적침대결책표적리산화산법,재해산법중,수선장신식적용작판단표준,종후선단점집중선택합괄적단점,연후산제일사용여적단점래우화리산결과,재산제과정중위료진가능보증결책표분류능력불변,사용불일치솔대해과정진행공제.최후선취다조실험수거,사용당전류행적분류산법--지지향량궤(SVM)대리산화후적수거진행분류예측,병여기타리산산법진행대비,결과표명본산법시유효적.
The discretization of continues attributes is always with great contribution to the followed process of machine learning or data mining.A new algorithm based on information entropy for discretization of decision table was proposed.Through inconsistency checking of decision table,we deleted some redundant cut points on the basis of preliminary discretization scheme.The experiments of classification of discreted data were performed by using SVM,and meanwhile compared with other algorithms,the presented algorithm is effective.