计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2014年
8期
2184-2187,2191
,共5页
无监督离散化%集成学习%分类数据%相似性%谱聚类
無鑑督離散化%集成學習%分類數據%相似性%譜聚類
무감독리산화%집성학습%분류수거%상사성%보취류
unsupervised discretization%ensemble learning%categorical data%similarity%spectral clustering
模式识别与机器学习的一些算法只能处理离散属性值,而在现实生活中的很多数据具有连续的属性值,针对数据离散化的问题提出了一种无监督的方法.首先,使用K-means方法将数据集进行划分得到类别信息;然后,应用有监督的离散化方法对划分后的数据离散化,重复上述过程以得到多个离散化的结果,再将这些结果进行集成;最后,将集成得到的最小子区间进行合并,这里根据数据间的邻居关系选择优先合并的维度及相邻区间.其中,通过数据间的近邻关系自动寻求子区间数目,尽可能保持其内在结构关系不变.将离散后的数据应用于聚类算法,如谱聚类算法,并对聚类后的效果进行评价.实验结果表明,该算法聚类精确度比其他4种方法平均提高约33%,表明了该算法的可行性和有效性.通过该算法得到的离散化数据可应用于一些数据挖掘算法,如ID3决策树算法.
模式識彆與機器學習的一些算法隻能處理離散屬性值,而在現實生活中的很多數據具有連續的屬性值,針對數據離散化的問題提齣瞭一種無鑑督的方法.首先,使用K-means方法將數據集進行劃分得到類彆信息;然後,應用有鑑督的離散化方法對劃分後的數據離散化,重複上述過程以得到多箇離散化的結果,再將這些結果進行集成;最後,將集成得到的最小子區間進行閤併,這裏根據數據間的鄰居關繫選擇優先閤併的維度及相鄰區間.其中,通過數據間的近鄰關繫自動尋求子區間數目,儘可能保持其內在結構關繫不變.將離散後的數據應用于聚類算法,如譜聚類算法,併對聚類後的效果進行評價.實驗結果錶明,該算法聚類精確度比其他4種方法平均提高約33%,錶明瞭該算法的可行性和有效性.通過該算法得到的離散化數據可應用于一些數據挖掘算法,如ID3決策樹算法.
모식식별여궤기학습적일사산법지능처리리산속성치,이재현실생활중적흔다수거구유련속적속성치,침대수거리산화적문제제출료일충무감독적방법.수선,사용K-means방법장수거집진행화분득도유별신식;연후,응용유감독적리산화방법대화분후적수거리산화,중복상술과정이득도다개리산화적결과,재장저사결과진행집성;최후,장집성득도적최소자구간진행합병,저리근거수거간적린거관계선택우선합병적유도급상린구간.기중,통과수거간적근린관계자동심구자구간수목,진가능보지기내재결구관계불변.장리산후적수거응용우취류산법,여보취류산법,병대취류후적효과진행평개.실험결과표명,해산법취류정학도비기타4충방법평균제고약33%,표명료해산법적가행성화유효성.통과해산법득도적리산화수거가응용우일사수거알굴산법,여ID3결책수산법.