计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2015年
z1期
146-150,157
,共6页
高维数据%局部线性嵌入%离散化%类-特征相互关联%差异-相似集合
高維數據%跼部線性嵌入%離散化%類-特徵相互關聯%差異-相似集閤
고유수거%국부선성감입%리산화%류-특정상호관련%차이-상사집합
High-dimensional data%Locally linear embedding (LLE)%Discretization%Class-feature interdependency%Difference-similitude set(DSS)
连续特征值离散化在数据挖掘、机器学习和模式识别等领域显得尤为重要.目前,现有的离散化方法主要处理低维数据,然而,现实世界中往往存在的是高维非线性数据.基于此,提出一种基于改进局部线性嵌入(LLE)的高维数据离散化方法——ILLE-HD3方法.首先,通过考虑数据的类信息对LLE方法进行改进,使其有效降维,以便于数据在低维空间中离散化.其次,在降维的基础上,提出了基于差异-相似集合(DSS)的连续特征值离散化算法,该算法利用类与特征之间的关联程度来决定连续城中断点的选取位置,并通过DSS理论定义分类错误标准,以控制连续域划分过程中产生的信息损失.最后,使用决策树分类工具C4.5和C5.0进行性能分析,结果表明,提出的ILLE-HD3方法处理高维非线性数据时具有较好的效果,与现有的方法相比,得到了较高的分类精度.
連續特徵值離散化在數據挖掘、機器學習和模式識彆等領域顯得尤為重要.目前,現有的離散化方法主要處理低維數據,然而,現實世界中往往存在的是高維非線性數據.基于此,提齣一種基于改進跼部線性嵌入(LLE)的高維數據離散化方法——ILLE-HD3方法.首先,通過攷慮數據的類信息對LLE方法進行改進,使其有效降維,以便于數據在低維空間中離散化.其次,在降維的基礎上,提齣瞭基于差異-相似集閤(DSS)的連續特徵值離散化算法,該算法利用類與特徵之間的關聯程度來決定連續城中斷點的選取位置,併通過DSS理論定義分類錯誤標準,以控製連續域劃分過程中產生的信息損失.最後,使用決策樹分類工具C4.5和C5.0進行性能分析,結果錶明,提齣的ILLE-HD3方法處理高維非線性數據時具有較好的效果,與現有的方法相比,得到瞭較高的分類精度.
련속특정치리산화재수거알굴、궤기학습화모식식별등영역현득우위중요.목전,현유적리산화방법주요처리저유수거,연이,현실세계중왕왕존재적시고유비선성수거.기우차,제출일충기우개진국부선성감입(LLE)적고유수거리산화방법——ILLE-HD3방법.수선,통과고필수거적류신식대LLE방법진행개진,사기유효강유,이편우수거재저유공간중리산화.기차,재강유적기출상,제출료기우차이-상사집합(DSS)적련속특정치리산화산법,해산법이용류여특정지간적관련정도래결정련속성중단점적선취위치,병통과DSS이론정의분류착오표준,이공제련속역화분과정중산생적신식손실.최후,사용결책수분류공구C4.5화C5.0진행성능분석,결과표명,제출적ILLE-HD3방법처리고유비선성수거시구유교호적효과,여현유적방법상비,득도료교고적분류정도.