东北大学学报(自然科学版)
東北大學學報(自然科學版)
동북대학학보(자연과학판)
JOURNAL OF NORTHEASTERN UNIVERSITY(NATURAL SCIENCE)
2008年
3期
328-331
,共4页
魏伟杰%张斌%王波%张明卫
魏偉傑%張斌%王波%張明衛
위위걸%장빈%왕파%장명위
数据挖掘%算法测试%模拟数据集生成%遗传算法%熵
數據挖掘%算法測試%模擬數據集生成%遺傳算法%熵
수거알굴%산법측시%모의수거집생성%유전산법%적
由于受到保密性、时间和数据多样性等一些原因的限制,测试数据集的获取一直困扰着数据挖掘算法的研究因此,提出一种基于遗传算法和熵的测试数据集的模拟生成方法,生成方法利用遗传算法具有继承性的特性对采集到的少量的真实数据进行扩充和模拟, 用熵衡量生成数据与真实数据的相似程度,最终生成规模大的测试数据集,并给出了描述型数据的生成算法使用此方法,可以生成同真实数据集具有相同的属性,相同的属性取值区间和属性值分布,类似属性关联关系的测试数据集,加速数据挖掘算法的研究进程.
由于受到保密性、時間和數據多樣性等一些原因的限製,測試數據集的穫取一直睏擾著數據挖掘算法的研究因此,提齣一種基于遺傳算法和熵的測試數據集的模擬生成方法,生成方法利用遺傳算法具有繼承性的特性對採集到的少量的真實數據進行擴充和模擬, 用熵衡量生成數據與真實數據的相似程度,最終生成規模大的測試數據集,併給齣瞭描述型數據的生成算法使用此方法,可以生成同真實數據集具有相同的屬性,相同的屬性取值區間和屬性值分佈,類似屬性關聯關繫的測試數據集,加速數據挖掘算法的研究進程.
유우수도보밀성、시간화수거다양성등일사원인적한제,측시수거집적획취일직곤우착수거알굴산법적연구인차,제출일충기우유전산법화적적측시수거집적모의생성방법,생성방법이용유전산법구유계승성적특성대채집도적소량적진실수거진행확충화모의, 용적형량생성수거여진실수거적상사정도,최종생성규모대적측시수거집,병급출료묘술형수거적생성산법사용차방법,가이생성동진실수거집구유상동적속성,상동적속성취치구간화속성치분포,유사속성관련관계적측시수거집,가속수거알굴산법적연구진정.