计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2014年
11期
321-325
,共5页
kddcup99数据集%分块%数据分析
kddcup99數據集%分塊%數據分析
kddcup99수거집%분괴%수거분석
Kddcup99 dataset%Blocking%Data Analysis
kddcup99数据集的网络连接数据量很大,各特征属性的取值范围较广,决策类型的种类也很多。因此,如果直接在原数据集上进行数据预处理或是数据挖掘都将是一件十分困难的事情。通过对kddcup99进行数据分析,提出一种对其按照service属性的不同进行分块的新思路,在不失真的前提下,将大问题转化成小问题,从根本上解决了数据集过大的难题。
kddcup99數據集的網絡連接數據量很大,各特徵屬性的取值範圍較廣,決策類型的種類也很多。因此,如果直接在原數據集上進行數據預處理或是數據挖掘都將是一件十分睏難的事情。通過對kddcup99進行數據分析,提齣一種對其按照service屬性的不同進行分塊的新思路,在不失真的前提下,將大問題轉化成小問題,從根本上解決瞭數據集過大的難題。
kddcup99수거집적망락련접수거량흔대,각특정속성적취치범위교엄,결책류형적충류야흔다。인차,여과직접재원수거집상진행수거예처리혹시수거알굴도장시일건십분곤난적사정。통과대kddcup99진행수거분석,제출일충대기안조service속성적불동진행분괴적신사로,재불실진적전제하,장대문제전화성소문제,종근본상해결료수거집과대적난제。
There is a mass of network connections in kddcup99 dataset.The values of the feature attributes are widely ranged, and the descriptions of decision types are also rich.For this reason, it will be very difficult to pre-process or mine the data on original data set.In this paper, through analysing the data of kddcup99, we put forward a new idea of blocking the dataset according to service attribute, which converts the big problem into some small problems without distortion, and fundamentally solves the difficulty of too large the dataset to be.