计算机应用
計算機應用
계산궤응용
Journal of Computer Applications
2015年
8期
2355-2359
,共5页
白鹤翔%王健%李德玉%陈千
白鶴翔%王健%李德玉%陳韆
백학상%왕건%리덕옥%진천
海量数据%绝对约简%增量式算法%粗糙集%属性选择
海量數據%絕對約簡%增量式算法%粗糙集%屬性選擇
해량수거%절대약간%증량식산법%조조집%속성선택
massive data%absolute reduct%incremental algorithm%rough set%feature selection
针对“大数据”中常见的大规模无监督数据集中特征选择速度难以满足实际应用要求的问题,在经典粗糙集绝对约简增量式算法的基础上提出了一种快速的属性选择算法.首先,将大规模数据集看作一个随机到来的对象序列,并初始化候选约简为空集;然后每次都从大规模数据集中无放回地随机抽取一个对象,并且每次都判断使用当前候选约简能否区分这一对象和当前对象集中所有应当区分的对象,并将该对象放入到当前对象集中,如果不能区分则向候选约简中添加合适的属性;最后,如果连续I次都没有发现无法区分的对象,那么将候选约简作为大规模数据集的约简.在5个非监督大规模数据集上的实验表明,所求得的约简能够区分95%以上的对象对,并且求取该约简所需的时间不到基于区分矩阵的算法和增量式约简算法的1%;在文本主题挖掘的实验中,使用约简后的数据集挖掘出的文本主题同原始数据集挖掘出的主题基本一致.两组实验结果表明该方法能够有效快速对大规模数据集进行属性选择.
針對“大數據”中常見的大規模無鑑督數據集中特徵選擇速度難以滿足實際應用要求的問題,在經典粗糙集絕對約簡增量式算法的基礎上提齣瞭一種快速的屬性選擇算法.首先,將大規模數據集看作一箇隨機到來的對象序列,併初始化候選約簡為空集;然後每次都從大規模數據集中無放迴地隨機抽取一箇對象,併且每次都判斷使用噹前候選約簡能否區分這一對象和噹前對象集中所有應噹區分的對象,併將該對象放入到噹前對象集中,如果不能區分則嚮候選約簡中添加閤適的屬性;最後,如果連續I次都沒有髮現無法區分的對象,那麽將候選約簡作為大規模數據集的約簡.在5箇非鑑督大規模數據集上的實驗錶明,所求得的約簡能夠區分95%以上的對象對,併且求取該約簡所需的時間不到基于區分矩陣的算法和增量式約簡算法的1%;在文本主題挖掘的實驗中,使用約簡後的數據集挖掘齣的文本主題同原始數據集挖掘齣的主題基本一緻.兩組實驗結果錶明該方法能夠有效快速對大規模數據集進行屬性選擇.
침대“대수거”중상견적대규모무감독수거집중특정선택속도난이만족실제응용요구적문제,재경전조조집절대약간증량식산법적기출상제출료일충쾌속적속성선택산법.수선,장대규모수거집간작일개수궤도래적대상서렬,병초시화후선약간위공집;연후매차도종대규모수거집중무방회지수궤추취일개대상,병차매차도판단사용당전후선약간능부구분저일대상화당전대상집중소유응당구분적대상,병장해대상방입도당전대상집중,여과불능구분칙향후선약간중첨가합괄적속성;최후,여과련속I차도몰유발현무법구분적대상,나요장후선약간작위대규모수거집적약간.재5개비감독대규모수거집상적실험표명,소구득적약간능구구분95%이상적대상대,병차구취해약간소수적시간불도기우구분구진적산법화증량식약간산법적1%;재문본주제알굴적실험중,사용약간후적수거집알굴출적문본주제동원시수거집알굴출적주제기본일치.량조실험결과표명해방법능구유효쾌속대대규모수거집진행속성선택.