计算机应用
計算機應用
계산궤응용
Journal of Computer Applications
2015年
10期
2911-2914
,共4页
刘慧婷%沈盛霞%赵鹏%姚晟
劉慧婷%瀋盛霞%趙鵬%姚晟
류혜정%침성하%조붕%요성
不确定数据%频繁项集%频繁闭项集%剪枝策略%正态分布
不確定數據%頻繁項集%頻繁閉項集%剪枝策略%正態分佈
불학정수거%빈번항집%빈번폐항집%전지책략%정태분포
uncertain data%frequent itemset%frequent closed itemset%pruning strategy%normal distribution
由于不确定数据的向下封闭属性,挖掘全部频繁项集的方法会得到一个指数级的结果.为获得一个较小的合适的结果集,研究了在不确定数据上挖掘频繁闭项集,并提出了一种新的频繁闭项集挖掘算法——NA-PFCIM.该算法将项集挖掘过程看作一个概率分布函数,考虑到基于正态分布模型的方法提取的频繁项集精确度较高,而且支持大型数据库,采用了正态分布模型提取频繁项集.同时,为了减少搜索空间以及避免冗余计算,利用基于深度优先搜索的策略来获得所有的概率频繁闭项集.该算法还设计了两个剪枝策略:超集修剪和子集修剪.最后,在常用的数据集(T10I4D100K、Accidents、Mushroom、Chess)上,将提出的NA-PFCIM算法和基于泊松分布的A-PFCIM算法进行比较.实验结果表明,NA-PFCIM算法能够减少所要扩展的项集,同时减少项集频繁概率的计算,其性能优于对比算法.
由于不確定數據的嚮下封閉屬性,挖掘全部頻繁項集的方法會得到一箇指數級的結果.為穫得一箇較小的閤適的結果集,研究瞭在不確定數據上挖掘頻繁閉項集,併提齣瞭一種新的頻繁閉項集挖掘算法——NA-PFCIM.該算法將項集挖掘過程看作一箇概率分佈函數,攷慮到基于正態分佈模型的方法提取的頻繁項集精確度較高,而且支持大型數據庫,採用瞭正態分佈模型提取頻繁項集.同時,為瞭減少搜索空間以及避免冗餘計算,利用基于深度優先搜索的策略來穫得所有的概率頻繁閉項集.該算法還設計瞭兩箇剪枝策略:超集脩剪和子集脩剪.最後,在常用的數據集(T10I4D100K、Accidents、Mushroom、Chess)上,將提齣的NA-PFCIM算法和基于泊鬆分佈的A-PFCIM算法進行比較.實驗結果錶明,NA-PFCIM算法能夠減少所要擴展的項集,同時減少項集頻繁概率的計算,其性能優于對比算法.
유우불학정수거적향하봉폐속성,알굴전부빈번항집적방법회득도일개지수급적결과.위획득일개교소적합괄적결과집,연구료재불학정수거상알굴빈번폐항집,병제출료일충신적빈번폐항집알굴산법——NA-PFCIM.해산법장항집알굴과정간작일개개솔분포함수,고필도기우정태분포모형적방법제취적빈번항집정학도교고,이차지지대형수거고,채용료정태분포모형제취빈번항집.동시,위료감소수색공간이급피면용여계산,이용기우심도우선수색적책략래획득소유적개솔빈번폐항집.해산법환설계료량개전지책략:초집수전화자집수전.최후,재상용적수거집(T10I4D100K、Accidents、Mushroom、Chess)상,장제출적NA-PFCIM산법화기우박송분포적A-PFCIM산법진행비교.실험결과표명,NA-PFCIM산법능구감소소요확전적항집,동시감소항집빈번개솔적계산,기성능우우대비산법.