计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2009年
5期
779-786
,共8页
敖富江%王涛%刘宝宏%黄柯棣
敖富江%王濤%劉寶宏%黃柯棣
오부강%왕도%류보굉%황가체
数据流%分类%关联规则%频繁闭模式%自支持度
數據流%分類%關聯規則%頻繁閉模式%自支持度
수거류%분류%관련규칙%빈번폐모식%자지지도
基于关联规则的分类算法通常根据频繁模式生成类关联规则,但频繁模式挖掘易遭受组合爆炸问题,影响算法效率.并且数据流的出现也对分类算法提出了新的挑战.相对于频繁模式,频繁闭模式的数目较少,挖掘频繁闭模式的算法通常具有较高的效率.为此,提出了一种高效的基于频繁闭模式的数据流分类算法-CBC-DS.主要贡献在于:1)提出了一种基于逆文法顺序FP-Tree的频繁闭项集单遍挖掘过程,用于挖掘类关联规则,该过程采用了一种混合项顺序搜索策略以满足数据流挖掘的单遍性需求,并采用位图技术提高效率;2)提出了"自支持度"概念,用于筛选规则以提高算法分类精度.实验表明,位图技术能够提高算法速度2倍以上,利用自支持度能够提高算法平均精度0.5%左右;最终CBC-DS算法的平均分类精度比经典算法CMAR高1%左右,并且CBC-DS算法的规则挖掘速度远快于CMAR算法.
基于關聯規則的分類算法通常根據頻繁模式生成類關聯規則,但頻繁模式挖掘易遭受組閤爆炸問題,影響算法效率.併且數據流的齣現也對分類算法提齣瞭新的挑戰.相對于頻繁模式,頻繁閉模式的數目較少,挖掘頻繁閉模式的算法通常具有較高的效率.為此,提齣瞭一種高效的基于頻繁閉模式的數據流分類算法-CBC-DS.主要貢獻在于:1)提齣瞭一種基于逆文法順序FP-Tree的頻繁閉項集單遍挖掘過程,用于挖掘類關聯規則,該過程採用瞭一種混閤項順序搜索策略以滿足數據流挖掘的單遍性需求,併採用位圖技術提高效率;2)提齣瞭"自支持度"概唸,用于篩選規則以提高算法分類精度.實驗錶明,位圖技術能夠提高算法速度2倍以上,利用自支持度能夠提高算法平均精度0.5%左右;最終CBC-DS算法的平均分類精度比經典算法CMAR高1%左右,併且CBC-DS算法的規則挖掘速度遠快于CMAR算法.
기우관련규칙적분류산법통상근거빈번모식생성류관련규칙,단빈번모식알굴역조수조합폭작문제,영향산법효솔.병차수거류적출현야대분류산법제출료신적도전.상대우빈번모식,빈번폐모식적수목교소,알굴빈번폐모식적산법통상구유교고적효솔.위차,제출료일충고효적기우빈번폐모식적수거류분류산법-CBC-DS.주요공헌재우:1)제출료일충기우역문법순서FP-Tree적빈번폐항집단편알굴과정,용우알굴류관련규칙,해과정채용료일충혼합항순서수색책략이만족수거류알굴적단편성수구,병채용위도기술제고효솔;2)제출료"자지지도"개념,용우사선규칙이제고산법분류정도.실험표명,위도기술능구제고산법속도2배이상,이용자지지도능구제고산법평균정도0.5%좌우;최종CBC-DS산법적평균분류정도비경전산법CMAR고1%좌우,병차CBC-DS산법적규칙알굴속도원쾌우CMAR산법.