计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2012年
3期
598-606
,共9页
分类数据%概化关联规则%增量挖掘%概化扩展自然序树%准频繁概化扩展自然序树
分類數據%概化關聯規則%增量挖掘%概化擴展自然序樹%準頻繁概化擴展自然序樹
분류수거%개화관련규칙%증량알굴%개화확전자연서수%준빈번개화확전자연서수
概化关联规则挖掘作为数据挖掘领域一个重要的拓展性研究课题,首先提出了一种概化扩展自然序树(generalized extended canonical-order tree,GECT)结构及其增量挖掘算法GECT-IM.该算法对原始分类事务数据库只扫描一次,就可以将所有交易信息映射至一棵压缩格式的GECT,然后通过对更新交易数据集扫描得到更新数据集中各项集的计数,结合相关性质及运算就可以发现大部分更新后的概化频繁项集;其次,针对GECT规模较大以及GECT-IM算法仍然可能需要遍历初始GECT树的局限,在界定数据库更新和重构概念的基础上,基于一种可量化度量的准最小支持度阈值,提出了一种改进的准频繁概化扩展自然序树(pre-large generalized extended canonical-order tree,PGECT)结构及其增量挖掘算法PGECT-IM.由于有效避免了对初始GECT进行遍历的情形,从而进一步提升了概化关联规则增量挖掘效率.实验证明,提出的概化关联规则增量挖掘算法GECT-IM及其优化算法PGECT-IM,比现有增量挖掘算法具有更高的挖掘效率和更好的扩展性.
概化關聯規則挖掘作為數據挖掘領域一箇重要的拓展性研究課題,首先提齣瞭一種概化擴展自然序樹(generalized extended canonical-order tree,GECT)結構及其增量挖掘算法GECT-IM.該算法對原始分類事務數據庫隻掃描一次,就可以將所有交易信息映射至一棵壓縮格式的GECT,然後通過對更新交易數據集掃描得到更新數據集中各項集的計數,結閤相關性質及運算就可以髮現大部分更新後的概化頻繁項集;其次,針對GECT規模較大以及GECT-IM算法仍然可能需要遍歷初始GECT樹的跼限,在界定數據庫更新和重構概唸的基礎上,基于一種可量化度量的準最小支持度閾值,提齣瞭一種改進的準頻繁概化擴展自然序樹(pre-large generalized extended canonical-order tree,PGECT)結構及其增量挖掘算法PGECT-IM.由于有效避免瞭對初始GECT進行遍歷的情形,從而進一步提升瞭概化關聯規則增量挖掘效率.實驗證明,提齣的概化關聯規則增量挖掘算法GECT-IM及其優化算法PGECT-IM,比現有增量挖掘算法具有更高的挖掘效率和更好的擴展性.
개화관련규칙알굴작위수거알굴영역일개중요적탁전성연구과제,수선제출료일충개화확전자연서수(generalized extended canonical-order tree,GECT)결구급기증량알굴산법GECT-IM.해산법대원시분류사무수거고지소묘일차,취가이장소유교역신식영사지일과압축격식적GECT,연후통과대경신교역수거집소묘득도경신수거집중각항집적계수,결합상관성질급운산취가이발현대부분경신후적개화빈번항집;기차,침대GECT규모교대이급GECT-IM산법잉연가능수요편력초시GECT수적국한,재계정수거고경신화중구개념적기출상,기우일충가양화도량적준최소지지도역치,제출료일충개진적준빈번개화확전자연서수(pre-large generalized extended canonical-order tree,PGECT)결구급기증량알굴산법PGECT-IM.유우유효피면료대초시GECT진행편력적정형,종이진일보제승료개화관련규칙증량알굴효솔.실험증명,제출적개화관련규칙증량알굴산법GECT-IM급기우화산법PGECT-IM,비현유증량알굴산법구유경고적알굴효솔화경호적확전성.