计算机技术与发展
計算機技術與髮展
계산궤기술여발전
Computer Technology and Development
2015年
9期
84-88,93
,共6页
关联规则%支持度%置信度%频繁项集
關聯規則%支持度%置信度%頻繁項集
관련규칙%지지도%치신도%빈번항집
association rules%support degree%confidence degree%frequent item sets
Apriori算法是关联规则挖掘中最基本也是最重要的算法之一。但现有的Apriori算法存在对数据库的扫描次数过多,产生了大量的候选项集合,算法执行效率较低,运行时间显著增加等问题。文中针对现有Apriori扫描数据库过于频繁的问题,在Hadoop平台下对Apriori算法进行改进,提出一种改进算法H-Apriori算法。利用并行方法计算频繁项集,该算法将原始数据集按字母排序,减少频繁项集的计算开销,避免反复扫描数据库带来的时间上的消耗,从而提高算法的执行效率。通过与传统Apriori算法的执行时间相比较,实验结果表明,提出的改进算法H-Apriori明显减少了访问数据库的时间,有较高的执行效率。
Apriori算法是關聯規則挖掘中最基本也是最重要的算法之一。但現有的Apriori算法存在對數據庫的掃描次數過多,產生瞭大量的候選項集閤,算法執行效率較低,運行時間顯著增加等問題。文中針對現有Apriori掃描數據庫過于頻繁的問題,在Hadoop平檯下對Apriori算法進行改進,提齣一種改進算法H-Apriori算法。利用併行方法計算頻繁項集,該算法將原始數據集按字母排序,減少頻繁項集的計算開銷,避免反複掃描數據庫帶來的時間上的消耗,從而提高算法的執行效率。通過與傳統Apriori算法的執行時間相比較,實驗結果錶明,提齣的改進算法H-Apriori明顯減少瞭訪問數據庫的時間,有較高的執行效率。
Apriori산법시관련규칙알굴중최기본야시최중요적산법지일。단현유적Apriori산법존재대수거고적소묘차수과다,산생료대량적후선항집합,산법집행효솔교저,운행시간현저증가등문제。문중침대현유Apriori소묘수거고과우빈번적문제,재Hadoop평태하대Apriori산법진행개진,제출일충개진산법H-Apriori산법。이용병행방법계산빈번항집,해산법장원시수거집안자모배서,감소빈번항집적계산개소,피면반복소묘수거고대래적시간상적소모,종이제고산법적집행효솔。통과여전통Apriori산법적집행시간상비교,실험결과표명,제출적개진산법H-Apriori명현감소료방문수거고적시간,유교고적집행효솔。
Apriori algorithm is one of the most basic and important algorithms in association rules mining. But the existing Apriori algo-rithm scans database many times,generating a large number of candidate item sets,having a low execution efficiency,increasing running time significantly. Based on existing Apriori algorithm scanning database many times,put forward a new method,H-Apriori,which calcu-lates frequent items of association rules under Hadoop platform for improving efficiency of algorithm,reducing time accessing database, and sorts the original datasets,reducing frequent datasets’ computing cost,avoiding the time consumption by repeated scanning database, improving the efficiency of the algorithm. The experimental results show that the improved algorithm H-Apriori significantly reduces the amount of time to access the database with high execution efficiency.