电信科学
電信科學
전신과학
TELECOMMUNICATIONS SCIENCE
2015年
4期
77-85
,共9页
刘君强%周青峰%王文慧%时磊
劉君彊%週青峰%王文慧%時磊
류군강%주청봉%왕문혜%시뢰
大数据%效用挖掘%高效用模式%频繁模式
大數據%效用挖掘%高效用模式%頻繁模式
대수거%효용알굴%고효용모식%빈번모식
big data%utility mining%high utility pattern%frequent pattern
现有数据挖掘算法的缺点是在挖掘大数据时会出现大量候选模式,从而造成可伸缩性瓶颈,个别算法虽然不生成候选模式,但是计算代价高昂,缺乏有效剪裁,运行效率存在瓶颈.为此,提出一个全新的单阶段不生成候选模式的数据挖掘算法,其创新性有3点:一是基于前缀生长的模式枚举和基于效用上限值评估的剪裁策略;二是基于稀疏矩阵和虚拟投影的效用信息表达;三是节省存储空间的深度优先搜索方法.大量实验表明,新算法的时间效率比现有算法高5倍以上,并且内存使用量比现有算法少20%~60%,可伸缩性高.
現有數據挖掘算法的缺點是在挖掘大數據時會齣現大量候選模式,從而造成可伸縮性瓶頸,箇彆算法雖然不生成候選模式,但是計算代價高昂,缺乏有效剪裁,運行效率存在瓶頸.為此,提齣一箇全新的單階段不生成候選模式的數據挖掘算法,其創新性有3點:一是基于前綴生長的模式枚舉和基于效用上限值評估的剪裁策略;二是基于稀疏矩陣和虛擬投影的效用信息錶達;三是節省存儲空間的深度優先搜索方法.大量實驗錶明,新算法的時間效率比現有算法高5倍以上,併且內存使用量比現有算法少20%~60%,可伸縮性高.
현유수거알굴산법적결점시재알굴대수거시회출현대량후선모식,종이조성가신축성병경,개별산법수연불생성후선모식,단시계산대개고앙,결핍유효전재,운행효솔존재병경.위차,제출일개전신적단계단불생성후선모식적수거알굴산법,기창신성유3점:일시기우전철생장적모식매거화기우효용상한치평고적전재책략;이시기우희소구진화허의투영적효용신식표체;삼시절성존저공간적심도우선수색방법.대량실험표명,신산법적시간효솔비현유산법고5배이상,병차내존사용량비현유산법소20%~60%,가신축성고.