计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2015年
5期
82-87,123
,共7页
Top-k%频繁%高效用%高质量项集
Top-k%頻繁%高效用%高質量項集
Top-k%빈번%고효용%고질량항집
Top-k%Frequent%High utility%Qualified itemsets
对从事务数据库中挖掘有意义的项集的研究已超过10年.然而,大多数的研究要么使用频繁度或支持度(如频繁项集挖掘),要么使用效用值或利润(如高效用项集挖掘)作为主要的衡量标准.单独使用这两种衡量方式都有各自的局限性,比如频繁度很高的项集其效用值有可能很低,而效用值很高的项集其频繁度往往很低,将这些项集推荐给用户没有意义.将这两种衡量标准综合考虑,希望找出那些频繁度和效用值都很高的项集.该项工作最大的挑战是效用值既不满足单调性也不满足反单调性.因此,提出了高效算法FHIMA.FHIMA采用PrefixSpan的思想,挖掘时能避免产生非频繁的候选项集.此外,还根据效用和质量上界的一些性质,有效地缩小了搜索空间,极大地提高了FHIMA算法的效率.
對從事務數據庫中挖掘有意義的項集的研究已超過10年.然而,大多數的研究要麽使用頻繁度或支持度(如頻繁項集挖掘),要麽使用效用值或利潤(如高效用項集挖掘)作為主要的衡量標準.單獨使用這兩種衡量方式都有各自的跼限性,比如頻繁度很高的項集其效用值有可能很低,而效用值很高的項集其頻繁度往往很低,將這些項集推薦給用戶沒有意義.將這兩種衡量標準綜閤攷慮,希望找齣那些頻繁度和效用值都很高的項集.該項工作最大的挑戰是效用值既不滿足單調性也不滿足反單調性.因此,提齣瞭高效算法FHIMA.FHIMA採用PrefixSpan的思想,挖掘時能避免產生非頻繁的候選項集.此外,還根據效用和質量上界的一些性質,有效地縮小瞭搜索空間,極大地提高瞭FHIMA算法的效率.
대종사무수거고중알굴유의의적항집적연구이초과10년.연이,대다수적연구요요사용빈번도혹지지도(여빈번항집알굴),요요사용효용치혹리윤(여고효용항집알굴)작위주요적형량표준.단독사용저량충형량방식도유각자적국한성,비여빈번도흔고적항집기효용치유가능흔저,이효용치흔고적항집기빈번도왕왕흔저,장저사항집추천급용호몰유의의.장저량충형량표준종합고필,희망조출나사빈번도화효용치도흔고적항집.해항공작최대적도전시효용치기불만족단조성야불만족반단조성.인차,제출료고효산법FHIMA.FHIMA채용PrefixSpan적사상,알굴시능피면산생비빈번적후선항집.차외,환근거효용화질량상계적일사성질,유효지축소료수색공간,겁대지제고료FHIMA산법적효솔.