漳州师范学院学报(自然科学版)
漳州師範學院學報(自然科學版)
장주사범학원학보(자연과학판)
JOURNAL OF ZHANGZHOU TEACHERS COLLEGE(NATURAL SCIENCE EDITION)
2013年
3期
40-44
,共5页
黄再祥%何田中%全秀祥%郑艺峰
黃再祥%何田中%全秀祥%鄭藝峰
황재상%하전중%전수상%정예봉
数据挖掘%关联分类%懒散分类%信息熵
數據挖掘%關聯分類%懶散分類%信息熵
수거알굴%관련분류%라산분류%신식적
data mining%associative classification%Lazy classification%information entropy
懒散关联分类针对每个待分类实例的特征进行分类关联规则的挖掘,通常能取得较高的准确率。然而,由于某些数据集中存在一些质量不好的特征,将影响懒散关联分类的准确率。此外,分类耗时较长是懒散关联分类另一个缺点。针对上述问题,提出了一种基于信息熵的懒散关联分类算法。该算法以信息熵度量属性值的质量,仅选取每个待分类实例中最好的k个属性值,将得到规模较小且与待分类实例紧密相关的训练子集,从中高效挖掘到高质量的规则。实验表明,与懒散关联分类相比,基于信息熵的懒散关联分类方法提高了分类准确率,并极大减少了运行时间。
懶散關聯分類針對每箇待分類實例的特徵進行分類關聯規則的挖掘,通常能取得較高的準確率。然而,由于某些數據集中存在一些質量不好的特徵,將影響懶散關聯分類的準確率。此外,分類耗時較長是懶散關聯分類另一箇缺點。針對上述問題,提齣瞭一種基于信息熵的懶散關聯分類算法。該算法以信息熵度量屬性值的質量,僅選取每箇待分類實例中最好的k箇屬性值,將得到規模較小且與待分類實例緊密相關的訓練子集,從中高效挖掘到高質量的規則。實驗錶明,與懶散關聯分類相比,基于信息熵的懶散關聯分類方法提高瞭分類準確率,併極大減少瞭運行時間。
라산관련분류침대매개대분류실례적특정진행분류관련규칙적알굴,통상능취득교고적준학솔。연이,유우모사수거집중존재일사질량불호적특정,장영향라산관련분류적준학솔。차외,분류모시교장시라산관련분류령일개결점。침대상술문제,제출료일충기우신식적적라산관련분류산법。해산법이신식적도량속성치적질량,부선취매개대분류실례중최호적k개속성치,장득도규모교소차여대분류실례긴밀상관적훈련자집,종중고효알굴도고질량적규칙。실험표명,여라산관련분류상비,기우신식적적라산관련분류방법제고료분류준학솔,병겁대감소료운행시간。
Lazy associative classification (LAC) usually achieves high accuracy by focusing on the features of the given test instance. However, the accuracy of LAC is high sensitivity to low quality features. Another disadvantage is that LAC typically consumes more time to classify all test instances. To address these problems, Lazy Associative Classification based on Information Entropy (called ELAC) is proposed in this paper. ELAC use information entropy to measure attribute values and the best k attribute values in each test instance are selected. As a result, a small subset which is high relevant to the test instance is produced from which high quality rules are efficiently minded. Experiments show that ELAC improves the classification accuracy and significantly decreases the test time.