情报杂志
情報雜誌
정보잡지
JOURNAL OF INFORMATION
2014年
9期
157-162,180
,共7页
语料库%自建语料%类别信息%分类算法%分类性能
語料庫%自建語料%類彆信息%分類算法%分類性能
어료고%자건어료%유별신식%분류산법%분류성능
corpus%self-built corpus%category information%categorization algorithm%categorization performance
基于不同的分类算法针对特性迥异的语料数据进行分类,其分类效果往往不同。通过研究分类算法针对专门语料库与自建语料库分类效果各不相同的根本原因,提出一种提高分类性能的新途径。从不同语料库的自动分类对比入手,定义类别聚类密度、类别复杂度、类别清晰度三个指标对语料库信息进行度量,通过多因素方差分析考察三个指标与分类性能的关系,得出语料的各项指标对不同分类算法分类性能的影响关系,并提出一种基于类别清晰度的交叠类文本分类方法以验证指标的有效性。实验表明:该三个指标都在不同程度上影响着分类算法的分类性能。语料类别的聚类密度越高,复杂度越低,类别清晰度越高,其表现出的分类效果越好。
基于不同的分類算法針對特性迥異的語料數據進行分類,其分類效果往往不同。通過研究分類算法針對專門語料庫與自建語料庫分類效果各不相同的根本原因,提齣一種提高分類性能的新途徑。從不同語料庫的自動分類對比入手,定義類彆聚類密度、類彆複雜度、類彆清晰度三箇指標對語料庫信息進行度量,通過多因素方差分析攷察三箇指標與分類性能的關繫,得齣語料的各項指標對不同分類算法分類性能的影響關繫,併提齣一種基于類彆清晰度的交疊類文本分類方法以驗證指標的有效性。實驗錶明:該三箇指標都在不同程度上影響著分類算法的分類性能。語料類彆的聚類密度越高,複雜度越低,類彆清晰度越高,其錶現齣的分類效果越好。
기우불동적분류산법침대특성형이적어료수거진행분류,기분류효과왕왕불동。통과연구분류산법침대전문어료고여자건어료고분류효과각불상동적근본원인,제출일충제고분류성능적신도경。종불동어료고적자동분류대비입수,정의유별취류밀도、유별복잡도、유별청석도삼개지표대어료고신식진행도량,통과다인소방차분석고찰삼개지표여분류성능적관계,득출어료적각항지표대불동분류산법분류성능적영향관계,병제출일충기우유별청석도적교첩류문본분류방법이험증지표적유효성。실험표명:해삼개지표도재불동정도상영향착분류산법적분류성능。어료유별적취류밀도월고,복잡도월저,유별청석도월고,기표현출적분류효과월호。
The categorization performances usually vary in different corpus data with different categorization algorithms. The article propo-ses a new method to improve the categorization performance based on the analysis of the basic reason for the difference in categorization effects of the specialized corpus and the self-built corpus. It measures the corpus information from the comparison of the automatic catego-rization performances of different corpus through defining three indexes, namely, the category clustering density, the category complexity and the category definition. And it inspects the relationship between the three indexes and the categorization performance with multiple fac-tors analysis of variance to obtain the effect relationship of the different indexes on the different algorithms categorization performances, and proposes an overlap text categorization method based on the category definition to verify the validity of the index. The experiments show that three indexes all affect the categorization performance of different algorithms to some extent. The higher clustering density, the lower complexity and the higher category definition, the better categorizationperformances will be.