山东大学学报(理学版)
山東大學學報(理學版)
산동대학학보(이학판)
JOURNAL OF SHANDONG UNIVERSITY(NATURAL SCIENCE)
2013年
11期
99-104
,共6页
刘伍颖%易绵竹%张兴
劉伍穎%易綿竹%張興
류오영%역면죽%장흥
多类别文本分类%算法复杂度%多类别Token频率索引%幂律%新闻文档
多類彆文本分類%算法複雜度%多類彆Token頻率索引%冪律%新聞文檔
다유별문본분류%산법복잡도%다유별Token빈솔색인%멱률%신문문당
multi-category text categorization%algorithm complexity%multi-category Token frequency index%power law%news document
低时空复杂度始终是多类别文本分类算法希望达到的性能。新闻文档集中Token频率分布的研究再次验证了Token频率分布普遍服从幂律。据此设计了一种新的多类别Token频率索引数据结构,并基于该数据结构提出了一种低时空复杂度的多类别文本分类算法。在TanCorp数据集上的实验结果表明该算法在多类别新闻文档分类应用中是时空高效的。
低時空複雜度始終是多類彆文本分類算法希望達到的性能。新聞文檔集中Token頻率分佈的研究再次驗證瞭Token頻率分佈普遍服從冪律。據此設計瞭一種新的多類彆Token頻率索引數據結構,併基于該數據結構提齣瞭一種低時空複雜度的多類彆文本分類算法。在TanCorp數據集上的實驗結果錶明該算法在多類彆新聞文檔分類應用中是時空高效的。
저시공복잡도시종시다유별문본분류산법희망체도적성능。신문문당집중Token빈솔분포적연구재차험증료Token빈솔분포보편복종멱률。거차설계료일충신적다유별Token빈솔색인수거결구,병기우해수거결구제출료일충저시공복잡도적다유별문본분류산법。재TanCorp수거집상적실험결과표명해산법재다유별신문문당분류응용중시시공고효적。
Low space-time complexity is always the expected performance of multi-category text categorization algo-rithms.The investigation of token frequency distribution in the set of news documents validates that the token frequency distribution obeys the ubiquitous power law.According to the distribution property of power law, a novel data structure of multi-category token frequency index is designed and based on which a multi-category text categorization algorithm with low space-time complexity is propose.The experimental results on the TanCorp data set show that the proposed al-gorithm is space-time-efficient in the application of multi-category news document categorization.