科技创新与应用
科技創新與應用
과기창신여응용
Technology Innovation and Application
2014年
2期
55-55
,共1页
陈海利%孙志伟%庞龙
陳海利%孫誌偉%龐龍
진해리%손지위%방룡
决策树分类%机器学习%森林
決策樹分類%機器學習%森林
결책수분류%궤기학습%삼림
文本分类是处理和组织大量文本数据的关键技术,它一直是信息检索领域中的一个研究热点。文本分类旨在将大量文本划分到若干子类,使得各文本子类代表不同的概念主题。文章采用了一种基于随机森林的文本分类方法。该方法来源于基于决策树的机器学习,依据文本内容的分词结果进行机器学习,将文本中信息量高的词汇提取出来作为学习维度,可以准确地对文本进行分类。由于随机森林算法[1]具有高并发,快速收敛的优点,非常适合海量数据的处理。
文本分類是處理和組織大量文本數據的關鍵技術,它一直是信息檢索領域中的一箇研究熱點。文本分類旨在將大量文本劃分到若榦子類,使得各文本子類代錶不同的概唸主題。文章採用瞭一種基于隨機森林的文本分類方法。該方法來源于基于決策樹的機器學習,依據文本內容的分詞結果進行機器學習,將文本中信息量高的詞彙提取齣來作為學習維度,可以準確地對文本進行分類。由于隨機森林算法[1]具有高併髮,快速收斂的優點,非常適閤海量數據的處理。
문본분류시처리화조직대량문본수거적관건기술,타일직시신식검색영역중적일개연구열점。문본분류지재장대량문본화분도약간자류,사득각문본자류대표불동적개념주제。문장채용료일충기우수궤삼림적문본분류방법。해방법래원우기우결책수적궤기학습,의거문본내용적분사결과진행궤기학습,장문본중신식량고적사회제취출래작위학습유도,가이준학지대문본진행분류。유우수궤삼림산법[1]구유고병발,쾌속수렴적우점,비상괄합해량수거적처리。