智能系统学报
智能繫統學報
지능계통학보
CAAI TRANSACTIONS ON INTELLIGENT SYSTEMS
2014年
3期
330-335
,共6页
何力%谭霜%贾焰%韩伟红
何力%譚霜%賈燄%韓偉紅
하력%담상%가염%한위홍
层次式文本分类%主题层次%无标记数据分类%支持向量机
層次式文本分類%主題層次%無標記數據分類%支持嚮量機
층차식문본분류%주제층차%무표기수거분류%지지향량궤
hierarchical text classification%topic hierarchy%classification without labeled data%support vector ma-chine
传统的文本分类方法需要标注好的语料来训练分类器,然而人工标记语料代价高昂并且耗时。对此,通过无类别标记的Web数据来训练文本分类器,提出一种基于无标记Web数据的层次式文本分类方法,该方法结合类别知识和主题层次信息来构造Web查询,从多种Web数据中搜索相关文档并抽取学习样本,为监督学习找到分类依据,并结合层次式支持向量机进行分类器的学习。实验结果表明,该方法能够利用无标记Web数据学习分类器,并取得了较好的分类效果,其性能接近于有标记训练样本的监督分类方法。
傳統的文本分類方法需要標註好的語料來訓練分類器,然而人工標記語料代價高昂併且耗時。對此,通過無類彆標記的Web數據來訓練文本分類器,提齣一種基于無標記Web數據的層次式文本分類方法,該方法結閤類彆知識和主題層次信息來構造Web查詢,從多種Web數據中搜索相關文檔併抽取學習樣本,為鑑督學習找到分類依據,併結閤層次式支持嚮量機進行分類器的學習。實驗結果錶明,該方法能夠利用無標記Web數據學習分類器,併取得瞭較好的分類效果,其性能接近于有標記訓練樣本的鑑督分類方法。
전통적문본분류방법수요표주호적어료래훈련분류기,연이인공표기어료대개고앙병차모시。대차,통과무유별표기적Web수거래훈련문본분류기,제출일충기우무표기Web수거적층차식문본분류방법,해방법결합유별지식화주제층차신식래구조Web사순,종다충Web수거중수색상관문당병추취학습양본,위감독학습조도분류의거,병결합층차식지지향량궤진행분류기적학습。실험결과표명,해방법능구이용무표기Web수거학습분류기,병취득료교호적분류효과,기성능접근우유표기훈련양본적감독분류방법。
Traditional text classification methods require a labeled corpus to train classifiers , however , it is costly and time-consuming to label corpus manually .This paper proposes a hierarchical text classification method , which trains the text classifier with web data that does not require any classification labels .This method constructs web in-quiry by combining classification knowledge and topic hierarchical information , searches relevant documents and extracts the learning sample from many kinds of web data , finds a classification basis to monitor the learning, and combines a hierarchical support vector machine to train classifiers .The experimental results show that this method is able to train classifiers through non-labeled web data , and gains a better result of classification with a performance that is at a level close to the supervised classification method with labeled training samples .