山东理工大学学报:自然科学版
山東理工大學學報:自然科學版
산동리공대학학보:자연과학판
Journal of Shandong University of Technology:Science and Technology
2012年
1期
1-4
,共4页
孙学琛%高志强%全志斌%施嘉鸿
孫學琛%高誌彊%全誌斌%施嘉鴻
손학침%고지강%전지빈%시가홍
半监督学习%协作分类%短文本分类%数据挖掘
半鑑督學習%協作分類%短文本分類%數據挖掘
반감독학습%협작분류%단문본분류%수거알굴
semi-supervised learning%collective classification%short text classification%data mining
随着万维网的快速普及和发展,Web上出现了大量短文本,如科技文献摘要、微博和电子邮件等.短文本内容短小,相互联系,已标注数据获得困难,导致传统分类方法很难取得较高的分类精度.为了解决短文本分类问题,提出了一种基于半监督学习的迭代分类算法(SS-ICA).它使用较少的已标记数据,利用短文本间的关系进行迭代分类.通过与常用分类方法进行对比表明,在标注数据较少的情况下SS-ICA比其他分类器有更高的分类精度.
隨著萬維網的快速普及和髮展,Web上齣現瞭大量短文本,如科技文獻摘要、微博和電子郵件等.短文本內容短小,相互聯繫,已標註數據穫得睏難,導緻傳統分類方法很難取得較高的分類精度.為瞭解決短文本分類問題,提齣瞭一種基于半鑑督學習的迭代分類算法(SS-ICA).它使用較少的已標記數據,利用短文本間的關繫進行迭代分類.通過與常用分類方法進行對比錶明,在標註數據較少的情況下SS-ICA比其他分類器有更高的分類精度.
수착만유망적쾌속보급화발전,Web상출현료대량단문본,여과기문헌적요、미박화전자유건등.단문본내용단소,상호련계,이표주수거획득곤난,도치전통분류방법흔난취득교고적분류정도.위료해결단문본분류문제,제출료일충기우반감독학습적질대분류산법(SS-ICA).타사용교소적이표기수거,이용단문본간적관계진행질대분류.통과여상용분류방법진행대비표명,재표주수거교소적정황하SS-ICA비기타분류기유경고적분류정도.
With the rapid development of world wide web,there are more and more short texts emerging on the Web,such as abstract of paper,twitter and email.They are short,keeping links with each other,and there are only a small set of labeled instances available.For the sake of classifying the short text,we present a new method named semi-supervised learning-based iterative classification algorithm(SS-ICA),which has the ability to classify the instances with a small set of labeled instances iteratively.Experiment indicates that SS-ICA significantly increases accuracy when compared to other traditional methods on small training set.