计算机科学与探索
計算機科學與探索
계산궤과학여탐색
JOURNAL OF FRONTIERS OF COMPUTER SCIENCE & TECHNOLOGY
2015年
6期
719-725
,共7页
自然语言处理%微博%用户分类%认证
自然語言處理%微博%用戶分類%認證
자연어언처리%미박%용호분류%인증
natural language processing%micro-blog%user-type classification%authentication
微博用户可以分为个人用户和非个人用户两种类型。在微博中对这两种用户类型进行自动分类是智能广告、用户个性分析等应用的一项基本任务。针对该任务,提出了一种基于机器学习的自动分类方法。该方法的特色在于,不需要人工标注样本,而是利用微博中认证用户类型的语料作为训练样本构建分类器,用于对非认证用户类型进行分类。具体实现中,将用户名和用户发表的微博文本作为表示用户的样本,使用基于最大熵算法进行用户分类。实验表明这种利用认证用户对非认证用户进行类型分类的方法能够获得较好的效果。
微博用戶可以分為箇人用戶和非箇人用戶兩種類型。在微博中對這兩種用戶類型進行自動分類是智能廣告、用戶箇性分析等應用的一項基本任務。針對該任務,提齣瞭一種基于機器學習的自動分類方法。該方法的特色在于,不需要人工標註樣本,而是利用微博中認證用戶類型的語料作為訓練樣本構建分類器,用于對非認證用戶類型進行分類。具體實現中,將用戶名和用戶髮錶的微博文本作為錶示用戶的樣本,使用基于最大熵算法進行用戶分類。實驗錶明這種利用認證用戶對非認證用戶進行類型分類的方法能夠穫得較好的效果。
미박용호가이분위개인용호화비개인용호량충류형。재미박중대저량충용호류형진행자동분류시지능엄고、용호개성분석등응용적일항기본임무。침대해임무,제출료일충기우궤기학습적자동분류방법。해방법적특색재우,불수요인공표주양본,이시이용미박중인증용호류형적어료작위훈련양본구건분류기,용우대비인증용호류형진행분류。구체실현중,장용호명화용호발표적미박문본작위표시용호적양본,사용기우최대적산법진행용호분류。실험표명저충이용인증용호대비인증용호진행류형분류적방법능구획득교호적효과。
The micro-blog users can be categorized into two types:human and nonhuman users. Automatic classifi-cation of the two user types is a basic task for many real applications, such as intelligent advertising and personality analysis. This paper proposes an automatic classification method based on machine learning to tackle this task. One distinguishing feature of the proposed method is that the corpus of authenticated users is used as natural labeled data to train a classifier, instead of manual labeling the data. Specifically, the username and message text published by user are employed to represent one user. Then, the maximum entropy algorithm is utilized to perform the classification. The experimental research on Sina Weibo demonstrates that the proposed method is very effective for user-type classification.