中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2014年
6期
150-155,168
,共7页
性别分类%新浪微博%文本分类%社交网络
性彆分類%新浪微博%文本分類%社交網絡
성별분류%신랑미박%문본분류%사교망락
gender classification%Sina-weibo%text classification%social media
该文旨在研究中文微博用户的性别分类问题,即根据微博提供的中文文本信息对注册用户的性别进行识别.虽然基于微博的性别分类已经有一定研究,但是针对中文的性别分类工作还很缺乏.该文首先提出分别利用用户名和微博文本构建两个分类器对用户的性别类型进行判别,并对不同的特征(例如,字特征、词特征等)进行了研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,从而达到采用这两种文本分类信息同时对用户性别进行性别判断.实验结果表明该文的方法可以达到较高的识别准确率,并且分类器融合的方法明显优于仅利用用户名或者微博文本的分类方法.
該文旨在研究中文微博用戶的性彆分類問題,即根據微博提供的中文文本信息對註冊用戶的性彆進行識彆.雖然基于微博的性彆分類已經有一定研究,但是針對中文的性彆分類工作還很缺乏.該文首先提齣分彆利用用戶名和微博文本構建兩箇分類器對用戶的性彆類型進行判彆,併對不同的特徵(例如,字特徵、詞特徵等)進行瞭研究分析;其次,在針對用戶名和微博文本的兩箇分類器的基礎上,使用貝葉斯融閤方法進行分類器融閤,從而達到採用這兩種文本分類信息同時對用戶性彆進行性彆判斷.實驗結果錶明該文的方法可以達到較高的識彆準確率,併且分類器融閤的方法明顯優于僅利用用戶名或者微博文本的分類方法.
해문지재연구중문미박용호적성별분류문제,즉근거미박제공적중문문본신식대주책용호적성별진행식별.수연기우미박적성별분류이경유일정연구,단시침대중문적성별분류공작환흔결핍.해문수선제출분별이용용호명화미박문본구건량개분류기대용호적성별류형진행판별,병대불동적특정(례여,자특정、사특정등)진행료연구분석;기차,재침대용호명화미박문본적량개분류기적기출상,사용패협사융합방법진행분류기융합,종이체도채용저량충문본분류신식동시대용호성별진행성별판단.실험결과표명해문적방법가이체도교고적식별준학솔,병차분류기융합적방법명현우우부이용용호명혹자미박문본적분류방법.