计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2014年
4期
159-163,169
,共6页
郭云龙%潘玉斌%张泽宇%李莉
郭雲龍%潘玉斌%張澤宇%李莉
곽운룡%반옥빈%장택우%리리
微博%观点句%支持向量机%朴素贝叶斯%K近邻%证据理论
微博%觀點句%支持嚮量機%樸素貝葉斯%K近鄰%證據理論
미박%관점구%지지향량궤%박소패협사%K근린%증거이론
micro-blog%opinion sentence%Support Vector Machine(SVM)%Naive Bayes%K-Nearest Neighbour(KNN)%D-S theory
随着新技术及社会网络的发展与普及,微博用户数据量剧增,与此相关的研究引起了学术界和工业界的关注.针对中文微博语句特点,通过对比多种特征选取方法,提出一种新的特征统计方法.根据构建的词语字典与词性字典,分析支持向量机、朴素贝叶斯、K最近邻等分类模型,并利用证据理论结合多分类器对中文微博观点句进行识别.采用中国计算机学会自然语言处理与中文计算会议(NLP&CC 2012)提供的数据,运用该方法得到的准确率、召回率和F值分别为70.6%、89.2%、78.9%,而NLP&CC2012公布的评测结果相应平均值分别为72.7%、61.5%、64.7%,该方法在召回率和F值2个指标上超过其平均值,而F值比NLP&CC2012评测结果的最好值高出0.5%.
隨著新技術及社會網絡的髮展與普及,微博用戶數據量劇增,與此相關的研究引起瞭學術界和工業界的關註.針對中文微博語句特點,通過對比多種特徵選取方法,提齣一種新的特徵統計方法.根據構建的詞語字典與詞性字典,分析支持嚮量機、樸素貝葉斯、K最近鄰等分類模型,併利用證據理論結閤多分類器對中文微博觀點句進行識彆.採用中國計算機學會自然語言處理與中文計算會議(NLP&CC 2012)提供的數據,運用該方法得到的準確率、召迴率和F值分彆為70.6%、89.2%、78.9%,而NLP&CC2012公佈的評測結果相應平均值分彆為72.7%、61.5%、64.7%,該方法在召迴率和F值2箇指標上超過其平均值,而F值比NLP&CC2012評測結果的最好值高齣0.5%.
수착신기술급사회망락적발전여보급,미박용호수거량극증,여차상관적연구인기료학술계화공업계적관주.침대중문미박어구특점,통과대비다충특정선취방법,제출일충신적특정통계방법.근거구건적사어자전여사성자전,분석지지향량궤、박소패협사、K최근린등분류모형,병이용증거이론결합다분류기대중문미박관점구진행식별.채용중국계산궤학회자연어언처리여중문계산회의(NLP&CC 2012)제공적수거,운용해방법득도적준학솔、소회솔화F치분별위70.6%、89.2%、78.9%,이NLP&CC2012공포적평측결과상응평균치분별위72.7%、61.5%、64.7%,해방법재소회솔화F치2개지표상초과기평균치,이F치비NLP&CC2012평측결과적최호치고출0.5%.