情报学报
情報學報
정보학보
Journal of the China Society for Scientific andTechnical Information
2015年
6期
628-634
,共7页
祁瑞华%杨德礼%郭旭%刘彩虹
祁瑞華%楊德禮%郭旭%劉綵虹
기서화%양덕례%곽욱%류채홍
文体特征%博客%作者身份
文體特徵%博客%作者身份
문체특정%박객%작자신빈
stylistic features%blogger%Identification
传统的文体风格特征模型不适用于当前大量涌现的网络文本。本文针对以博客为代表的网络文本篇幅短小、表达方式丰富灵活的特点,以内容无关为原则,分别抽取字符特征、词汇特征、句法特征和文本布局等特征,建立了由词汇特征、浅层句法特征、深层句法特征和结构特征组成的多层面文体风格特征模型,并选取朴素贝叶斯、决策树、序列最小优化支持向量机和大规模线性分类支持向量机算法在公开博客语料上进行对照实验。实验结果验证了各个层面特征在作者身份识别中的作用,表明了本文方法的准确性、通用性及其在短文本上的鲁棒性。关键词
傳統的文體風格特徵模型不適用于噹前大量湧現的網絡文本。本文針對以博客為代錶的網絡文本篇幅短小、錶達方式豐富靈活的特點,以內容無關為原則,分彆抽取字符特徵、詞彙特徵、句法特徵和文本佈跼等特徵,建立瞭由詞彙特徵、淺層句法特徵、深層句法特徵和結構特徵組成的多層麵文體風格特徵模型,併選取樸素貝葉斯、決策樹、序列最小優化支持嚮量機和大規模線性分類支持嚮量機算法在公開博客語料上進行對照實驗。實驗結果驗證瞭各箇層麵特徵在作者身份識彆中的作用,錶明瞭本文方法的準確性、通用性及其在短文本上的魯棒性。關鍵詞
전통적문체풍격특정모형불괄용우당전대량용현적망락문본。본문침대이박객위대표적망락문본편폭단소、표체방식봉부령활적특점,이내용무관위원칙,분별추취자부특정、사회특정、구법특정화문본포국등특정,건립료유사회특정、천층구법특정、심층구법특정화결구특정조성적다층면문체풍격특정모형,병선취박소패협사、결책수、서렬최소우화지지향량궤화대규모선성분류지지향량궤산법재공개박객어료상진행대조실험。실험결과험증료각개층면특정재작자신빈식별중적작용,표명료본문방법적준학성、통용성급기재단문본상적로봉성。관건사
Models fortra d itio nalsty lis tic features are not su ita b le forWeb tents. Based on the prin c ipleofco nte nt-in depe n den t weextracted ch ara cter featu res,le x ical featu res,syn ta ctic features and te xt layo u t featu res,andestablishedam u ltid imensio nalsty lis tic features m odel wh ic h consistsofle x ical featu res, shalowsyn ta ctic featu res, deepsyn ta ctic features and stru c tu re features. Wetested the perform anceofth is m odel with N aive Ba yes ia n ,D ecisio n Tree ,Seq ue n tial Min imal O ptim izatio n S V Mand L IBL INEARSV Mon pu b lic blog corpus. The re sults verifie d the contribu tio nofeach featiure-dim ension. The expe riments also proved the accuracy , versatility and robustnessofthe m ethod proposed in this paper.