计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2013年
2期
120-123,152
,共5页
黎冬媛%刘智%刘三(蚜)%孟文婷
黎鼕媛%劉智%劉三(蚜)%孟文婷
려동원%류지%류삼(아)%맹문정
书写纹%半随机特征采样%个体特征集%集成分类器%差异度
書寫紋%半隨機特徵採樣%箇體特徵集%集成分類器%差異度
서사문%반수궤특정채양%개체특정집%집성분류기%차이도
N-gram字符序列能有效捕捉文本中作者的个体风格信息,但其特征空间稀疏度高,且存在较多噪音特征.针对该问题,提出一种基于半随机特征采样的中文书写纹识别算法.该算法首先采用一种离散度准则为每个作者选取一定粒度的个体特征集,然后将个体特征集以一种半随机选择机制划分成多个等维度的特征子空间,并基于每个子空间训练相应的基分类器,最后采取多数投票法的融合策略构造集成分类模型.在中文真实数据集上与基于随机子空间和Bagging算法的集成分类器进行了对比试验,结果表明,该算法在正确率和差异度方面优于随机子空间和Bag-ging算法,并且取得了比单分类模型更好的识别性能.
N-gram字符序列能有效捕捉文本中作者的箇體風格信息,但其特徵空間稀疏度高,且存在較多譟音特徵.針對該問題,提齣一種基于半隨機特徵採樣的中文書寫紋識彆算法.該算法首先採用一種離散度準則為每箇作者選取一定粒度的箇體特徵集,然後將箇體特徵集以一種半隨機選擇機製劃分成多箇等維度的特徵子空間,併基于每箇子空間訓練相應的基分類器,最後採取多數投票法的融閤策略構造集成分類模型.在中文真實數據集上與基于隨機子空間和Bagging算法的集成分類器進行瞭對比試驗,結果錶明,該算法在正確率和差異度方麵優于隨機子空間和Bag-ging算法,併且取得瞭比單分類模型更好的識彆性能.
N-gram자부서렬능유효포착문본중작자적개체풍격신식,단기특정공간희소도고,차존재교다조음특정.침대해문제,제출일충기우반수궤특정채양적중문서사문식별산법.해산법수선채용일충리산도준칙위매개작자선취일정립도적개체특정집,연후장개체특정집이일충반수궤선택궤제화분성다개등유도적특정자공간,병기우매개자공간훈련상응적기분류기,최후채취다수투표법적융합책략구조집성분류모형.재중문진실수거집상여기우수궤자공간화Bagging산법적집성분류기진행료대비시험,결과표명,해산법재정학솔화차이도방면우우수궤자공간화Bag-ging산법,병차취득료비단분류모형경호적식별성능.