南京理工大学学报(自然科学版)
南京理工大學學報(自然科學版)
남경리공대학학보(자연과학판)
Journal of Nanjing University of Science and Technology
2015年
4期
379-385
,共7页
蛋白质作用%位置特异性得分矩阵%加权得分矩阵直方图%随机森林%分类器集成
蛋白質作用%位置特異性得分矩陣%加權得分矩陣直方圖%隨機森林%分類器集成
단백질작용%위치특이성득분구진%가권득분구진직방도%수궤삼림%분류기집성
protein-protein interactions%position specific scoring matrix%weighted position specific scoring matrix histogram%random forests%classifier ensemble
为了提高蛋白质相互作用位点预测的精度,该文基于蛋白质位置特异性得分矩阵( Position specific scoring matrix,PSSM) ,提出了一种新的加权得分矩阵直方图特征表示方法;针对训练数据的极端不平衡,结合下采样和分类器集成方法,训练随机森林集成分类器. 相对于传统的特征,该文所提新特征具有更低的维数,同时拥有更好的鉴别性. 分类器集成则缓解了下采样带来的信息丢失,并提高了分类精度. 实验结果验证了所述方法是有效的,在标准数据集上的结果优于其他最新的蛋白质相互作用位点预测方法.
為瞭提高蛋白質相互作用位點預測的精度,該文基于蛋白質位置特異性得分矩陣( Position specific scoring matrix,PSSM) ,提齣瞭一種新的加權得分矩陣直方圖特徵錶示方法;針對訓練數據的極耑不平衡,結閤下採樣和分類器集成方法,訓練隨機森林集成分類器. 相對于傳統的特徵,該文所提新特徵具有更低的維數,同時擁有更好的鑒彆性. 分類器集成則緩解瞭下採樣帶來的信息丟失,併提高瞭分類精度. 實驗結果驗證瞭所述方法是有效的,在標準數據集上的結果優于其他最新的蛋白質相互作用位點預測方法.
위료제고단백질상호작용위점예측적정도,해문기우단백질위치특이성득분구진( Position specific scoring matrix,PSSM) ,제출료일충신적가권득분구진직방도특정표시방법;침대훈련수거적겁단불평형,결합하채양화분류기집성방법,훈련수궤삼림집성분류기. 상대우전통적특정,해문소제신특정구유경저적유수,동시옹유경호적감별성. 분류기집성칙완해료하채양대래적신식주실,병제고료분류정도. 실험결과험증료소술방법시유효적,재표준수거집상적결과우우기타최신적단백질상호작용위점예측방법.
In order to improve the accuracy of protein-protein interaction sites prediction,based on position specific scoring matrix ( PSSM ) of a protein, this paper develops a novel feature representation-weighted PSSM histogram. In view of the extreme imbalance in training data, combining under-sampling and classifier ensemble,a random forests ensemble classifier is trained. Compared with the traditional features,the features here possess a lower dimension reserving better discrimination. Classifier ensemble remits the damage of under-sampling and improves the performance. Experimental results show that the method here is effective and outperforms the state of the art methods on benchmark datasets.