现代电子技术
現代電子技術
현대전자기술
MODERN ELECTRONICS TECHNIQUE
2015年
8期
50-53
,共4页
蛋白质结晶%伪氨基酸组成%位置特异性得分矩阵%随机森林
蛋白質結晶%偽氨基痠組成%位置特異性得分矩陣%隨機森林
단백질결정%위안기산조성%위치특이성득분구진%수궤삼림
protein crystallization%pseudo amino acids composition%position specific scoring matrix%random forest
X射线晶体结构分析是测定蛋白质结构的重要方法之一,国际蛋白质数据库(PDB)中已知晶体结构的蛋白质80%~90%均是使用该方法得到的。然而,并不是所有的蛋白质都能良好结晶,使用晶体结构分析方法对不能结晶的蛋白质进行结构测定将浪费大量的资源。因此,研发准确高效的算法来对蛋白质能否结晶进行预测就具有重要意义。在此提出了一种组合蛋白质物理化学特性、序列信息与进化信息的蛋白质结晶预测方法。该方法从不同视角抽取分别抽取蛋白质的物理化学特征、伪氨基酸组成特征(PseAAC)和伪位置特异性得分矩阵特征(PsePSSM),使用随机森林对组合的特征进行蛋白质结晶预测。在标准数据集上的独立测试验证的结果表明,这里所述的蛋白质结晶预测方法具有良好的性能。
X射線晶體結構分析是測定蛋白質結構的重要方法之一,國際蛋白質數據庫(PDB)中已知晶體結構的蛋白質80%~90%均是使用該方法得到的。然而,併不是所有的蛋白質都能良好結晶,使用晶體結構分析方法對不能結晶的蛋白質進行結構測定將浪費大量的資源。因此,研髮準確高效的算法來對蛋白質能否結晶進行預測就具有重要意義。在此提齣瞭一種組閤蛋白質物理化學特性、序列信息與進化信息的蛋白質結晶預測方法。該方法從不同視角抽取分彆抽取蛋白質的物理化學特徵、偽氨基痠組成特徵(PseAAC)和偽位置特異性得分矩陣特徵(PsePSSM),使用隨機森林對組閤的特徵進行蛋白質結晶預測。在標準數據集上的獨立測試驗證的結果錶明,這裏所述的蛋白質結晶預測方法具有良好的性能。
X사선정체결구분석시측정단백질결구적중요방법지일,국제단백질수거고(PDB)중이지정체결구적단백질80%~90%균시사용해방법득도적。연이,병불시소유적단백질도능량호결정,사용정체결구분석방법대불능결정적단백질진행결구측정장낭비대량적자원。인차,연발준학고효적산법래대단백질능부결정진행예측취구유중요의의。재차제출료일충조합단백질물이화학특성、서렬신식여진화신식적단백질결정예측방법。해방법종불동시각추취분별추취단백질적물이화학특정、위안기산조성특정(PseAAC)화위위치특이성득분구진특정(PsePSSM),사용수궤삼림대조합적특정진행단백질결정예측。재표준수거집상적독립측시험증적결과표명,저리소술적단백질결정예측방법구유량호적성능。
The X?ray crystallography analysis is one of the important methods to measure protein structure,by which 80%~90% protein of the known crystalloid structures in the international protein data bank(PDB)has been obtained. However,not all the proteins used for determining structures are crystallizable,which will lead to a low success rate of crystallization projects and a serious waste of resources to measure those non?crystallizable protein. Hence,it is important to develop an accurate and ef?fective method for predicting whether a protein will crystallize. In this study,a new protein crystallization prediction method to combine the protein physicochemical characteristic,serial information and evolutionary information is proposed,which extracts the protein physicochemical properties,pseudo amino acids composition(PseAAC)and pseudo position specific scoring matrix (PsePSSM) at different visual angle respectively. The random forest is taken as classifier predict protein crystallization of the combined Properties. Experimental results on benchmark dataset over cross?validation test and independent validation test show that the proposed method has perfect performance.