山东农业大学学报(自然科学版)
山東農業大學學報(自然科學版)
산동농업대학학보(자연과학판)
JOURNAL OF SHANDONG AGRICULTURAL UNIVERSITY(NATURAL SCIENCE)
2014年
z1期
27-32
,共6页
石陆魁%刘倩倩%王靖鑫%张军
石陸魁%劉倩倩%王靖鑫%張軍
석륙괴%류천천%왕정흠%장군
词频统计编码%支持向量机%蛋白质二级结构预测%滑动窗口法
詞頻統計編碼%支持嚮量機%蛋白質二級結構預測%滑動窗口法
사빈통계편마%지지향량궤%단백질이급결구예측%활동창구법
Word frequency statistic coding%support vector machine%protein secondary structure prediction%sliding window method
在蛋白质二级结构预测中,常用的氨基酸序列编码方法产生的编码除了具有较高的维数外,也没有利用氨基酸序列片段中的统计信息。为此,提出了一种新的氨基酸序列编码方法--基于词频统计的编码方法,该方法统计每个氨基酸在氨基酸序列片段中出现的频率,利用该编码方法对氨基酸序列片段编码后得到一个20维的向量。与其它编码方法相比不但具有较低的维数,而且也充分利用了氨基酸片段内部所有氨基酸对目标氨基酸的影响。在实验中比较了四种编码方法结合支持向量机和BP神经网络的预测结果,实验结果表明,通过结合词频统计编码和支持向量机来预测蛋白质二级结构极大地提高了预测精度,远优于其它方法的预测结果。
在蛋白質二級結構預測中,常用的氨基痠序列編碼方法產生的編碼除瞭具有較高的維數外,也沒有利用氨基痠序列片段中的統計信息。為此,提齣瞭一種新的氨基痠序列編碼方法--基于詞頻統計的編碼方法,該方法統計每箇氨基痠在氨基痠序列片段中齣現的頻率,利用該編碼方法對氨基痠序列片段編碼後得到一箇20維的嚮量。與其它編碼方法相比不但具有較低的維數,而且也充分利用瞭氨基痠片段內部所有氨基痠對目標氨基痠的影響。在實驗中比較瞭四種編碼方法結閤支持嚮量機和BP神經網絡的預測結果,實驗結果錶明,通過結閤詞頻統計編碼和支持嚮量機來預測蛋白質二級結構極大地提高瞭預測精度,遠優于其它方法的預測結果。
재단백질이급결구예측중,상용적안기산서렬편마방법산생적편마제료구유교고적유수외,야몰유이용안기산서렬편단중적통계신식。위차,제출료일충신적안기산서렬편마방법--기우사빈통계적편마방법,해방법통계매개안기산재안기산서렬편단중출현적빈솔,이용해편마방법대안기산서렬편단편마후득도일개20유적향량。여기타편마방법상비불단구유교저적유수,이차야충분이용료안기산편단내부소유안기산대목표안기산적영향。재실험중비교료사충편마방법결합지지향량궤화BP신경망락적예측결과,실험결과표명,통과결합사빈통계편마화지지향량궤래예측단백질이급결구겁대지제고료예측정도,원우우기타방법적예측결과。
In protein secondary structure prediction, the codes from the existing amino acid coding methods have higher dimension. And these coding methods don’t also use the statistic information in the amino acid sequence. To do that, a new coding method based on word frequency statistics was presented, which counted the frequency of each amino acid emerging in amino acids sequence. A 20 dimensional vector was obtained after coding the amino acid sequence with the new coding method. In contrast to other the coding methods, the codes from the new coding method have lower dimension and fully utilize all information in the amino acid sequence. In experiments, we compared the methods combing different coding methods and SVM with BP neural network. Experiment results show that the method combing word frequency statistics coding method and SVM greatly improve the prediction accuracy of protein secondary structure and is superior to other methods.