厦门大学学报(自然科学版)
廈門大學學報(自然科學版)
하문대학학보(자연과학판)
JOURNAL OF XIAMEN UNIVERSITY (NATURAL SCIENCE)
2009年
5期
704-708
,共5页
蛋白质二级结构预测%偏最小二乘法变量筛选%海量数据建模%三联氨基酸
蛋白質二級結構預測%偏最小二乘法變量篩選%海量數據建模%三聯氨基痠
단백질이급결구예측%편최소이승법변량사선%해량수거건모%삼련안기산
蛋白质的一级结构或序列与二级结构的关系在蛋白质结构研究中是很重要的,通过建立模型的方法来研究这种关系.在文献中已有的模型(蛋白质一级结构中的二联氨基酸与蛋白质二级结构的模型)的基础上,建立了蛋白质一级结构中的三联氨基酸个数与蛋白质二级结构个数模型.该模型能够较准确地反映蛋白质的一级结构或序列与蛋白质的二级结构的关系,比较适合应用于氨基酸序列长度变化较大的建模数据,同二联氨基酸与二级结构模型比较,由于三联氨基酸含有更多氨基酸之间的耦合信息,该模型的拟合精度更高.由于蛋白质一级结构中的三联氨基酸的种类数很大(为4 200),用以建模的变量数就很大,同时从DSSP数据库得到的样本量也很大(为11 600),用以建模的数据量很大.研究结果表明,PLS变量筛选法是一种建立大数据模型有效的方法,可有效地处理变量数为4 200,样本数为11 600这样大数据量的建模问题.
蛋白質的一級結構或序列與二級結構的關繫在蛋白質結構研究中是很重要的,通過建立模型的方法來研究這種關繫.在文獻中已有的模型(蛋白質一級結構中的二聯氨基痠與蛋白質二級結構的模型)的基礎上,建立瞭蛋白質一級結構中的三聯氨基痠箇數與蛋白質二級結構箇數模型.該模型能夠較準確地反映蛋白質的一級結構或序列與蛋白質的二級結構的關繫,比較適閤應用于氨基痠序列長度變化較大的建模數據,同二聯氨基痠與二級結構模型比較,由于三聯氨基痠含有更多氨基痠之間的耦閤信息,該模型的擬閤精度更高.由于蛋白質一級結構中的三聯氨基痠的種類數很大(為4 200),用以建模的變量數就很大,同時從DSSP數據庫得到的樣本量也很大(為11 600),用以建模的數據量很大.研究結果錶明,PLS變量篩選法是一種建立大數據模型有效的方法,可有效地處理變量數為4 200,樣本數為11 600這樣大數據量的建模問題.
단백질적일급결구혹서렬여이급결구적관계재단백질결구연구중시흔중요적,통과건립모형적방법래연구저충관계.재문헌중이유적모형(단백질일급결구중적이련안기산여단백질이급결구적모형)적기출상,건립료단백질일급결구중적삼련안기산개수여단백질이급결구개수모형.해모형능구교준학지반영단백질적일급결구혹서렬여단백질적이급결구적관계,비교괄합응용우안기산서렬장도변화교대적건모수거,동이련안기산여이급결구모형비교,유우삼련안기산함유경다안기산지간적우합신식,해모형적의합정도경고.유우단백질일급결구중적삼련안기산적충류수흔대(위4 200),용이건모적변량수취흔대,동시종DSSP수거고득도적양본량야흔대(위11 600),용이건모적수거량흔대.연구결과표명,PLS변량사선법시일충건립대수거모형유효적방법,가유효지처리변량수위4 200,양본수위11 600저양대수거량적건모문제.