计算机学报
計算機學報
계산궤학보
CHINESE JOURNAL OF COMPUTERS
2008年
6期
927-933
,共7页
PolyA信号%机器学习%熵%支持向量机
PolyA信號%機器學習%熵%支持嚮量機
PolyA신호%궤기학습%적%지지향량궤
mRNA 3'端的多聚腺苷酸化是真核细胞内mRNA转录后处理的三个最主要步骤之一.对DNA序列上发生多聚腺苷酸化的位置即PolyA位点的识别,对于理解mRNA的形成机制以及进行基因结构预测具有重要作用.本研究利用机器学习方法对PolyA位点进行预测,其实现过程分为以下三个步骤:特征的生成、特征的筛选、特征的综合分析聚类.首先,我们采取统计k阶核苷酸频率的方法来生成初始的特征;然后,通过信息学知识来对特征进行筛选;最后,使用SVM(Support Vector Machines,支持向量机)的方法进行特征的综合分析,确定参数,建立预测模型.在独立的测试数据集上进行测试,当敏感度(Sn)固定为60%时,在内含子水平和外显子水平上的特异性(Sp)分别为71.67%和80.77%,在内含子水平上的预测精度明显优于国际上的同类软件.
mRNA 3'耑的多聚腺苷痠化是真覈細胞內mRNA轉錄後處理的三箇最主要步驟之一.對DNA序列上髮生多聚腺苷痠化的位置即PolyA位點的識彆,對于理解mRNA的形成機製以及進行基因結構預測具有重要作用.本研究利用機器學習方法對PolyA位點進行預測,其實現過程分為以下三箇步驟:特徵的生成、特徵的篩選、特徵的綜閤分析聚類.首先,我們採取統計k階覈苷痠頻率的方法來生成初始的特徵;然後,通過信息學知識來對特徵進行篩選;最後,使用SVM(Support Vector Machines,支持嚮量機)的方法進行特徵的綜閤分析,確定參數,建立預測模型.在獨立的測試數據集上進行測試,噹敏感度(Sn)固定為60%時,在內含子水平和外顯子水平上的特異性(Sp)分彆為71.67%和80.77%,在內含子水平上的預測精度明顯優于國際上的同類軟件.
mRNA 3'단적다취선감산화시진핵세포내mRNA전록후처리적삼개최주요보취지일.대DNA서렬상발생다취선감산화적위치즉PolyA위점적식별,대우리해mRNA적형성궤제이급진행기인결구예측구유중요작용.본연구이용궤기학습방법대PolyA위점진행예측,기실현과정분위이하삼개보취:특정적생성、특정적사선、특정적종합분석취류.수선,아문채취통계k계핵감산빈솔적방법래생성초시적특정;연후,통과신식학지식래대특정진행사선;최후,사용SVM(Support Vector Machines,지지향량궤)적방법진행특정적종합분석,학정삼수,건립예측모형.재독립적측시수거집상진행측시,당민감도(Sn)고정위60%시,재내함자수평화외현자수평상적특이성(Sp)분별위71.67%화80.77%,재내함자수평상적예측정도명현우우국제상적동류연건.