国际遗传学杂志
國際遺傳學雜誌
국제유전학잡지
INTERNATIONAL JOURNAL OF GENETICS
2014年
5期
230-235
,共6页
李晋%陈曦%林效宗%杨欢%张瑞杰%王丽美
李晉%陳晞%林效宗%楊歡%張瑞傑%王麗美
리진%진희%림효종%양환%장서걸%왕려미
蛋白质-蛋白质互作%机器学习%特征评价%数据库
蛋白質-蛋白質互作%機器學習%特徵評價%數據庫
단백질-단백질호작%궤기학습%특정평개%수거고
Protein-protein interactions%Machine learning%Feature evaluations%Database
目的 蛋白质相互作用研究对于理解DNA功能、基因组元件作用机制有重要意义.已有大量工作在从蛋白质-蛋白质互作的计算预测方向展开,其中蛋白质-蛋白质互作的特征起着很重要的作用.互作特征的评价及相关数据库构建仍是蛋白质互作预测的一项重要工作.方法 该文从基因、蛋白质序列、功能信息层面提取出人类蛋白质-蛋白质对的27个特征,并应用于多种分类器,利用ROC曲线对特征的性能给出了科学的评价.结果 通过研究发现逻辑回归和贝叶斯网络分类效果最好,生物过程、细胞组分、分子功能、基因表达值、组织、域间互作的可用性明显高于其他特征,同时构建了人类蛋白质互作特征数据库,供广大科研工作者使用.结论 从多角度评价了特征可用性,得到了表现较优的特征,但是对于其中一些特征,还需要进一步提高覆盖率,从而达到更好的效果.
目的 蛋白質相互作用研究對于理解DNA功能、基因組元件作用機製有重要意義.已有大量工作在從蛋白質-蛋白質互作的計算預測方嚮展開,其中蛋白質-蛋白質互作的特徵起著很重要的作用.互作特徵的評價及相關數據庫構建仍是蛋白質互作預測的一項重要工作.方法 該文從基因、蛋白質序列、功能信息層麵提取齣人類蛋白質-蛋白質對的27箇特徵,併應用于多種分類器,利用ROC麯線對特徵的性能給齣瞭科學的評價.結果 通過研究髮現邏輯迴歸和貝葉斯網絡分類效果最好,生物過程、細胞組分、分子功能、基因錶達值、組織、域間互作的可用性明顯高于其他特徵,同時構建瞭人類蛋白質互作特徵數據庫,供廣大科研工作者使用.結論 從多角度評價瞭特徵可用性,得到瞭錶現較優的特徵,但是對于其中一些特徵,還需要進一步提高覆蓋率,從而達到更好的效果.
목적 단백질상호작용연구대우리해DNA공능、기인조원건작용궤제유중요의의.이유대량공작재종단백질-단백질호작적계산예측방향전개,기중단백질-단백질호작적특정기착흔중요적작용.호작특정적평개급상관수거고구건잉시단백질호작예측적일항중요공작.방법 해문종기인、단백질서렬、공능신식층면제취출인류단백질-단백질대적27개특정,병응용우다충분류기,이용ROC곡선대특정적성능급출료과학적평개.결과 통과연구발현라집회귀화패협사망락분류효과최호,생물과정、세포조분、분자공능、기인표체치、조직、역간호작적가용성명현고우기타특정,동시구건료인류단백질호작특정수거고,공엄대과연공작자사용.결론 종다각도평개료특정가용성,득도료표현교우적특정,단시대우기중일사특정,환수요진일보제고복개솔,종이체도경호적효과.
Objective Protein-protein interaction (PPI) studies are important for understanding the DNA function andfunctional mechanism of genomic elements.A lot of works had been done towards the direction of calculating predictions of PPIs,and these methods are a very important tool for determining the PPI chaiacteristics.Still much more works remain to be done for evaluating the PPI characteristics and building a related database.Methods we extracted 27 PPI features from gene,protein sequences and functional information in human,then apphed them to various classifiers and evaluated the performance of all the classifiers and features by ROC curve.Results Through our analysis,we found that logistic regression and bayesian network classification are best for PPI characteristics.Biological Process,Cell Composition,Molecular Function,Gene Expression Values,Organization,and Availability of interactions between domain were obviously more useful than other characteristics.Meanwhile,we built a easy using Human Protein Feature Database (HPFD).Conclusion We discovered PPI characteristics with better performance usability in evaluation of function characteristic.However,some of these characteristics,still need to be further optimized in terms of improved PPI coverage.