计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2015年
2期
42-46
,共5页
关系相似性%蛋白质交互%空间向量模型%K近邻分类
關繫相似性%蛋白質交互%空間嚮量模型%K近鄰分類
관계상사성%단백질교호%공간향량모형%K근린분류
relational similarity%protein-protein interaction%vector space model%K nearest neighbor classification
针对目前蛋白质提取方法仅以单句信息为依据的不足,文中提出了以相似性为框架基于大规模文本的蛋白质交互关系识别方法。首先通过搜索医学文献数据库建立蛋白质对的签名档,然后提取签名档中的重要特征建立蛋白质对的向量空间模型,最后通过K近邻分类方法判断蛋白质对的交互关系。实验比较了向量空间模型下不同的距离度量策略对分类效果的影响,得出了比较合理的衡量相似性的函数。结果表明基于大规模文本采用基于余弦距离度量相似性的近邻方法识别蛋白质交互关系取得了较高且均衡的精确度和召回率,并且此方法直接利用了已有的交互信息,从而免除了额外的人工标注负担。
針對目前蛋白質提取方法僅以單句信息為依據的不足,文中提齣瞭以相似性為框架基于大規模文本的蛋白質交互關繫識彆方法。首先通過搜索醫學文獻數據庫建立蛋白質對的籤名檔,然後提取籤名檔中的重要特徵建立蛋白質對的嚮量空間模型,最後通過K近鄰分類方法判斷蛋白質對的交互關繫。實驗比較瞭嚮量空間模型下不同的距離度量策略對分類效果的影響,得齣瞭比較閤理的衡量相似性的函數。結果錶明基于大規模文本採用基于餘絃距離度量相似性的近鄰方法識彆蛋白質交互關繫取得瞭較高且均衡的精確度和召迴率,併且此方法直接利用瞭已有的交互信息,從而免除瞭額外的人工標註負擔。
침대목전단백질제취방법부이단구신식위의거적불족,문중제출료이상사성위광가기우대규모문본적단백질교호관계식별방법。수선통과수색의학문헌수거고건립단백질대적첨명당,연후제취첨명당중적중요특정건립단백질대적향량공간모형,최후통과K근린분류방법판단단백질대적교호관계。실험비교료향량공간모형하불동적거리도량책략대분류효과적영향,득출료비교합리적형량상사성적함수。결과표명기우대규모문본채용기우여현거리도량상사성적근린방법식별단백질교호관계취득료교고차균형적정학도화소회솔,병차차방법직접이용료이유적교호신식,종이면제료액외적인공표주부담。
For the deficiencies of current approaches on Protein-Protein Interaction ( PPI) identification which based on single sentences, propose a relational similarity method for automatic identification of protein-protein interactions by searching large scale text. The signa-ture of a protein pair is obtained first by searching large scale biomedical text. Then,features are extracted from the signatures to build the vector space model of the protein pair. Finally,K nearest neighbor classifier is applied to identify PPIs. The influence of various distance measurement strategies under vector space model on classification effect are compared and the rational similar function is obtained. Results show that this approach achieves high and well balanced precision and recall when taking cosine as the similarity measurement. In addi-tion,this approach makes use of known PPIs thus releases the burden of manual annotation.