计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2013年
6期
229-232,251
,共5页
封二英%牛耘%魏欧%蔡昕烨
封二英%牛耘%魏歐%蔡昕燁
봉이영%우운%위구%채흔엽
蛋白质交互关系%关系相似性%句法分析%空间向量模型
蛋白質交互關繫%關繫相似性%句法分析%空間嚮量模型
단백질교호관계%관계상사성%구법분석%공간향량모형
针对目前蛋白质交互关系识别主要以单句为依据、因标注数据缺乏而导致训练集规模小等不足,提出一种以关系相似性分析为框架、基于大规模文本的蛋白质交互关系自动识别方法.首先通过对大规模生物医学文本数据库的自动搜索获取描述蛋白质对的句子集合,然后分别从单词、短语结构、依赖关系3个角度抽取特征,建立向量空间模型来表示一对蛋白质之间的关系,最后根据两个向量之间的相似性对关系作出判断.所需训练数据直接取自现有蛋白质交互网络,无需任何额外的人工标注.实验表明,基于关系相似性的蛋白质交互关系自动识别取得了较高的精度(F-score 74.2%).
針對目前蛋白質交互關繫識彆主要以單句為依據、因標註數據缺乏而導緻訓練集規模小等不足,提齣一種以關繫相似性分析為框架、基于大規模文本的蛋白質交互關繫自動識彆方法.首先通過對大規模生物醫學文本數據庫的自動搜索穫取描述蛋白質對的句子集閤,然後分彆從單詞、短語結構、依賴關繫3箇角度抽取特徵,建立嚮量空間模型來錶示一對蛋白質之間的關繫,最後根據兩箇嚮量之間的相似性對關繫作齣判斷.所需訓練數據直接取自現有蛋白質交互網絡,無需任何額外的人工標註.實驗錶明,基于關繫相似性的蛋白質交互關繫自動識彆取得瞭較高的精度(F-score 74.2%).
침대목전단백질교호관계식별주요이단구위의거、인표주수거결핍이도치훈련집규모소등불족,제출일충이관계상사성분석위광가、기우대규모문본적단백질교호관계자동식별방법.수선통과대대규모생물의학문본수거고적자동수색획취묘술단백질대적구자집합,연후분별종단사、단어결구、의뢰관계3개각도추취특정,건립향량공간모형래표시일대단백질지간적관계,최후근거량개향량지간적상사성대관계작출판단.소수훈련수거직접취자현유단백질교호망락,무수임하액외적인공표주.실험표명,기우관계상사성적단백질교호관계자동식별취득료교고적정도(F-score 74.2%).