吉林大学学报(理学版)
吉林大學學報(理學版)
길림대학학보(이학판)
JOURNAL OF JILIN UNIVERSITY(SCIENCE EDITION)
2009年
6期
1237-1240
,共4页
邹淑雪%刘桂霞%时小虎%周春光
鄒淑雪%劉桂霞%時小虎%週春光
추숙설%류계하%시소호%주춘광
蛋白质结构域边界%支持向量机%非平衡数据学习%基于距离的最大熵
蛋白質結構域邊界%支持嚮量機%非平衡數據學習%基于距離的最大熵
단백질결구역변계%지지향량궤%비평형수거학습%기우거리적최대적
protein domain boundaries%support vector machine%imbalanced data learning%distance-based maximal entropy
首次将蛋白质结构域边界检测问题归结为非平衡数据学习问题, 提出一种新的欠采样方法, 即在支持向量机特征空间中对与正类样本具有距离最大熵值的负类样本进行采样. 以经过筛选的蛋白质结构域数据库作为实验数据, 支持向量机学习系统的平均预测准确率可达80%, 同时具有较高的敏感性和特异性.
首次將蛋白質結構域邊界檢測問題歸結為非平衡數據學習問題, 提齣一種新的欠採樣方法, 即在支持嚮量機特徵空間中對與正類樣本具有距離最大熵值的負類樣本進行採樣. 以經過篩選的蛋白質結構域數據庫作為實驗數據, 支持嚮量機學習繫統的平均預測準確率可達80%, 同時具有較高的敏感性和特異性.
수차장단백질결구역변계검측문제귀결위비평형수거학습문제, 제출일충신적흠채양방법, 즉재지지향량궤특정공간중대여정류양본구유거리최대적치적부류양본진행채양. 이경과사선적단백질결구역수거고작위실험수거, 지지향량궤학습계통적평균예측준학솔가체80%, 동시구유교고적민감성화특이성.
The domain detection was taken as an imbalanced data learning problem. A novel undersampling method using distance-based maximal entropy in the feature space of support vector machines is proposed. By way of scanning the selected proteins from the protein domain database, the overall accuracy of our machine study system is about 80% with high sensitivity and specificity.