物理化学学报
物理化學學報
물이화학학보
ACTA PHYSICO-CHIMICA SINICA
2010年
12期
3351-3359
,共9页
杨国兵%李泽荣%饶含兵%李象远%陈宇综
楊國兵%李澤榮%饒含兵%李象遠%陳宇綜
양국병%리택영%요함병%리상원%진우종
乙酰胆碱酯酶抑制剂%机器学习方法%变量筛选%应用域
乙酰膽堿酯酶抑製劑%機器學習方法%變量篩選%應用域
을선담감지매억제제%궤기학습방법%변량사선%응용역
我们构建了表征乙酰胆碱酯酶抑制剂分子组成、电荷、拓扑、几何结构及物理化学性质等特征的1559个描述符,通过Fischer Score排序过滤和Monte Carlo模拟退火法相结合进行变量筛选得到37个描述符,然后分别用支持向量学习机(SVM)、人工神经网络(ANN)和k-近邻(k-NN)等机器学习方法建立了乙酰胆碱酯酶抑制剂的分类预测模型.对于训练集的515个样本,通过五重交叉验证,各机器学习方法对正样本,负样本和总样本的平均预测精度分别为87.3%-92.7%,67.0%-81.0%和79.4%-88.2%;通过y-scrambling方法验证SVM模型是否偶然相关,结果正样本,负样本和总样本的平均预测精度分别为72.7%-82.5%,41.0%-53.0%和62.1%-69.1%,明显低于实际所建模型的预测精度,表明所建模型不存在偶然相关;对172个没有参与建模的外部独立测试样本,各机器学习方法对正样本,负样本和总样本的预测精度分别为93.3%-100.0%,74.6%-89.6%和86.1%-95.9%.所建模型中,SVM模型预测精度最好,且明显高于其它文献报道结果.
我們構建瞭錶徵乙酰膽堿酯酶抑製劑分子組成、電荷、拓撲、幾何結構及物理化學性質等特徵的1559箇描述符,通過Fischer Score排序過濾和Monte Carlo模擬退火法相結閤進行變量篩選得到37箇描述符,然後分彆用支持嚮量學習機(SVM)、人工神經網絡(ANN)和k-近鄰(k-NN)等機器學習方法建立瞭乙酰膽堿酯酶抑製劑的分類預測模型.對于訓練集的515箇樣本,通過五重交扠驗證,各機器學習方法對正樣本,負樣本和總樣本的平均預測精度分彆為87.3%-92.7%,67.0%-81.0%和79.4%-88.2%;通過y-scrambling方法驗證SVM模型是否偶然相關,結果正樣本,負樣本和總樣本的平均預測精度分彆為72.7%-82.5%,41.0%-53.0%和62.1%-69.1%,明顯低于實際所建模型的預測精度,錶明所建模型不存在偶然相關;對172箇沒有參與建模的外部獨立測試樣本,各機器學習方法對正樣本,負樣本和總樣本的預測精度分彆為93.3%-100.0%,74.6%-89.6%和86.1%-95.9%.所建模型中,SVM模型預測精度最好,且明顯高于其它文獻報道結果.
아문구건료표정을선담감지매억제제분자조성、전하、탁복、궤하결구급물이화학성질등특정적1559개묘술부,통과Fischer Score배서과려화Monte Carlo모의퇴화법상결합진행변량사선득도37개묘술부,연후분별용지지향량학습궤(SVM)、인공신경망락(ANN)화k-근린(k-NN)등궤기학습방법건립료을선담감지매억제제적분류예측모형.대우훈련집적515개양본,통과오중교차험증,각궤기학습방법대정양본,부양본화총양본적평균예측정도분별위87.3%-92.7%,67.0%-81.0%화79.4%-88.2%;통과y-scrambling방법험증SVM모형시부우연상관,결과정양본,부양본화총양본적평균예측정도분별위72.7%-82.5%,41.0%-53.0%화62.1%-69.1%,명현저우실제소건모형적예측정도,표명소건모형불존재우연상관;대172개몰유삼여건모적외부독립측시양본,각궤기학습방법대정양본,부양본화총양본적예측정도분별위93.3%-100.0%,74.6%-89.6%화86.1%-95.9%.소건모형중,SVM모형예측정도최호,차명현고우기타문헌보도결과.