化学研究与应用
化學研究與應用
화학연구여응용
CHEMICAL RESEARCH AND APPLICATION
2011年
12期
1577-1584
,共8页
陈彬%饶含兵%何桦%杨国兵%李泽荣
陳彬%饒含兵%何樺%楊國兵%李澤榮
진빈%요함병%하화%양국병%리택영
激素敏感脂肪酶抑制剂%机器学习方法%变量筛选
激素敏感脂肪酶抑製劑%機器學習方法%變量篩選
격소민감지방매억제제%궤기학습방법%변량사선
对激素敏感脂肪酶,我们构建了表征分子组成、电荷、拓扑、几何结构及物理化学性质等特征的1559个描述符,通过Fischer Score排序过滤和Monte Carlo模拟退火法相结合进行变量筛选得到35个描述符,然后分别用支持向量学习机(SVM)、人工神经网络(ANN),k-近邻(k-NN),连续核密度估计(CKD)和逻辑回归(LR)等机器学习方法建立了激素敏感脂肪酶抑制剂的分类预测模型.对于训练集的200个样本,通过五重交叉验证,各机器学习方法对正样本,负样本和总样本的平均预测精度分别在78.0%-94.0%,69.0%-91.0%和73.5%-92.5%;通过y-scrambling方法验证SVM模型是否偶然相关,结果正样本,负样本和总样本的平均预测精度分别在60.0%-74.0%,58.0%-71.0%和61.0%-69.5%,明显低于实际所建模型的预测精度,表明所建模型不存在偶然相关;对52个没有参与建模的外部独立测试样本,各机器学习方法对正样本,负样本和总样本的预测精度分别在84.6%-92.3%,88.5%-92.3%和86.5%-92.3%.所建模型中,SVM,CKD和LR较好,且明显高于其他文献报道结果.
對激素敏感脂肪酶,我們構建瞭錶徵分子組成、電荷、拓撲、幾何結構及物理化學性質等特徵的1559箇描述符,通過Fischer Score排序過濾和Monte Carlo模擬退火法相結閤進行變量篩選得到35箇描述符,然後分彆用支持嚮量學習機(SVM)、人工神經網絡(ANN),k-近鄰(k-NN),連續覈密度估計(CKD)和邏輯迴歸(LR)等機器學習方法建立瞭激素敏感脂肪酶抑製劑的分類預測模型.對于訓練集的200箇樣本,通過五重交扠驗證,各機器學習方法對正樣本,負樣本和總樣本的平均預測精度分彆在78.0%-94.0%,69.0%-91.0%和73.5%-92.5%;通過y-scrambling方法驗證SVM模型是否偶然相關,結果正樣本,負樣本和總樣本的平均預測精度分彆在60.0%-74.0%,58.0%-71.0%和61.0%-69.5%,明顯低于實際所建模型的預測精度,錶明所建模型不存在偶然相關;對52箇沒有參與建模的外部獨立測試樣本,各機器學習方法對正樣本,負樣本和總樣本的預測精度分彆在84.6%-92.3%,88.5%-92.3%和86.5%-92.3%.所建模型中,SVM,CKD和LR較好,且明顯高于其他文獻報道結果.
대격소민감지방매,아문구건료표정분자조성、전하、탁복、궤하결구급물이화학성질등특정적1559개묘술부,통과Fischer Score배서과려화Monte Carlo모의퇴화법상결합진행변량사선득도35개묘술부,연후분별용지지향량학습궤(SVM)、인공신경망락(ANN),k-근린(k-NN),련속핵밀도고계(CKD)화라집회귀(LR)등궤기학습방법건립료격소민감지방매억제제적분류예측모형.대우훈련집적200개양본,통과오중교차험증,각궤기학습방법대정양본,부양본화총양본적평균예측정도분별재78.0%-94.0%,69.0%-91.0%화73.5%-92.5%;통과y-scrambling방법험증SVM모형시부우연상관,결과정양본,부양본화총양본적평균예측정도분별재60.0%-74.0%,58.0%-71.0%화61.0%-69.5%,명현저우실제소건모형적예측정도,표명소건모형불존재우연상관;대52개몰유삼여건모적외부독립측시양본,각궤기학습방법대정양본,부양본화총양본적예측정도분별재84.6%-92.3%,88.5%-92.3%화86.5%-92.3%.소건모형중,SVM,CKD화LR교호,차명현고우기타문헌보도결과.