淮阴师范学院学报:自然科学版
淮陰師範學院學報:自然科學版
회음사범학원학보:자연과학판
Journal of Huaiyin Teachers College(Natrual Science Edition)
2011年
5期
409-413
,共5页
蛋白质质谱%分箱法%T-检验%支持向量机
蛋白質質譜%分箱法%T-檢驗%支持嚮量機
단백질질보%분상법%T-검험%지지향량궤
protein mass spectrometry%binning%T-test%support vector machine
对蛋白质质谱数据进行模式识别成为癌症诊断的一种新方法,但质谱数据存在高维小样本问题,因而数据分析面临着巨大挑战.在对原始数据进行基线校正与标准化并用分箱法进行降维预处理的基础上,提出用T检验方法选取特征,对蛋白质质谱数据进行分析研究.实验对卵巢质谱数据集进行分类,用10-fold交叉验证法选择训练和测试样本,以支持向量机为分类器,实验结果表明提出的方法不仅选取特征子集小而且识别率高,其敏感性、特异性和综合识别率分别达到100%、96.7%和98.8%.
對蛋白質質譜數據進行模式識彆成為癌癥診斷的一種新方法,但質譜數據存在高維小樣本問題,因而數據分析麵臨著巨大挑戰.在對原始數據進行基線校正與標準化併用分箱法進行降維預處理的基礎上,提齣用T檢驗方法選取特徵,對蛋白質質譜數據進行分析研究.實驗對卵巢質譜數據集進行分類,用10-fold交扠驗證法選擇訓練和測試樣本,以支持嚮量機為分類器,實驗結果錶明提齣的方法不僅選取特徵子集小而且識彆率高,其敏感性、特異性和綜閤識彆率分彆達到100%、96.7%和98.8%.
대단백질질보수거진행모식식별성위암증진단적일충신방법,단질보수거존재고유소양본문제,인이수거분석면림착거대도전.재대원시수거진행기선교정여표준화병용분상법진행강유예처리적기출상,제출용T검험방법선취특정,대단백질질보수거진행분석연구.실험대란소질보수거집진행분류,용10-fold교차험증법선택훈련화측시양본,이지지향량궤위분류기,실험결과표명제출적방법불부선취특정자집소이차식별솔고,기민감성、특이성화종합식별솔분별체도100%、96.7%화98.8%.
The pattern analysis to protein mass spectrometry data becomes a new method of cancer diagnosis.But there exists high dimensional and small sample size problem in protein mass spectrometry data,which brings a big challenge to data analysis.Based on dimension reduction preprocessing to raw data by using baseline correction and binning standardization,propose T test to select features to analysis protein mass spectrometry data.In the experiment classify ovarian mass dataset,use 10-fold cross validation to get training and testing data and use SVM as the classifier,the results shows the method propose only selects a small feature subset,and have a very high recognition rate.Its Sensitivity,specificity,and overall recognition rate has reached 100%,96.7% and 98.8%.