肿瘤是一种多基因参与、多步骤发展、内外环境交互作用下形成的复杂疾病,临床研究显示,对恶性肿瘤而言早期诊断的意义远大于现有的任何一种治疗方案,因此,如何提高肿瘤的诊断率,尤其是早期诊断率已被公认为是改善其疗效和预后的关键.由于蛋白质而并非核酸才是生命活动的具体执行者和体现者,因此,对有关肿瘤的蛋白质质谱数据进行深入研究、挖掘和分析,以期实现肿瘤的早发现,早治疗,在当前显得尤为重要与迫切.因此,本文基于反向传播神经网络对蛋白质质谱数据进行了分析.首先,对蛋白质质谱数据进行了标准化处理,由于蛋白质质谱数据在每个质荷比上的丰度值可能存在较大差异,为防止参与特征提取的各丰度值由于其非均衡性带来的不利影响,因此,在对高维丰度值进行特征提取前,需要对每个丰度值进行标准化处理.又由于质谱数据维数较高,利用主成分分析对数据进行了降维处理,主成分分析属于代数特征分析方法,是模式识别领域中一种经典的特征抽取和降维方法.主成分分析在最小协方差意义下给出了模式样本的最优表示,其优点是消除了模式样本之间的相关性以及实现了模式样本的维数压缩.然后利用反向传播神经网络训练了降维后的数据并进行分类识别.反向传播神经网络的学习规则分为两个阶段:第一阶段(模式顺传播)输入信息从输入层经隐含层逐层计算各单元的输出值,第二阶段(误差逆传播)将输出误差逐层向前算出隐层各单元的误差,并用此误差来修正前层权值.在训练的过程中,即网络的连接权值和闭值被逐步调整,在训练结束之后,网络从输入样本中获得信息并存贮在连接权值和闭值中,根据这些参数和实际样本输入,就可以得到所需要的预测值.本文以卵巢癌质谱数据集为例,通过3个实验来验证本文方法在肿瘤早期发现上的有效性.卵巢癌质谱数据集包含两类,即正常与异常两类.正常类中包含91个样本,每个样本包含两种数据,即质荷比数据以及其对应的丰度值;异常类中包含162个样本,每个样本也包含质荷比数据以及其对应的丰度值两种数据.在实验1中,从正常类的质谱数据中选取10个样本作为训练样本,5个样本作为测试样本;从异常类的质谱数据中也选取10个样本作为训练样本,5个样本作为测试样本,实验结果显示随着投影轴数的增加,本文方法的识别率总趋势也在不断地提高,最终达到了100%的识别率.这是由于不仅质谱数据集的规模较小,而且在反向传播神经网络中,训练样本数较之测试样本数较多,反向传播网络得到了很好的训练.在实验2中,从正常类的质谱数据中选取30个样本作为训练样本,30个样本作为测试样本;从异常类的质谱数据中也选取30个样本作为训练样本,30个样本作为测试样本,实验结果显示在训练样本与测试样本数都是60个的情况下,随着投影轴数的增加,其识别率的变化趋势.尤其在15个投影轴下,其识别率最高,在此之后,识别率会随着投影轴数的增加而有所降低.在实验3中,从正常类与异常类的质谱数据中各选取前一半样本作为训练样本,后一半样本作为测试样本;在整个卵巢癌质谱数据集上的分类实验结果显示了本文方法在在整个卵巢癌质谱数据集下的识别率,可以看出其识别率是比较高的,且算法是稳定的.这也验证了本文方法在蛋白质质谱高通量分析中的有效性,为蛋白质质谱高通量分析提供了新的方法与支撑.
腫瘤是一種多基因參與、多步驟髮展、內外環境交互作用下形成的複雜疾病,臨床研究顯示,對噁性腫瘤而言早期診斷的意義遠大于現有的任何一種治療方案,因此,如何提高腫瘤的診斷率,尤其是早期診斷率已被公認為是改善其療效和預後的關鍵.由于蛋白質而併非覈痠纔是生命活動的具體執行者和體現者,因此,對有關腫瘤的蛋白質質譜數據進行深入研究、挖掘和分析,以期實現腫瘤的早髮現,早治療,在噹前顯得尤為重要與迫切.因此,本文基于反嚮傳播神經網絡對蛋白質質譜數據進行瞭分析.首先,對蛋白質質譜數據進行瞭標準化處理,由于蛋白質質譜數據在每箇質荷比上的豐度值可能存在較大差異,為防止參與特徵提取的各豐度值由于其非均衡性帶來的不利影響,因此,在對高維豐度值進行特徵提取前,需要對每箇豐度值進行標準化處理.又由于質譜數據維數較高,利用主成分分析對數據進行瞭降維處理,主成分分析屬于代數特徵分析方法,是模式識彆領域中一種經典的特徵抽取和降維方法.主成分分析在最小協方差意義下給齣瞭模式樣本的最優錶示,其優點是消除瞭模式樣本之間的相關性以及實現瞭模式樣本的維數壓縮.然後利用反嚮傳播神經網絡訓練瞭降維後的數據併進行分類識彆.反嚮傳播神經網絡的學習規則分為兩箇階段:第一階段(模式順傳播)輸入信息從輸入層經隱含層逐層計算各單元的輸齣值,第二階段(誤差逆傳播)將輸齣誤差逐層嚮前算齣隱層各單元的誤差,併用此誤差來脩正前層權值.在訓練的過程中,即網絡的連接權值和閉值被逐步調整,在訓練結束之後,網絡從輸入樣本中穫得信息併存貯在連接權值和閉值中,根據這些參數和實際樣本輸入,就可以得到所需要的預測值.本文以卵巢癌質譜數據集為例,通過3箇實驗來驗證本文方法在腫瘤早期髮現上的有效性.卵巢癌質譜數據集包含兩類,即正常與異常兩類.正常類中包含91箇樣本,每箇樣本包含兩種數據,即質荷比數據以及其對應的豐度值;異常類中包含162箇樣本,每箇樣本也包含質荷比數據以及其對應的豐度值兩種數據.在實驗1中,從正常類的質譜數據中選取10箇樣本作為訓練樣本,5箇樣本作為測試樣本;從異常類的質譜數據中也選取10箇樣本作為訓練樣本,5箇樣本作為測試樣本,實驗結果顯示隨著投影軸數的增加,本文方法的識彆率總趨勢也在不斷地提高,最終達到瞭100%的識彆率.這是由于不僅質譜數據集的規模較小,而且在反嚮傳播神經網絡中,訓練樣本數較之測試樣本數較多,反嚮傳播網絡得到瞭很好的訓練.在實驗2中,從正常類的質譜數據中選取30箇樣本作為訓練樣本,30箇樣本作為測試樣本;從異常類的質譜數據中也選取30箇樣本作為訓練樣本,30箇樣本作為測試樣本,實驗結果顯示在訓練樣本與測試樣本數都是60箇的情況下,隨著投影軸數的增加,其識彆率的變化趨勢.尤其在15箇投影軸下,其識彆率最高,在此之後,識彆率會隨著投影軸數的增加而有所降低.在實驗3中,從正常類與異常類的質譜數據中各選取前一半樣本作為訓練樣本,後一半樣本作為測試樣本;在整箇卵巢癌質譜數據集上的分類實驗結果顯示瞭本文方法在在整箇卵巢癌質譜數據集下的識彆率,可以看齣其識彆率是比較高的,且算法是穩定的.這也驗證瞭本文方法在蛋白質質譜高通量分析中的有效性,為蛋白質質譜高通量分析提供瞭新的方法與支撐.
종류시일충다기인삼여、다보취발전、내외배경교호작용하형성적복잡질병,림상연구현시,대악성종류이언조기진단적의의원대우현유적임하일충치료방안,인차,여하제고종류적진단솔,우기시조기진단솔이피공인위시개선기료효화예후적관건.유우단백질이병비핵산재시생명활동적구체집행자화체현자,인차,대유관종류적단백질질보수거진행심입연구、알굴화분석,이기실현종류적조발현,조치료,재당전현득우위중요여박절.인차,본문기우반향전파신경망락대단백질질보수거진행료분석.수선,대단백질질보수거진행료표준화처리,유우단백질질보수거재매개질하비상적봉도치가능존재교대차이,위방지삼여특정제취적각봉도치유우기비균형성대래적불리영향,인차,재대고유봉도치진행특정제취전,수요대매개봉도치진행표준화처리.우유우질보수거유수교고,이용주성분분석대수거진행료강유처리,주성분분석속우대수특정분석방법,시모식식별영역중일충경전적특정추취화강유방법.주성분분석재최소협방차의의하급출료모식양본적최우표시,기우점시소제료모식양본지간적상관성이급실현료모식양본적유수압축.연후이용반향전파신경망락훈련료강유후적수거병진행분류식별.반향전파신경망락적학습규칙분위량개계단:제일계단(모식순전파)수입신식종수입층경은함층축층계산각단원적수출치,제이계단(오차역전파)장수출오차축층향전산출은층각단원적오차,병용차오차래수정전층권치.재훈련적과정중,즉망락적련접권치화폐치피축보조정,재훈련결속지후,망락종수입양본중획득신식병존저재련접권치화폐치중,근거저사삼수화실제양본수입,취가이득도소수요적예측치.본문이란소암질보수거집위례,통과3개실험래험증본문방법재종류조기발현상적유효성.란소암질보수거집포함량류,즉정상여이상량류.정상류중포함91개양본,매개양본포함량충수거,즉질하비수거이급기대응적봉도치;이상류중포함162개양본,매개양본야포함질하비수거이급기대응적봉도치량충수거.재실험1중,종정상류적질보수거중선취10개양본작위훈련양본,5개양본작위측시양본;종이상류적질보수거중야선취10개양본작위훈련양본,5개양본작위측시양본,실험결과현시수착투영축수적증가,본문방법적식별솔총추세야재불단지제고,최종체도료100%적식별솔.저시유우불부질보수거집적규모교소,이차재반향전파신경망락중,훈련양본수교지측시양본수교다,반향전파망락득도료흔호적훈련.재실험2중,종정상류적질보수거중선취30개양본작위훈련양본,30개양본작위측시양본;종이상류적질보수거중야선취30개양본작위훈련양본,30개양본작위측시양본,실험결과현시재훈련양본여측시양본수도시60개적정황하,수착투영축수적증가,기식별솔적변화추세.우기재15개투영축하,기식별솔최고,재차지후,식별솔회수착투영축수적증가이유소강저.재실험3중,종정상류여이상류적질보수거중각선취전일반양본작위훈련양본,후일반양본작위측시양본;재정개란소암질보수거집상적분류실험결과현시료본문방법재재정개란소암질보수거집하적식별솔,가이간출기식별솔시비교고적,차산법시은정적.저야험증료본문방법재단백질질보고통량분석중적유효성,위단백질질보고통량분석제공료신적방법여지탱.