计算机应用
計算機應用
계산궤응용
Journal of Computer Applications
2015年
8期
2221-2226
,共6页
毛文涛%王金婉%何玲%袁培燕
毛文濤%王金婉%何玲%袁培燕
모문도%왕금완%하령%원배연
极限学习机%在线贯序数据%不均衡分类%主曲线
極限學習機%在線貫序數據%不均衡分類%主麯線
겁한학습궤%재선관서수거%불균형분류%주곡선
Extreme Learning Machine (ELM)%online sequential data%imbalanced data classification%principal curve
针对现有机器学习算法难以有效提高贯序不均衡数据分类问题中少类样本分类精度的问题,提出一种基于混合采样策略的在线贯序极限学习机.该算法可在提高少类样本分类精度的前提下,减少多类样本的分类精度损失,主要包括离线和在线两个阶段:离线阶段采用均衡采样策略,利用主曲线分别构建多类和少类样本的可信区域,在不改变样本分布特性的前提下,利用可信区域扩充少奚样本和削减多类样本,进而得到均衡的离线样本集,建立初始模型;在线阶段仅对贯序到达的多类数据进行欠采样,根据样本重要度挑选最具价值的多类样本,进而动态更新网络权值.通过理论分析证明所提算法在理论上存在损失信息上界.采用UCI标准数据集和实际的澳门空气污染预报数据进行仿真实验,结果表明,与现有在线贯序极限学习机(OS-ELM)、极限学习机(ELM)和元认知在线贯序极限学习机(MCOS-ELM)算法相比,所提算法对少类样本的预测精度更高,且数值稳定性良好.
針對現有機器學習算法難以有效提高貫序不均衡數據分類問題中少類樣本分類精度的問題,提齣一種基于混閤採樣策略的在線貫序極限學習機.該算法可在提高少類樣本分類精度的前提下,減少多類樣本的分類精度損失,主要包括離線和在線兩箇階段:離線階段採用均衡採樣策略,利用主麯線分彆構建多類和少類樣本的可信區域,在不改變樣本分佈特性的前提下,利用可信區域擴充少奚樣本和削減多類樣本,進而得到均衡的離線樣本集,建立初始模型;在線階段僅對貫序到達的多類數據進行欠採樣,根據樣本重要度挑選最具價值的多類樣本,進而動態更新網絡權值.通過理論分析證明所提算法在理論上存在損失信息上界.採用UCI標準數據集和實際的澳門空氣汙染預報數據進行倣真實驗,結果錶明,與現有在線貫序極限學習機(OS-ELM)、極限學習機(ELM)和元認知在線貫序極限學習機(MCOS-ELM)算法相比,所提算法對少類樣本的預測精度更高,且數值穩定性良好.
침대현유궤기학습산법난이유효제고관서불균형수거분류문제중소류양본분류정도적문제,제출일충기우혼합채양책략적재선관서겁한학습궤.해산법가재제고소류양본분류정도적전제하,감소다류양본적분류정도손실,주요포괄리선화재선량개계단:리선계단채용균형채양책략,이용주곡선분별구건다류화소류양본적가신구역,재불개변양본분포특성적전제하,이용가신구역확충소해양본화삭감다류양본,진이득도균형적리선양본집,건립초시모형;재선계단부대관서도체적다류수거진행흠채양,근거양본중요도도선최구개치적다류양본,진이동태경신망락권치.통과이론분석증명소제산법재이론상존재손실신식상계.채용UCI표준수거집화실제적오문공기오염예보수거진행방진실험,결과표명,여현유재선관서겁한학습궤(OS-ELM)、겁한학습궤(ELM)화원인지재선관서겁한학습궤(MCOS-ELM)산법상비,소제산법대소류양본적예측정도경고,차수치은정성량호.