公路交通科技
公路交通科技
공로교통과기
JOURNAL OF HIGHWAY AND TRANSPORTATION RESEARCH AND DEVELOPMENT
2015年
1期
116-121
,共6页
交通工程%交通信号控制%强化学习%交叉口%特征表示
交通工程%交通信號控製%彊化學習%交扠口%特徵錶示
교통공정%교통신호공제%강화학습%교차구%특정표시
traffic engineering%traffic signal control%reinforcement learning%intersection%feature representation
将传统强化学习算法应用到交叉口自适应交通信号控制中,存在着维数灾难的问题,即状态和动作空间大小随着交叉口的增加而呈指数增长.因此,将交叉口自适应交通信号控制问题看成马尔科夫决策过程(MDP)问题,通过有效地利用基于特征的状态表示和线性平均函数估计思想,减少了计算复杂度,保证了收敛性.在设置的多交叉口交通环境下,仿真试验表明:在不同的交通需求水平和车流到达分布下,此算法均优于定时控制和传统的强化学习算法,并且其参数θ和学习步数是收敛的.
將傳統彊化學習算法應用到交扠口自適應交通信號控製中,存在著維數災難的問題,即狀態和動作空間大小隨著交扠口的增加而呈指數增長.因此,將交扠口自適應交通信號控製問題看成馬爾科伕決策過程(MDP)問題,通過有效地利用基于特徵的狀態錶示和線性平均函數估計思想,減少瞭計算複雜度,保證瞭收斂性.在設置的多交扠口交通環境下,倣真試驗錶明:在不同的交通需求水平和車流到達分佈下,此算法均優于定時控製和傳統的彊化學習算法,併且其參數θ和學習步數是收斂的.
장전통강화학습산법응용도교차구자괄응교통신호공제중,존재착유수재난적문제,즉상태화동작공간대소수착교차구적증가이정지수증장.인차,장교차구자괄응교통신호공제문제간성마이과부결책과정(MDP)문제,통과유효지이용기우특정적상태표시화선성평균함수고계사상,감소료계산복잡도,보증료수렴성.재설치적다교차구교통배경하,방진시험표명:재불동적교통수구수평화차류도체분포하,차산법균우우정시공제화전통적강화학습산법,병차기삼수θ화학습보수시수렴적.