交通科学与工程
交通科學與工程
교통과학여공정
JOURNAL OF CHANGSHA COMMUNICATIONS UNIVERSRTY
2014年
1期
80-85
,共6页
增量风险避免%强化学习%信号配时%仿真
增量風險避免%彊化學習%信號配時%倣真
증량풍험피면%강화학습%신호배시%방진
incremental risk avoidance%reinforcement learning%signal timing%simulation
现有的信号配时强化学习模型大多是风险中立的强化学习模型,其缺点是在线学习中稳定性和鲁棒性较差,需要的运行时间较长,且收敛效果不明显.为了解决存在的这些问题,建立了风险避免强化学习交通信号配时模型,用排队长度差作为模型的交通评价指标.在集成VISSIM-Excel VBA-Matlab的仿真平台上进行了仿真实验,分析了风险程度系数对配时方案优劣程度、收敛性的影响;与风险中立的强化学习模型进行对比分析,得出了新模型,它在稳定性方面有较大的改进,收敛速度较快,在交通评价指标上运行效果好.针对交通信号配时优化这类问题,应采用增量风险避免强化学习方法,即风险程度系数应采用小步距递增的方式.
現有的信號配時彊化學習模型大多是風險中立的彊化學習模型,其缺點是在線學習中穩定性和魯棒性較差,需要的運行時間較長,且收斂效果不明顯.為瞭解決存在的這些問題,建立瞭風險避免彊化學習交通信號配時模型,用排隊長度差作為模型的交通評價指標.在集成VISSIM-Excel VBA-Matlab的倣真平檯上進行瞭倣真實驗,分析瞭風險程度繫數對配時方案優劣程度、收斂性的影響;與風險中立的彊化學習模型進行對比分析,得齣瞭新模型,它在穩定性方麵有較大的改進,收斂速度較快,在交通評價指標上運行效果好.針對交通信號配時優化這類問題,應採用增量風險避免彊化學習方法,即風險程度繫數應採用小步距遞增的方式.
현유적신호배시강화학습모형대다시풍험중립적강화학습모형,기결점시재선학습중은정성화로봉성교차,수요적운행시간교장,차수렴효과불명현.위료해결존재적저사문제,건립료풍험피면강화학습교통신호배시모형,용배대장도차작위모형적교통평개지표.재집성VISSIM-Excel VBA-Matlab적방진평태상진행료방진실험,분석료풍험정도계수대배시방안우렬정도、수렴성적영향;여풍험중립적강화학습모형진행대비분석,득출료신모형,타재은정성방면유교대적개진,수렴속도교쾌,재교통평개지표상운행효과호.침대교통신호배시우화저류문제,응채용증량풍험피면강화학습방법,즉풍험정도계수응채용소보거체증적방식.