系统仿真学报
繫統倣真學報
계통방진학보
JOURNAL OF SYSTEM SIMULATION
2007年
21期
4945-4948
,共4页
强化学习%R-learning%电梯群组调度%离散事件动态系统
彊化學習%R-learning%電梯群組調度%離散事件動態繫統
강화학습%R-learning%전제군조조도%리산사건동태계통
针对电梯群控系统,建立基于平均报酬强化学习的优化调度模型.采用R-learning的平均报酬强化学习求解算法,在分析电梯群组调度问题特点的基础上,利用径向基函数神经网络解决行为值函数的存储与泛化问题,并结合电梯群组虚拟仿真环境进行验证.通过与两种典型的电梯群组调度算法进行比较,展示了平均报酬强化学习算法在处理具有吸收目标状态的大规模随机序贯决策问题的有效性及可行性.
針對電梯群控繫統,建立基于平均報酬彊化學習的優化調度模型.採用R-learning的平均報酬彊化學習求解算法,在分析電梯群組調度問題特點的基礎上,利用徑嚮基函數神經網絡解決行為值函數的存儲與汎化問題,併結閤電梯群組虛擬倣真環境進行驗證.通過與兩種典型的電梯群組調度算法進行比較,展示瞭平均報酬彊化學習算法在處理具有吸收目標狀態的大規模隨機序貫決策問題的有效性及可行性.
침대전제군공계통,건립기우평균보수강화학습적우화조도모형.채용R-learning적평균보수강화학습구해산법,재분석전제군조조도문제특점적기출상,이용경향기함수신경망락해결행위치함수적존저여범화문제,병결합전제군조허의방진배경진행험증.통과여량충전형적전제군조조도산법진행비교,전시료평균보수강화학습산법재처리구유흡수목표상태적대규모수궤서관결책문제적유효성급가행성.