CAJ | 학술논문

从收益管理思想出发,采用平均强化学习算法研究不确定环境下订单生产(MTO)方式企业的订单接受问题.以最大化平均期望收益为优化目标,采用多级价格机制,把订单类型、价格和提前期的不同组合作为系统状态划分标准,结合平均强化学习原理,提出了具有学习能力的订单接受算法(RLOA).仿真结果表明,RLOA算法具有学习和选择性接受订单的能力,与其他订单接受规则相比,在平均收益、订单类型接受状况和适应性等方面都有较好表现.
종수익관리사상출발,채용평균강화학습산법연구불학정배경하정단생산(MTO)방식기업적정단접수문제.이최대화평균기망수익위우화목표,채용다급개격궤제,파정단류형、개격화제전기적불동조합작위계통상태화분표준,결합평균강화학습원리,제출료구유학습능력적정단접수산법(RLOA).방진결과표명,RLOA산법구유학습화선택성접수정단적능력,여기타정단접수규칙상비,재평균수익、정단류형접수상황화괄응성등방면도유교호표현.