计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2006年
6期
85-87
,共3页
多Agent系统%动态联盟形成%再励学习
多Agent繫統%動態聯盟形成%再勵學習
다Agent계통%동태련맹형성%재려학습
联盟形成的收益值是模糊和不确定的,难于计算,而联盟收益值在成员变化的情况下的计算就更为复杂.Lerman等人实现了动态联盟Agent进出联盟的管理方法,Chalkiadakis则研究了不确定情况下联盟的再励学习,但没有涉及联盟成员变化情况下的收益值动态性.论文定义了带折扣率的估计核,给出一种再励学习算法来计算联盟成员变化后的收益值,深化了Chalkiadakis的工作.实验结果验证了该方法的可行性和正确性.
聯盟形成的收益值是模糊和不確定的,難于計算,而聯盟收益值在成員變化的情況下的計算就更為複雜.Lerman等人實現瞭動態聯盟Agent進齣聯盟的管理方法,Chalkiadakis則研究瞭不確定情況下聯盟的再勵學習,但沒有涉及聯盟成員變化情況下的收益值動態性.論文定義瞭帶摺釦率的估計覈,給齣一種再勵學習算法來計算聯盟成員變化後的收益值,深化瞭Chalkiadakis的工作.實驗結果驗證瞭該方法的可行性和正確性.
련맹형성적수익치시모호화불학정적,난우계산,이련맹수익치재성원변화적정황하적계산취경위복잡.Lerman등인실현료동태련맹Agent진출련맹적관리방법,Chalkiadakis칙연구료불학정정황하련맹적재려학습,단몰유섭급련맹성원변화정황하적수익치동태성.논문정의료대절구솔적고계핵,급출일충재려학습산법래계산련맹성원변화후적수익치,심화료Chalkiadakis적공작.실험결과험증료해방법적가행성화정학성.