中国组织工程研究与临床康复
中國組織工程研究與臨床康複
중국조직공정연구여림상강복
JOURNAL OF CLINICAL REHABILITATIVE TISSUE ENGINEERING RESEARCH
2009年
26期
5074-5078
,共5页
博弈%决策%强化学习%事件相关电位
博弈%決策%彊化學習%事件相關電位
박혁%결책%강화학습%사건상관전위
决策过程指的是在一特定情况下,从现有的几个可选策略中挑选某一个策略的评价过程.然而,在一个复杂的环境中,个体的决策往往会受其他个体影响而随机改变策略,从而很难做出一个最佳决策.虽然博弈论提供了多种决策方案,但是并未明确决策是如何受经验影响的.最佳的决策行为需要根据近期的收益来灵活调整策略.为了探究人类决策过程的本质,文章采用零和博弈中的猜硬币正反游戏.假设这种灵活性是在强化学习的过程中产生的,并建立了一个强化学习模型.另外,全程记录了受试者在实验过程中的事件相关电位.对事件相关电位数据的分析主要集中在反馈相关负波上,一个被认为反映神经错误信号的与收益相关的脑电位.结果显示,在输给对方后事件相关电位的幅值暗示了受试者是否会在随后的出招中改变出招策略.
決策過程指的是在一特定情況下,從現有的幾箇可選策略中挑選某一箇策略的評價過程.然而,在一箇複雜的環境中,箇體的決策往往會受其他箇體影響而隨機改變策略,從而很難做齣一箇最佳決策.雖然博弈論提供瞭多種決策方案,但是併未明確決策是如何受經驗影響的.最佳的決策行為需要根據近期的收益來靈活調整策略.為瞭探究人類決策過程的本質,文章採用零和博弈中的猜硬幣正反遊戲.假設這種靈活性是在彊化學習的過程中產生的,併建立瞭一箇彊化學習模型.另外,全程記錄瞭受試者在實驗過程中的事件相關電位.對事件相關電位數據的分析主要集中在反饋相關負波上,一箇被認為反映神經錯誤信號的與收益相關的腦電位.結果顯示,在輸給對方後事件相關電位的幅值暗示瞭受試者是否會在隨後的齣招中改變齣招策略.
결책과정지적시재일특정정황하,종현유적궤개가선책략중도선모일개책략적평개과정.연이,재일개복잡적배경중,개체적결책왕왕회수기타개체영향이수궤개변책략,종이흔난주출일개최가결책.수연박혁론제공료다충결책방안,단시병미명학결책시여하수경험영향적.최가적결책행위수요근거근기적수익래령활조정책략.위료탐구인류결책과정적본질,문장채용령화박혁중적시경폐정반유희.가설저충령활성시재강화학습적과정중산생적,병건립료일개강화학습모형.령외,전정기록료수시자재실험과정중적사건상관전위.대사건상관전위수거적분석주요집중재반궤상관부파상,일개피인위반영신경착오신호적여수익상관적뇌전위.결과현시,재수급대방후사건상관전위적폭치암시료수시자시부회재수후적출초중개변출초책략.