马尔可夫决策过程(MDP):一种用于序列决策的数学模型,用来描述“智能体”在环境中按步骤行动、获得回报并改变状态的过程。它通常由 状态(state)、动作(action)、状态转移概率(transition)、奖励(reward) 和 折扣因子(discount) 构成,并满足“马尔可夫性”:下一步主要取决于当前状态与当前动作,而不依赖更久远的历史。(在强化学习与动态规划中非常常见)
/ˈmɑːr.kɔːv dɪˈsɪʒ.ən ˈprəʊ.ses/
An MDP models how an agent chooses actions to maximize reward.
MDP 用来描述智能体如何选择动作以最大化回报。
In reinforcement learning, we often assume the environment can be approximated as a Markov decision process, even if the real world is noisy and partially observed.
在强化学习中,我们常常假设环境可以近似为马尔可夫决策过程,即使现实世界存在噪声并且只能部分观测。
“Markov”来自俄国数学家安德烈·马尔可夫(Andrey Markov),其研究的“马尔可夫链”强调“未来只与当前有关”的性质;“decision process”意为“决策过程”。合在一起,MDP指在满足马尔可夫性质的条件下,对连续决策问题进行建模的方法。