V2EX  ›  英汉词典

Markov Decision Process

定义 Definition

马尔可夫决策过程(MDP):一种用于序列决策的数学模型,用来描述“智能体”在环境中按步骤行动、获得回报并改变状态的过程。它通常由 状态(state)动作(action)状态转移概率(transition)奖励(reward)折扣因子(discount) 构成,并满足“马尔可夫性”:下一步主要取决于当前状态与当前动作,而不依赖更久远的历史。(在强化学习与动态规划中非常常见)

发音 Pronunciation (IPA)

/ˈmɑːr.kɔːv dɪˈsɪʒ.ən ˈprəʊ.ses/

例句 Examples

An MDP models how an agent chooses actions to maximize reward.
MDP 用来描述智能体如何选择动作以最大化回报。

In reinforcement learning, we often assume the environment can be approximated as a Markov decision process, even if the real world is noisy and partially observed.
在强化学习中,我们常常假设环境可以近似为马尔可夫决策过程,即使现实世界存在噪声并且只能部分观测。

词源 Etymology

“Markov”来自俄国数学家安德烈·马尔可夫(Andrey Markov),其研究的“马尔可夫链”强调“未来只与当前有关”的性质;“decision process”意为“决策过程”。合在一起,MDP指在满足马尔可夫性质的条件下,对连续决策问题进行建模的方法。

相关词 Related Words

文学与经典著作 Literary Works

  • Markov Decision Processes: Discrete Stochastic Dynamic Programming(Martin L. Puterman)
  • Reinforcement Learning: An Introduction(Richard S. Sutton & Andrew G. Barto)
  • Dynamic Programming 相关经典论文与著作(Richard Bellman;MDP与贝尔曼最优性原理密切相关)
  • Neuro-Dynamic Programming(Dimitri P. Bertsekas & John N. Tsitsiklis)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   697 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 20:09 · PVG 04:09 · LAX 12:09 · JFK 15:09
♥ Do have faith in what you're doing.