什么是马尔可夫决策过程？

马尔可夫决策过程（Markov Decision Process, MDP）是强化学习的核心基础，用于描述智能体与环境之间的交互关系。一个 MDP 通常由以下五要素构成：状态空间、动作空间、奖励函数、状态转移概率函数以及折扣因子。这些要素构建了强化学习的基本框架，为智能体在环境中实现最优决策提供理论支撑。

接下来，我们将分别定义这些要素并以具体场景中的实例加以说明。

1. 智能体（Agent）与环境（Environment）

强化学习中的主体被称为智能体（agent）。智能体是负责动作或决策的实体，无论是人类还是机器，只要能够与环境进行交互，都可以被看作智能体。例如：
- 在超级玛丽游戏场景中，玛丽即智能体。
- 在自动驾驶应用中，无人车便是智能体。

与智能体交互的外部对象则称为环境（environment）。环境负责提供智能体需要处理的规则或机制。根据具体场景，环境可以是：
- 超级玛丽游戏中的游戏程序。
- 棋类游戏中的棋盘及棋子排列状态。
- 自动驾驶中的真实物理世界。

2. 状态和状态空间

状态（State）

状态是环境在某一时刻的描述，用于提供当前环境的信息。例如：
- 在超级玛丽游戏中，状态可以定义为当前屏幕显示的画面（或最近几帧画面）。
- 在棋类游戏中，状态可以表示棋盘当前的布局。

智能体通过观察状态来做出决策。需要注意的是，在某些场景中，智能体可能基于部分观察（Partial Observation）进行决策，例如迷宫中的视野受阻或提示牌提供的信息不完整。

状态空间（State Space）

状态空间是所有可能状态的集合。常记为

\mathcal{S}

。状态空间的特点包括：
- 可以是离散的，也可以是连续的。
- 可以是有限的，也可以是无限的。

例如：
- 在超级玛丽中，状态空间是离散且有限的，包含所有可能的游戏画面。
- 在棋类游戏中，状态空间表示棋盘中棋子的所有可能布局，也属于离散有限集合。

3. 动作和动作空间

动作（Action）

动作是指智能体基于当前状态执行的操作。例如：
- 在超级玛丽中，玛丽可以执行动作如“向左”“向右”“跳跃”。
- 在围棋中，玩家可以选择棋盘上的某个位置落子。

智能体通过选择动作影响环境的状态，动作可以是确定的，也可以是随机的。

动作空间（Action Space）

动作空间是所有可能动作的集合，常记为

\mathcal{A}

。例如：
- 在超级玛丽中，动作空间是有限集合，如

\{左、右、上跳\}

。
- 在围棋中，动作空间是棋盘上的所有可能位置（1 到 361）。

动作空间可以是有限集合，也可以是无限集合，具体取决于场景需求。

4. 奖励函数

奖励是智能体执行某个动作后，环境返回的一项评分，用来评估动作的效果或优劣。奖励设计通常结合具体场景。例如：
- 在超级玛丽中，成功通过关卡的奖励可能为 $+1000$ ，失败的惩罚为 $-1000$ 。
- 在围棋中，获胜玩家可能获得奖励，而失败玩家可能被扣除分数。

奖励函数通常定义为当前状态 $s$ 、当前动作 $a$ ，以及下一状态 $s'$ 的函数，即 $r(s, a, s')$ 。某些场景下，奖励可能仅依赖 $s$ 与 $a$ ，即 $r(s, a)$ 。为了确保稳定性，通常假设奖励函数是有界的。

5. 状态转移及状态转移概率

状态转移（State Transition）

状态转移是指环境在智能体执行动作后，从当前状态

s

转移到下一状态

s'

。例如：
- 在超级玛丽中，当玛丽执行“上跳”动作，环境会根据游戏规则计算出新的状态（即下一帧画面）。
- 在围棋中，当红方“车”移动到黑方“马”的位置时，环境生成新状态（棋盘的更新布局）。

状态转移可以是随机的，也可以是确定的。

状态转移概率函数（State Transition Probability Function）

为描述状态转移的随机性，我们引入状态转移概率函数，记为：

$p_t(s'|s, a) = \mathbb{P}(S_{t+1} = s' | S_t = s, A_t = a)$

该公式表示智能体从状态 $s$ 执行动作 $a$ 后转移到状态 $s'$ 的概率。

对于确定性状态转移，可以表示为：
$p_t(s'|s, a) = \begin{cases} 1, & \text{如果 } \tau_t(s, a) = s'; \\ 0, & \text{否则。} \end{cases}$

确定性状态转移是随机性转移的一种特殊形式，广泛应用于规则明确的场景，如棋类游戏。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30