马尔可夫决策过程(Markov Decision Process, MDP)是强化学习的核心基础,用于描述智能体与环境之间的交互关系。一个 MDP 通常由以下五要素构成:状态空间、动作空间、奖励函数、状态转移概率函数以及折扣因子。这些要素构建了强化学习的基本框架,为智能体在环境中实现最优决策提供理论支撑。
接下来,我们将分别定义这些要素并以具体场景中的实例加以说明。
1. 智能体(Agent)与环境(Environment)
强化学习中的主体被称为智能体(agent)。智能体是负责动作或决策的实体,无论是人类还是机器,只要能够与环境进行交互,都可以被看作智能体。例如:
- 在超级玛丽游戏场景中,玛丽即智能体。
- 在自动驾驶应用中,无人车便是智能体。
与智能体交互的外部对象则称为环境(environment)。环境负责提供智能体需要处理的规则或机制。根据具体场景,环境可以是:
- 超级玛丽游戏中的游戏程序。
- 棋类游戏中的棋盘及棋子排列状态。
- 自动驾驶中的真实物理世界。
2. 状态和状态空间
状态(State)
状态是环境在某一时刻的描述,用于提供当前环境的信息。例如:- 在超级玛丽游戏中,状态可以定义为当前屏幕显示的画面(或最近几帧画面)。
- 在棋类游戏中,状态可以表示棋盘当前的布局。
智能体通过观察状态来做出决策。需要注意的是,在某些场景中,智能体可能基于部分观察(Partial Observation)进行决策,例如迷宫中的视野受阻或提示牌提供的信息不完整。
状态空间(State Space)
状态空间是所有可能状态的集合。常记为 \mathcal{S}。状态空间的特点包括:- 可以是离散的,也可以是连续的。
- 可以是有限的,也可以是无限的。
例如:
- 在超级玛丽中,状态空间是离散且有限的,包含所有可能的游戏画面。
- 在棋类游戏中,状态空间表示棋盘中棋子的所有可能布局,也属于离散有限集合。
3. 动作和动作空间
动作(Action)
动作是指智能体基于当前状态执行的操作。例如:- 在超级玛丽中,玛丽可以执行动作如“向左”“向右”“跳跃”。
- 在围棋中,玩家可以选择棋盘上的某个位置落子。
智能体通过选择动作影响环境的状态,动作可以是确定的,也可以是随机的。
动作空间(Action Space)
动作空间是所有可能动作的集合,常记为 \mathcal{A}。例如:- 在超级玛丽中,动作空间是有限集合,如 \{左、右、上跳\}。
- 在围棋中,动作空间是棋盘上的所有可能位置(1 到 361)。
动作空间可以是有限集合,也可以是无限集合,具体取决于场景需求。
4. 奖励函数
奖励是智能体执行某个动作后,环境返回的一项评分,用来评估动作的效果或优劣。奖励设计通常结合具体场景。例如:
- 在超级玛丽中,成功通过关卡的奖励可能为 +1000,失败的惩罚为 -1000。
- 在围棋中,获胜玩家可能获得奖励,而失败玩家可能被扣除分数。
奖励函数通常定义为当前状态 s、当前动作 a,以及下一状态 s' 的函数,即 r(s, a, s')。某些场景下,奖励可能仅依赖 s 与 a,即 r(s, a)。为了确保稳定性,通常假设奖励函数是有界的。
5. 状态转移及状态转移概率
状态转移(State Transition)
状态转移是指环境在智能体执行动作后,从当前状态 s 转移到下一状态 s'。例如:- 在超级玛丽中,当玛丽执行“上跳”动作,环境会根据游戏规则计算出新的状态(即下一帧画面)。
- 在围棋中,当红方“车”移动到黑方“马”的位置时,环境生成新状态(棋盘的更新布局)。
状态转移可以是随机的,也可以是确定的。
状态转移概率函数(State Transition Probability Function)
为描述状态转移的随机性,我们引入状态转移概率函数,记为:
p_t(s'|s, a) = \mathbb{P}(S_{t+1} = s' | S_t = s, A_t = a)
该公式表示智能体从状态 s 执行动作 a 后转移到状态 s' 的概率。
对于确定性状态转移,可以表示为:
p_t(s'|s, a) =
\begin{cases}
1, & \text{如果 } \tau_t(s, a) = s'; \\
0, & \text{否则。}
\end{cases}
确定性状态转移是随机性转移的一种特殊形式,广泛应用于规则明确的场景,如棋类游戏。