
强化学习基础4
蒙特卡罗和时序差分
你要听一段故事,但它绝不是平铺直叙的。数学故事里蕴藏着一种不动声色的哲学性,就像生活一样,有时你需要随机掷骰子蒙混过关,有时又得步步为营,计算每一步的得失。而蒙特卡罗方法和时序差分算法,正是这两种思维
...
基于动态规划的强化学习算法
动态规划(Dynamic Programming,DP)是解决强化学习问题的一类方法,它通常假设环境的动态能够完全被马尔可夫决策过程(MDP)所建模。同时,它要求能精确获取状态转移模型和奖励函数(即假
...
什么是价值函数?
在强化学习(Reinforcement Learning, RL)的领域中,价值函数(Value Function)是用来衡量某个状态或状态-动作对的“好坏”的核心概念。它们描述了智能体在特定策略下(
...
什么是马尔可夫决策过程?
马尔可夫决策过程(Markov Decision Process, MDP)是强化学习的核心基础,用于描述智能体与环境之间的交互关系。一个 MDP 通常由以下五要素构成:状态空间、动作空间、奖励函数、
...