强化学习基础 - Machine Learning Pod

蒙特卡罗和时序差分

你要听一段故事，但它绝不是平铺直叙的。数学故事里蕴藏着一种不动声色的哲学性，就像生活一样，有时你需要随机掷骰子蒙混过关，有时又得步步为营，计算每一步的得失。而蒙特卡罗方法和时序差分算法，正是这两种思维 ...

1 周前

41 0

动态规划（Dynamic Programming，DP）是解决强化学习问题的一类方法，它通常假设环境的动态能够完全被马尔可夫决策过程（MDP）所建模。同时，它要求能精确获取状态转移模型和奖励函数（即假 ...

1 周前

46 0

在强化学习（Reinforcement Learning, RL）的领域中，价值函数（Value Function）是用来衡量某个状态或状态-动作对的“好坏”的核心概念。它们描述了智能体在特定策略下（ ...

1 周前

45 0

马尔可夫决策过程（Markov Decision Process, MDP）是强化学习的核心基础，用于描述智能体与环境之间的交互关系。一个 MDP 通常由以下五要素构成：状态空间、动作空间、奖励函数、 ...

1 周前

71 0