机器学习基础4
反向 KL 散度与正向 KL 散度
给定两个分布 ,它们可能在相同的变量 上定义,但其分布形状各异。两者之间的距离可以通过 相对熵 (Relative Entropy) 来度量,其定义如下:
或者在连续情形下为:
其中:
1. 该指标
...
广义优势估计
优势是什么
在强化学习(Reinforcement Learning)中,优势函数(Advantage Function) 是一个非常重要的概念。优势函数衡量了某个动作相对于其他动作的好坏程度,具体来
...
大模型RLHF中PPO的直观理解
1. RLHF的流程
大模型的核心方法非RLHF(reinforcement learning from human feedback)莫属了。简单来说,RLHF是一种让模型从人类反馈中学习的方法。在
...
PageRank算法详解
在现代数据科学中,许多数据结构都可以表示为图,如互联网、社交网络等。这些图结构中的数据为机器学习提供了丰富的理论和应用场景。其中,PageRank 算法是图链接分析的经典代表,它是图数据上的无监督
...