自然语言处理4
大模型RLHF中PPO的直观理解
1. RLHF的流程
大模型的核心方法非RLHF(reinforcement learning from human feedback)莫属了。简单来说,RLHF是一种让模型从人类反馈中学习的方法。在
...
LLaMA2模型代码详解
Llama2 是 Meta 最近推出的大语言模型,它的训练数据集达到了两万亿个token。与前代产品 Llama 的 2048 的上下文长度相比,Llama2 的上下文长度扩展至 4096,使其能够理
...
大模型基础之旋转式位置编码(Rotary Position Embedding,RoPE)
旋转式位置编码(Rotary Position Embedding,RoPE),这是一种配合Attention机制能达到“绝对位置编码的方式实现相对位置编码”的设计。
建议先阅读《大模型基础之Sinu
...
大模型基础之Sinusoidal位置编码
近期,笔者深入研究了大模型中的位置编码工作。其中,Sinusoidal位置编码作为一篇基石性的研究,在"Attention Is All You Need"中首次被提出,为深度学习领域带来了革命性的T
...