RLHF – 我家Ai智障

06

1月

2026

182 0

GRPO：Deepseek-V3.2

GRPO KL散度的近似估算方式在 R1 的 GRPO 中，KL 散度直接通过采样数据计算：这种方法在（当前策略采样某动作的概率远低于参考策略）时，会导致梯度权重无界放大，引入大量噪声，破坏训练...

02

1月

2026

199 0

在推理能力方面，OpenAI 的 o1 系列模型（OpenAI, 2024b）率先通过延长思维链（Chain-of-Thought）推理过程的长度实现推理时扩展，在数学、编程、科学推理等多种推理任务中...

31

12月

2025

190 0

在 7B 参数规模以下，对齐相较于单纯的 SFT 几乎没有增益 DPO 的默认学习率为 5e-7，但我们发现 KTO 使用 5e-6 作为默认学习率效果更佳一、数据预处理与超参数初始化数据格式转...

29

12月

2025

249 0

DPO 的核心是跳过显式奖励模型训练和强化学习采样，直接用 “输入 x + 偏好回复 yₙ+ 非偏好回复 yₗ” 的三元组数据，通过简单的分类损失函数优化模型，让模型对齐人类偏好，全程无需模型凭空生成...

28

12月

2025

233 0

PPO 训练核心是“采样-计算-多轮裁剪优化”的循环，以“旧策略采样、新策略裁剪更新”为核心逻辑，兼顾稳定性、样本效率和实现简洁性，完整流程如下：一、前置初始化网络构建：搭建 Actor-Crit...