GRPO: DeepSeek-R1
在推理能力方面,OpenAI 的 o1 系列模型(OpenAI, 2024b)率先通过延长思维链(Chain-of-Thought)推理过程的长度实现推理时扩展,在数学、编程、科学推理等多种推理任务中...
在推理能力方面,OpenAI 的 o1 系列模型(OpenAI, 2024b)率先通过延长思维链(Chain-of-Thought)推理过程的长度实现推理时扩展,在数学、编程、科学推理等多种推理任务中...
在 7B 参数规模以下,对齐相较于单纯的 SFT 几乎没有增益 DPO 的默认学习率为 5e-7,但我们发现 KTO 使用 5e-6 作为默认学习率效果更佳 一、 数据预处理与超参数初始化 数据格式转...
DPO 的核心是跳过显式奖励模型训练和强化学习采样,直接用 “输入 x + 偏好回复 yₙ+ 非偏好回复 yₗ” 的三元组数据,通过简单的分类损失函数优化模型,让模型对齐人类偏好,全程无需模型凭空生成...
PPO 训练核心是“采样-计算-多轮裁剪优化”的循环,以“旧策略采样、新策略裁剪更新”为核心逻辑,兼顾稳定性、样本效率和实现简洁性,完整流程如下: 一、前置初始化 网络构建:搭建 Actor-Crit...
https://arxiv.org/pdf/2406.18665 Abstract 大型语言模型(LLM)在广泛任务上表现出色,但选择合适的模型往往需要在性能与成本之间权衡。强大的模型效果更好却更昂贵...
名称 发布时间 创新点 关键提升 GPT-3.5 2022/11/30 – 指令微调 (Instruction Fine-Tuning)– 基于人类反馈的强化学习 (RLHF)...
Abstract MoE 671B -> 37B Multi-head Latent Attention auxiliary-loss-free strategy a multi-token p...
为防失效,转载原文,来自 https://kexue.fm/archives/9064 多标签分类问题的统一loss,能媲美精调权重下的二分类方案,这个损失函数有着单标签分类中“Softmax+交叉熵...