HAVE FUN! THANKS

10  0

GRPO: DeepSeek-R1

在推理能力方面,OpenAI 的 o1 系列模型(OpenAI, 2024b)率先通过延长思维链(Chain-of-Thought)推理过程的长度实现推理时扩展,在数学、编程、科学推理等多种推理任务中...

17  0

KTO 训练流程总结

在 7B 参数规模以下,对齐相较于单纯的 SFT 几乎没有增益 DPO 的默认学习率为 5e-7,但我们发现 KTO 使用 5e-6 作为默认学习率效果更佳 一、 数据预处理与超参数初始化 数据格式转...

23  0

DPO(直接偏好优化)训练流程总结

DPO 的核心是跳过显式奖励模型训练和强化学习采样,直接用 “输入 x + 偏好回复 yₙ+ 非偏好回复 yₗ” 的三元组数据,通过简单的分类损失函数优化模型,让模型对齐人类偏好,全程无需模型凭空生成...

23  0

PPO(近端策略优化)训练流程总结

PPO 训练核心是“采样-计算-多轮裁剪优化”的循环,以“旧策略采样、新策略裁剪更新”为核心逻辑,兼顾稳定性、样本效率和实现简洁性,完整流程如下: 一、前置初始化 网络构建:搭建 Actor-Crit...

265  0

[略读] RouteLLM

https://arxiv.org/pdf/2406.18665 Abstract 大型语言模型(LLM)在广泛任务上表现出色,但选择合适的模型往往需要在性能与成本之间权衡。强大的模型效果更好却更昂贵...

505  0

LLM里程碑(WIP)

名称 发布时间 创新点 关键提升 GPT-3.5 2022/11/30 – 指令微调 (Instruction Fine-Tuning)– 基于人类反馈的强化学习 (RLHF)...

519  0

DeepSeek-V3

Abstract MoE 671B -> 37B Multi-head Latent Attention auxiliary-loss-free strategy a multi-token p...

2,598  0

初探Sora笔记

网络结构分析 visual patches 支持各种尺寸、各种分辨率、各种长度的视频作为输入:https://arxiv.org/abs/2307.06304 视频降维 最大输入1920×1...