Category: ★····论文

36  0

Kimi K2

MuonClip Muon 抛弃 Adam 的二阶矩,用全局 RMS 缩放替代,以牺牲少量稳定性换翻倍的令牌效率和更低的计算开销。 MuonClip 解决 Muon 规模化训练时的Attention ...

38  0

GRPO:Deepseek-V3.2

GRPO KL散度的近似估算方式 在 R1 的 GRPO 中,KL 散度直接通过采样数据计算: 这种方法在 (当前策略采样某动作的概率远低于参考策略)时,会导致梯度权重无界放大,引入大量噪声,破坏训练...

69  0

GRPO: DeepSeek-R1

在推理能力方面,OpenAI 的 o1 系列模型(OpenAI, 2024b)率先通过延长思维链(Chain-of-Thought)推理过程的长度实现推理时扩展,在数学、编程、科学推理等多种推理任务中...

64  0

KTO 训练流程总结

在 7B 参数规模以下,对齐相较于单纯的 SFT 几乎没有增益 DPO 的默认学习率为 5e-7,但我们发现 KTO 使用 5e-6 作为默认学习率效果更佳 一、 数据预处理与超参数初始化 数据格式转...

97  0

DPO(直接偏好优化)训练流程总结

DPO 的核心是跳过显式奖励模型训练和强化学习采样,直接用 “输入 x + 偏好回复 yₙ+ 非偏好回复 yₗ” 的三元组数据,通过简单的分类损失函数优化模型,让模型对齐人类偏好,全程无需模型凭空生成...

75  0

PPO(近端策略优化)训练流程总结

PPO 训练核心是“采样-计算-多轮裁剪优化”的循环,以“旧策略采样、新策略裁剪更新”为核心逻辑,兼顾稳定性、样本效率和实现简洁性,完整流程如下: 一、前置初始化 网络构建:搭建 Actor-Crit...

315  0

[略读] RouteLLM

https://arxiv.org/pdf/2406.18665 Abstract 大型语言模型(LLM)在广泛任务上表现出色,但选择合适的模型往往需要在性能与成本之间权衡。强大的模型效果更好却更昂贵...

589  0

DeepSeek-V3

Abstract MoE 671B -> 37B Multi-head Latent Attention auxiliary-loss-free strategy a multi-token p...

2,658  0

初探Sora笔记

网络结构分析 visual patches 支持各种尺寸、各种分辨率、各种长度的视频作为输入:https://arxiv.org/abs/2307.06304 视频降维 最大输入1920×1...