Tagged: LLM

40  0

Kimi K2

MuonClip Muon 抛弃 Adam 的二阶矩,用全局 RMS 缩放替代,以牺牲少量稳定性换翻倍的令牌效率和更低的计算开销。 MuonClip 解决 Muon 规模化训练时的Attention ...

41  0

GRPO:Deepseek-V3.2

GRPO KL散度的近似估算方式 在 R1 的 GRPO 中,KL 散度直接通过采样数据计算: 这种方法在 (当前策略采样某动作的概率远低于参考策略)时,会导致梯度权重无界放大,引入大量噪声,破坏训练...

47  0

2025主流LLM对比表

模型名称 发布时间 参数量 (total / active) Trans BlockNum TokenEmbed Dim TransHidden Size MoE Hidden Size Vocab ...

71  0

GRPO: DeepSeek-R1

在推理能力方面,OpenAI 的 o1 系列模型(OpenAI, 2024b)率先通过延长思维链(Chain-of-Thought)推理过程的长度实现推理时扩展,在数学、编程、科学推理等多种推理任务中...

592  0

DeepSeek-V3

Abstract MoE 671B -> 37B Multi-head Latent Attention auxiliary-loss-free strategy a multi-token p...