LLM – 我家Ai智障

07

1月

2026

502 0

Kimi K2

MuonClip Muon 抛弃 Adam 的二阶矩，用全局 RMS 缩放替代，以牺牲少量稳定性换翻倍的令牌效率和更低的计算开销。 MuonClip 解决 Muon 规模化训练时的Attention ...

06

1月

2026

450 0

GRPO KL散度的近似估算方式在 R1 的 GRPO 中，KL 散度直接通过采样数据计算：这种方法在（当前策略采样某动作的概率远低于参考策略）时，会导致梯度权重无界放大，引入大量噪声，破坏训练...

05

1月

2026

525 0

模型名称发布时间参数量 (total / active) Trans BlockNum TokenEmbed Dim TransHidden Size MoE Hidden Size Vocab ...

02

1月

2026

423 0

在推理能力方面，OpenAI 的 o1 系列模型（OpenAI, 2024b）率先通过延长思维链（Chain-of-Thought）推理过程的长度实现推理时扩展，在数学、编程、科学推理等多种推理任务中...

07

8月

2025

965 0

Abstract MoE 671B -> 37B Multi-head Latent Attention auxiliary-loss-free strategy a multi-token p...

24

11月

2023

2,478 0

ABSTRACT 本文揭示了大型语言模型（LLMs）尽管仅在文本数据上进行训练，但在没有语言的情况下，它们仍然是纯视觉任务的强大编码器。更有趣的是，这可以通过一种简单但以前被忽视的策略实现 &#821...