41 0
GRPO:Deepseek-V3.2
GRPO KL散度的近似估算方式 在 R1 的 GRPO 中,KL 散度直接通过采样数据计算: 这种方法在 (当前策略采样某动作的概率远低于参考策略)时,会导致梯度权重无界放大,引入大量噪声,破坏训练...
47 0
2025主流LLM对比表
模型名称 发布时间 参数量 (total / active) Trans BlockNum TokenEmbed Dim TransHidden Size MoE Hidden Size Vocab ...
71 0
GRPO: DeepSeek-R1
在推理能力方面,OpenAI 的 o1 系列模型(OpenAI, 2024b)率先通过延长思维链(Chain-of-Thought)推理过程的长度实现推理时扩展,在数学、编程、科学推理等多种推理任务中...
592 0
DeepSeek-V3
Abstract MoE 671B -> 37B Multi-head Latent Attention auxiliary-loss-free strategy a multi-token p...
2,251 0
[略读]FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS
ABSTRACT 本文揭示了大型语言模型(LLMs)尽管仅在文本数据上进行训练,但在没有语言的情况下,它们仍然是纯视觉任务的强大编码器。更有趣的是,这可以通过一种简单但以前被忽视的策略实现 ̵...