| 模型名称 | 发布时间 | 参数量 (total / active) | Trans Block Num | Token Embed Dim | Trans Hidden Size | MoE Hidden Size | Vocab Size | 位置编码 | 注意力机制 | 头数(Q/KV) | 归一化策略 | MoE (Total / Share + Active) | 上下文长度 | 关键创新点 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V3/R1 | 2024.12 2025.01 | 671B/37B | 61 | 7168 | 7168 | 2048 | 129k | RoPE | MLA | 128/- | Pre-RMSNorm | 256/1+8 | 128k | MLA压缩KV;前3层稠密 |
| OLMo 2 | 2025.01 | 7B/13B/32B(稠密) | 32 40 64 | 4096 5120 6144 | 11008 13312 27648 | – | 100k | RoPE+YaRN | MHA/GQA | 32/32;40/8 | Post-RMSNorm+QK-Norm | – | Post-Norm稳训练;全透明 | |
| Gemma 3 | 2025.03 | 1B/4B/12B/27B(稠密) | 16 24 36 62 | 1024 2048 3072 5376 | 4096 8192 12288 21504 | – | 256k | RoPE | GQA+SWA | 32/16(27B) | Pre+Post-RMSNorm+QK-Norm | – | 滑动窗口5:1;平衡性能 | |
| Gemma 3n | 2025.06 | 4B(优化) | 24 | 2048 | 8192 | – | 256k | RoPE | GQA+SWA | 32/16 | 同Gemma 3 | – | – | 层嵌入按需加载;移动端适配 |
| Mistral Small 3.1 | 2025.03 | 24B(稠密) | 40 | 5120 | 32768 | – | 256k | RoPE | GQA | 40/8 | Pre-RMSNorm | – | 128k | 自定义Tokenizer;提速 |
| Llama 3 1B | 2024 | 1B(稠密) | 16 | 1024 | 4096 | – | 128k | RoPE | MHA | 8/8 | Pre-RMSNorm | – | 8k | 轻量通用;低资源部署 |
| Llama 3 8B | 2024 | 8B(稠密) | 32 | 4096 | 11008 | – | 128k | RoPE | GQA | 32/8 | Pre-RMSNorm | – | 8k | 平衡性能与效率;通用任务 |
| Llama 3 70B | 2024 | 70B(稠密) | 80 | 8192 | 28672 | – | 128k | RoPE | GQA | 64/8 | Pre-RMSNorm | – | 8k | 大参数量;复杂任务 |
| Llama 4 Maverick | 2025 | 400B/17B | 48 | 7168 | – | 8192 | 202k | RoPE | GQA | -/- | Pre-RMSNorm | 128/2 | 512k | MoE稠密交替;原生多模态 |
| Qwen3 0.6B(稠密) | 2025 | 0.6B(稠密) | 28 | 1024 | 3072 | – | 151k | RoPE | GQA | 16/- | Pre-RMSNorm+QK-Norm | – | 更深架构;YaRN扩上下文 | |
| Qwen3 32B(稠密) | 2025 | 32B(稠密) | 64 | 5120 | 25600 | – | 151k | RoPE | GQA | 64/8 | 同0.6B | – | 128k | 高头数;强特征捕捉 |
| Qwen3 235B-A22B(MoE) | 2025 | 235B/22B | 94 | 4096 | – | 1536 | 151k | RoPE | GQA | 128/- | 同稠密版 | 128/8 | 128k | 双版本;适配不同需求 |
| SmolLM3 3B | 2025 | 3B(稠密) | 36 | 2048 | 11008 | – | 128k | NoPE(每4层) | GQA | 16/- | Pre-RMSNorm | – | NoPE长序列泛化;透明细节 | |
| Kimi K2 | 2025 | 1T/32B | 61 | 7168 | – | 2048 | 160k | RoPE | MLA | 64/- | Pre-RMSNorm | 多/1+8 | 128k | Muon优化器;损失平滑 |
| Kimi K2 Thinking | 2025.11 | 1T/32B | 61 | 7168 | – | 2048 | 160k | RoPE | MLA | 64/- | 同K2 | 多/1+8 | 256k | 扩上下文;超闭源模型 |
| GPT-OSS 20B | 2025 | 20B/3.6B | 24 | 2880 | 2880 | 2880 | 200k | RoPE | GQA+SWA(隔层) | 64/- | Pre-RMSNorm | 32/4 | 131k | 宽架构;注意力sink |
| GPT-OSS 120B | 2025 | 120B/5.1B | 36 | 2880 | 2880 | 2880 | 200k | RoPE | 同20B | 128/- | 同20B | 32/4 | 131k | 增块数;提升容量 |
| Grok 2.5 | 2025 | 270B/62B | 64 | 8192 | 16384 | 8192 | 131k | RoPE | GQA | 64/- | Pre-RMSNorm | 8/2 | – | 伪共享专家;生产级开源 |
| GLM-4.5 355B | 2025 | 355B/12B | 92 | 5120 | – | 5120 | 151k | RoPE | GQA | 160/- | Pre-RMSNorm+QK-Norm | 160/8+1 | – | 前3层稠密;函数调用优化 |
| Qwen3-Next 80B-A3B | 2025.09 | 80B/3B | 48 | 2048 | – | 2048 | 151k | Partial RoPE | 门控DeltaNet+GA | -/- | Zero-RMSNorm+QK-Norm | 512/10+1 | 262k | 混合注意力;MTP加速 |
| MiniMax-M2 | 2025 | 229B/10B | 62 | 3072 | – | 3072 | 151k | Partial RoPE | 全注意力 | 256/- | Pre-RMSNorm+逐头QK-Norm | 256/8 | – | 高稀疏;性能登顶开源 |
| Olmo 3 7B | 2025.11 | 7B(稠密) | 32 | 4096 | 11008 | – | 100k | RoPE+YaRN | MHA+SWA | 32/32 | Post-RMSNorm+QK-Norm | – | 滑动窗口3:1;YaRN全局层 | |
| Olmo 3 32B | 2025.11 | 32B(稠密) | 64 | 5120 | 27648 | – | 100k | RoPE+YaRN | GQA+SWA | 40/8 | 同7B | – | 64k | GQA提效;扩容量 |
| DeepSeek V3.2 | 2025.12 | 671B/37B | 61 | 7168 | – | 2048 | 129k | RoPE | MLA+DSA | 128/- | Pre-RMSNorm | 256/1+8 | 128k | DSA减计算;对标GPT-5.1 |
| Mistral 3 Large | 2025.12 | 673B/41B | 61 | 7168 | – | 4096 | 131k | RoPE | MLA变体 | 128/- | Pre-RMSNorm | 128/1+4 | 256k | 专家扩2倍;多模态;适配Blackwell |
| Nemotron 3 Nano | 2025.12 | 30B/3B | 52(13宏×4子) | – | – | – | 1M | RoPE | Mamba-2+GQA | 4/2 | RMSNorm | 128/1+6 | – | Trans-Mamba混合;高吞吐量 |
| Xiaomi MiMo-V2-Flash | 2025.12 | 309B/15B | 61 | 4096 | – | 2048 | 152k | RoPE | SWA+GA | 64/- | Pre-RMSNorm | 1+8 | 256k | 极小窗口;MTP;半参对标DeepSeek |
2026年1月5日