2026年1月5日

2025主流LLM对比表

模型名称发布时间参数量 (total / active)Trans Block
Num
Token
Embed Dim
Trans
Hidden Size
MoE Hidden SizeVocab Size位置编码注意力机制头数(Q/KV)归一化策略MoE
(Total / Share + Active)
上下文长度关键创新点
DeepSeek V3/R12024.12
2025.01
671B/37B61716871682048129kRoPEMLA128/-Pre-RMSNorm256/1+8128kMLA压缩KV;前3层稠密
OLMo 22025.017B/13B/32B(稠密)32
40
64
4096
5120
6144
11008
13312
27648
100kRoPE+YaRNMHA/GQA32/32;40/8Post-RMSNorm+QK-NormPost-Norm稳训练;全透明
Gemma 32025.031B/4B/12B/27B(稠密)16
24
36
62
1024
2048
3072
5376
4096
8192
12288
21504
256kRoPEGQA+SWA32/16(27B)Pre+Post-RMSNorm+QK-Norm滑动窗口5:1;平衡性能
Gemma 3n2025.064B(优化)2420488192256kRoPEGQA+SWA32/16同Gemma 3层嵌入按需加载;移动端适配
Mistral Small 3.12025.0324B(稠密)40512032768256kRoPEGQA40/8Pre-RMSNorm128k自定义Tokenizer;提速
Llama 3 1B20241B(稠密)1610244096128kRoPEMHA8/8Pre-RMSNorm8k轻量通用;低资源部署
Llama 3 8B20248B(稠密)32409611008128kRoPEGQA32/8Pre-RMSNorm8k平衡性能与效率;通用任务
Llama 3 70B202470B(稠密)80819228672128kRoPEGQA64/8Pre-RMSNorm8k大参数量;复杂任务
Llama 4 Maverick2025400B/17B4871688192202kRoPEGQA-/-Pre-RMSNorm128/2512kMoE稠密交替;原生多模态
Qwen3 0.6B(稠密)20250.6B(稠密)2810243072151kRoPEGQA16/-Pre-RMSNorm+QK-Norm更深架构;YaRN扩上下文
Qwen3 32B(稠密)202532B(稠密)64512025600151kRoPEGQA64/8同0.6B128k高头数;强特征捕捉
Qwen3 235B-A22B(MoE)2025235B/22B9440961536151kRoPEGQA128/-同稠密版128/8128k双版本;适配不同需求
SmolLM3 3B20253B(稠密)36204811008128kNoPE(每4层)GQA16/-Pre-RMSNormNoPE长序列泛化;透明细节
Kimi K220251T/32B6171682048160kRoPEMLA64/-Pre-RMSNorm多/1+8128kMuon优化器;损失平滑
Kimi K2 Thinking2025.111T/32B6171682048160kRoPEMLA64/-同K2多/1+8256k扩上下文;超闭源模型
GPT-OSS 20B202520B/3.6B24288028802880200kRoPEGQA+SWA(隔层)64/-Pre-RMSNorm32/4131k宽架构;注意力sink
GPT-OSS 120B2025120B/5.1B36288028802880200kRoPE同20B128/-同20B32/4131k增块数;提升容量
Grok 2.52025270B/62B648192163848192131kRoPEGQA64/-Pre-RMSNorm8/2伪共享专家;生产级开源
GLM-4.5 355B2025355B/12B9251205120151kRoPEGQA160/-Pre-RMSNorm+QK-Norm160/8+1前3层稠密;函数调用优化
Qwen3-Next 80B-A3B2025.0980B/3B4820482048151kPartial RoPE门控DeltaNet+GA-/-Zero-RMSNorm+QK-Norm512/10+1262k混合注意力;MTP加速
MiniMax-M22025229B/10B6230723072151kPartial RoPE全注意力256/-Pre-RMSNorm+逐头QK-Norm256/8高稀疏;性能登顶开源
Olmo 3 7B2025.117B(稠密)32409611008100kRoPE+YaRNMHA+SWA32/32Post-RMSNorm+QK-Norm滑动窗口3:1;YaRN全局层
Olmo 3 32B2025.1132B(稠密)64512027648100kRoPE+YaRNGQA+SWA40/8同7B64kGQA提效;扩容量
DeepSeek V3.22025.12671B/37B6171682048129kRoPEMLA+DSA128/-Pre-RMSNorm256/1+8128kDSA减计算;对标GPT-5.1
Mistral 3 Large2025.12673B/41B6171684096131kRoPEMLA变体128/-Pre-RMSNorm128/1+4256k专家扩2倍;多模态;适配Blackwell
Nemotron 3 Nano2025.1230B/3B52(13宏×4子)1MRoPEMamba-2+GQA4/2RMSNorm128/1+6Trans-Mamba混合;高吞吐量
Xiaomi MiMo-V2-Flash2025.12309B/15B6140962048152kRoPESWA+GA64/-Pre-RMSNorm1+8256k极小窗口;MTP;半参对标DeepSeek
Share

You may also like...

发表评论

您的电子邮箱地址不会被公开。