2025年8月7日

LLM里程碑(WIP)

名称发布时间创新点关键提升
GPT-3.52022/11/30– 指令微调 (Instruction Fine-Tuning)
– 基于人类反馈的强化学习 (RLHF)
实现了流畅、连贯且能联系上下文的多轮对话,开启了对话式AI的新时代
GPT-42023/3– 多模态能力 (Multimodality)
– 性能大幅提升:在多种专业和学术基准测试中表现出接近甚至超越人类的水平
对复杂问题和细微指令的理解能力显著增强
文心一言2023/3具备跨模态、跨语言的深度语义理解与生成能力
LLaMA2023/3
通义千问2023/4
Google PaLM 22023/5/10– 多语言能力:在超过100种语言的大规模多语言文本上进行训练
– 模型家族化:推出了从轻量级 (Gecko) 到重量级 (Unicorn) 的四种不同尺寸模型
Meta Llama 22023/7/18
Mistral Mixtral 8x7B2023/12– 稀疏专家混合网络 (Sparse Mixture-of-Experts, MoE)
– 分组查询注意力 (GQA)
推理效率大幅提升
Gemini2023/12– 原生多模态联合训练
– 超长上下文窗口 100万token
– MoE架构
超长Prompt处理
DeepSeek LLM2024/1/5– 基于Transformer架构,验证架构和Scaling Law。
– 采用分组查询注意力(GQA)优化推理成本。
训练速度+20%
DeepSeek MoE2024/1/11– 提出DeepSeekMoE,细粒度专家分割和共享专家隔离策略
– 更灵活的专家组合提升模型性能,同时保持计算成本不变。
训练成本降低71.5%
Anthropic Claude 32024/3/4– “大海捞针”测试:在长文本中精准回忆信息的能力接近完美
DeepSeek Math2024/4/27– 提出PPO的变体GRPO,用于数学领域的推理,效果显著。Math基准测试51.7%,接近GPT4
2024/5– DPO避免了RLHF中奖励模型拟合不足和强化学习训练不稳定的问题
GPT-4o2024/5/13
DeepSeek V22024/6/19– 引入MLA,进一步降低训练成本和显存消耗。
– GRPO,提升推理能力。
推理吞吐量提升5.76倍
o12024/9/12– 反思和思考模型能自主进行详细的步骤分解;在数学、科学和编程等需要深度推理的任务上性能极大提升
DeepSeek V32024/12/27– 无辅助损失的负载均衡策略。
– 多令牌预测(MTP)训练目标。
– FP8混合精度训练,显著降低训练成本。
– DualPipe重叠计算和通信。
– 从R1 Zero蒸馏推理能力。
专家利用率+24%
LLaMA 3.12024/12– 扩展上下文:128K
– 多语言
开源SOTA模型
DeepSeek R12025/1/22– 基于DeepSeek-V3-Base
– 通过强化学习(RL)提升推理能力,引入冷启动数据和多阶段训练流程。
综合任务得分+15%
Janus-Pro2025/1/27– 解耦视觉编码路径,实现了多模态理解与生成的高效融合。
Qwen2.5-Omni2025/3/27统一的端到端多模态模型,能处理文本、图像、音视频输入
gpt-oss2025/8/5OpenAI发布开源权重模型
Share

You may also like...

发表评论

您的电子邮箱地址不会被公开。