Tagged: 骨干网络

71  0

GRPO: DeepSeek-R1

在推理能力方面,OpenAI 的 o1 系列模型(OpenAI, 2024b)率先通过延长思维链(Chain-of-Thought)推理过程的长度实现推理时扩展,在数学、编程、科学推理等多种推理任务中...

2,091  0

[略读]Emu2

Generative Multimodal Models are In-Context Learners Abstract 人类能够(仅需少量演示或简单指示即可)轻松解决多模态任务的能力,是当前多模态...

1,975  0

[略读]Twins系列

Twins: Revisiting the Design of Spatial Attention in Vision Transformers Conditional Positional Enco...