
El nuevo modelo R1 de IA de DeepSeek se puede operar en una única GPU.
El nuevo modelo de IA R1 de DeepSeek, en su versión optimizada, es capaz de funcionar con una sola GPU, haciéndolo accesible para aficionados.
La semana ha estado marcada por la atención hacia el renovado modelo de inteligencia artificial de DeepSeek, denominado R1. Sin embargo, el laboratorio chino también ha presentado una versión más compacta de este modelo, llamada DeepSeek-R1-0528-Qwen3-8B. Esta versión "destilada" promete superar a modelos de tamaño similar en ciertos estándares de rendimiento.
Construido sobre la base del modelo Qwen3-8B, que fue lanzado por Alibaba en mayo, el DeepSeek-R1-0528-Qwen3-8B ha demostrado un desempeño superior al de Gemini 2.5 Flash de Google en un conjunto de exigentes preguntas de matemáticas conocido como AIME 2025. Asimismo, su rendimiento se aproxima al modelo Phi 4, recientemente lanzado por Microsoft, en otra prueba de habilidades matemáticas, el HMMT.
Los modelos destilados como el DeepSeek-R1-0528-Qwen3-8B suelen ser menos potentes que sus versiones completas. Sin embargo, presentan la ventaja de requerir menos recursos computacionales. Según la plataforma en la nube NodeShift, el Qwen3-8B necesita una GPU con entre 40 y 80 GB de RAM para funcionar, como una Nvidia H100, mientras que el modelo completo de R1 necesita aproximadamente una docena de GPUs de 80 GB.
DeepSeek perfeccionó el DeepSeek-R1-0528-Qwen3-8B utilizando texto generado por su nuevo R1 para realizar un ajuste fino en el Qwen3-8B. En una página web dedicada a este modelo en la plataforma de desarrollo de inteligencia artificial Hugging Face, DeepSeek lo describe como adecuado tanto para la investigación académica sobre modelos de razonamiento como para el desarrollo industrial enfocado en modelos a pequeña escala. Este modelo está disponible bajo una licencia MIT permisiva, lo que permite su uso comercial sin restricciones. Diversos proveedores, como LM Studio, ya ofrecen el modelo a través de una API.