
Investigadores de Microsoft afirman haber creado un modelo de inteligencia artificial hipereficiente que puede operar en CPUs.
Investigadores de Microsoft han creado y publicado un modelo de inteligencia artificial altamente eficiente que puede operar en procesadores centrales, incluyendo el M2 de Apple.
Investigadores de Microsoft han anunciado el desarrollo del modelo de inteligencia artificial de 1 bit más grande hasta la fecha, conocido como "bitnet". Este modelo, denominado BitNet b1.58 2B4T, está disponible de forma abierta bajo una licencia MIT y puede ejecutarse en CPU, incluyendo el M2 de Apple. Los bitnets son modelos comprimidos diseñados para funcionar en hardware ligero.
En los modelos estándar, los pesos, que son los valores que definen la estructura interna del modelo, a menudo se cuantizan para que los modelos puedan operar correctamente en una amplia gama de máquinas. Cuantizar los pesos reduce el número de bits necesarios para representar esos pesos, lo que permite que los modelos se ejecuten en chips con menos memoria y de manera más rápida. En el caso de los bitnets, los pesos se cuantizan en solo tres valores: -1, 0 y 1. Esto, en teoría, los hace mucho más eficientes en términos de memoria y computación en comparación con la mayoría de los modelos actuales.
Los investigadores de Microsoft afirman que BitNet b1.58 2B4T es el primer bitnet con 2 mil millones de parámetros, siendo "parámetros" prácticamente sinónimos de "pesos". Este modelo ha sido entrenado con un conjunto de datos de 4 billones de tokens, lo que equivale aproximadamente a unos 33 millones de libros. Según los investigadores, BitNet b1.58 2B4T supera a modelos tradicionales de tamaño similar. Aunque no es el que más destaca frente a otros modelos de 2 mil millones de parámetros, se defiende adecuadamente en las pruebas.
Los resultados indican que el modelo es superior al Llama 3.2 de Meta, el Gemma 3 de Google y el Qwen 2.5 de Alibaba en diferentes benchmarks, incluyendo GSM8K (una colección de problemas matemáticos de nivel escolar) y PIQA (que evalúa habilidades de razonamiento relacionado con el sentido físico). Aún más notable, BitNet b1.58 2B4T es más rápido que otros modelos de su tamaño, llegando en algunos casos a ser el doble de veloz mientras utiliza una fracción de la memoria.
Sin embargo, hay un inconveniente. Para lograr este rendimiento, es necesario utilizar el marco personalizado de Microsoft, bitnet.cpp, que actualmente solo es compatible con ciertos tipos de hardware. Entre los chips que no están en la lista de soportados se encuentran los GPUs, que son predominantes en la infraestructura de inteligencia artificial. Esto sugiere que los bitnets podrían tener un gran potencial, sobre todo para dispositivos con limitaciones de recursos, pero la compatibilidad seguirá siendo un punto crítico a tener en cuenta.