Google trae la IA multimodal a los PC de consumo

La IA multimodal ya no está reservada para servidores potentes. Con Gemma 4 12B, Google busca llevar funciones avanzadas directamente a las computadoras personales, utilizando solo 16 GB de memoria.

En el mundo de la IA, el tamaño se ha convertido en un argumento de marketing habitual. Cada nuevo modelo llega con más parámetros, mejores rendimientos y, a su vez, requerimientos de hardware cada vez más exigentes. Gemma 4 12B, el nuevo modelo de Google, intenta cambiar estas reglas. La compañía de Mountain View presenta una IA capaz de comprender varios tipos de contenido, todo en un formato lo suficientemente compacto como para funcionar en una laptop.

Con Gemma 4 12B, Google acerca la IA a los usuarios

Desde hace años, la industria de la IA sigue una lógica sencilla: los modelos son cada vez más grandes y potentes. Esta carrera por los parámetros ha permitido avances espectaculares, pero también ha reforzado la dependencia de las infraestructuras en la nube.

Con Gemma 4 12B, Google busca seguir un camino diferente. Este modelo se sitúa entre las versiones más ligeras y los modelos más pesados de la familia Gemma. Según la compañía, su rendimiento se aproxima incluso al de el modelo Gemma 26B en varias pruebas de referencia, pero consume mucho menos en términos de memoria.

Esto abre las puertas a usos locales. El análisis de documentos, asistentes personales o incluso la automatización de tareas podrían realizarse directamente en el dispositivo del usuario. Lo mismo se aplica a muchas aplicaciones multimodales.

Es una perspectiva atractiva para aquellos que prefieren evitar enviar sus datos a servidores remotos de manera sistemática.

Una arquitectura que rompe con los esquemas

Sin embargo, la verdadera novedad se encuentra bajo el capó. De hecho, los modelos multimodales tradicionales suelen utilizar varias piezas especializadas, una para imágenes, otra para audio y un modelo de lenguaje encargado de integrarlo todo. Es eficaz, pero consume muchos recursos.

Gemma 4 12B abandona en gran medida este enfoque. Los datos visuales y de audio se integran en la red principal del modelo, sin utilizar codificadores separados.

Como resultado, el modelo realiza menos cálculos intermedios, consume menos memoria y puede también reducir la latencia. La idea puede parecer obvia, pero conservar un buen rendimiento en estas condiciones es más complicado de lo que parece.

Esta arquitectura permite al modelo manejar audio de manera nativa, lo que es una primicia para un modelo intermedio de la gama Gemma. Puede así transcribir, reformatear o traducir contenidos de voz directamente en local, sin necesidad de conexión a internet.


infografía Gemma 4 12B

Gemma 4 12B ya está disponible

Google no planea mantener a Gemma 4 12B en sus laboratorios. El modelo ya está disponible a través de varias herramientas populares dentro del ecosistema de IA. Los desarrolladores pueden probarlo en LM Studio, Ollama o en las aplicaciones Google AI Edge Gallery y AI Edge Eloquent. También se ofrece una interfaz de línea de comando, LiteRT-LM, para usuarios más avanzados.

La empresa también pone a disposición los pesos preentrenados del modelo en plataformas reconocidas como Hugging Face y Kaggle, lo que permite a los desarrolladores experimentar rápidamente con Gemma 4 12B sin empezar desde cero.

Google proporciona además una documentación completa para acompañar el lanzamiento del modelo. Incluye una guía de inicio rápido y una compatibilidad extendida con las principales herramientas del sector.

Hugging Face Transformers, llama.cpp, MLX, SGLang y vLLM son algunas de las soluciones compatibles para ejecutar el modelo localmente. Los desarrolladores que deseen adaptarlo a sus necesidades pueden recurrir a Unsloth para realizar ajustes.

Google IA PC

Google IA PC


Scroll al inicio