Gemini omni: Google presenta una IA capaz de generar video, audio e imagen

Gemini Omni: Google presenta una IA capaz de generar video, audio e imagen

Google ha dado un nuevo paso en su estrategia de IA. Durante la Google I/O 2026, Sundar Pichai presentó Gemini Omni, una nueva familia de modelos multimodales diseñados para comprender y generar simultáneamente texto, imágenes, audio y video.

La ambición es enorme: construir un sistema capaz de razonar a través de todos los medios en lugar de simplemente combinarlos.

Gemini Omni va más allá de la simple generación de video

Con Omni, Google ya no habla solo de un modelo de video como Veo. La idea es mucho más amplia: unificar la inteligencia de Gemini con las capacidades de renderizado de los modelos multimedia de DeepMind.

Concretamente, Gemini Omni ya puede generar videos a partir de texto, imágenes, audio o clips de video, editar fotos mediante comandos de texto, crear avatares digitales, o transformar un concepto abstracto en contenido audiovisual coherente.

Google explica que el modelo no solo combina los medios. Él “razona” sobre ellos para producir un resultado visual, físico y culturalmente coherente.

El ejemplo dado por DeepMind es revelador: con un simple aviso solicitando “una explicación en claymation del plegamiento de proteínas”, Omni genera automáticamente un video en stop-motion con narración educativa.

Google quiere simular el mundo, no solo predecir texto

La visión detrás de Omni es probablemente el elemento más importante. Sundar Pichai afirma que Gemini ahora evoluciona hacia “modelos de mundo”, capaces de simular entornos y comportamientos reales en lugar de producir únicamente respuestas textuales.

Este es un cambio fundamental en la carrera por la IA generativa.

Hasta ahora, los modelos multimodales a menudo permanecían especializados: texto por un lado, imagen por otro, y video en otro lugar. Gemini Omni intenta fusionar estas capacidades en un solo sistema capaz de entender las relaciones entre todos estos formatos.

Los avatares de IA se convierten en un producto de consumo

Google también lanza la creación de avatares de video personalizados, directamente integrados a Gemini, YouTube Shorts y Flow. Los usuarios podrán grabar su rostro y voz para generar videos en los que su avatar aparezca automáticamente. Sin embargo, Google impone un procedimiento de verificación que incluye la captura de video y la lectura de números para limitar los deepfakes.

Todas las videos generados también incorporarán la marca de agua SynthID, destinada a identificar los contenidos creados por IA.

Google parece estar respondiendo a un doble objetivo: democratizar la creación de videos de IA, al mismo tiempo que anticipa los problemas de manipulación y autenticidad.

Omni Flash: el primer paso hacia una IA creativa de masas

El primer modelo desplegado es Gemini Omni Flash. Disponible desde hoy en la aplicación Gemini, YouTube Shorts y Flow, puede generar videos de 10 segundos. Google aclara que este límite es intencional para fomentar la accesibilidad y los usos del consumidor.

La empresa apunta claramente a un uso de “creatividad ligera”: memes personalizados, videos humorísticos, retoques rápidos, o escenas imposibles de filmar.

Pero detrás de esta aparente simplicidad se esconde un potencial mucho más amplio.

Publicidad, cine, creación: Google también apunta a los profesionales

Google ya prevé una versión Omni Pro, más potente, destinada a usos avanzados. Las implicaciones son considerables: campañas publicitarias generadas automáticamente, producción de videos acelerada, creación de assets de marketing, previsualización cinematográfica, o generación multimedia completa a partir de un briefing.

DeepMind enfatiza particularmente la calidad del contenido textual en los videos, un elemento esencial para la publicidad y el branding. Google también está preparando una API Omni para permitir a desarrolladores y estudios construir sus propios flujos de trabajo multimodales.

Gemini Omni revela la verdadera estrategia de Google

Con Omni, Google ya no busca solo competir con ChatGPT o Sora. La empresa intenta construir una infraestructura creativa universal, capaz de transformar cualquier tipo de entrada en contenido generado. Y en esta lógica, Gemini deja de ser gradualmente un asistente conversacional.

Se convierte en un motor de simulación de la realidad.