Gemini 3.5 Flash franquicia una nueva etapa: Google integra el control de ordenador directamente en su IA

Gemini 3.5 Flash da un paso adelante: Google integra el control de computadora directamente en su IA

Con Gemini 3.5 Flash, Google va más allá de simplemente responder preguntas. La compañía desea que su IA sea capaz de actuar. Al integrar de manera nativa la función «Uso de Computadora» en su modelo de agente más rápido, Google acerca aún más la inteligencia artificial a un verdadero asistente capaz de manejar software, navegadores e interfaces como lo haría un usuario humano.

Presentado en la Google I/O 2026, Gemini 3.5 Flash ya se había posicionado como el modelo más rápido de la familia Gemini para tareas de agentes. Ahora, gana una capacidad particularmente estratégica: ver una pantalla, entender su contenido, hacer clic en elementos, introducir texto y navegar por aplicaciones sin necesidad de un modelo separado.

El fin del modelo dedicado al control de interfaz

Hasta ahora, los desarrolladores que deseaban crear agentes capaces de interactuar con interfaces gráficas debían apoyarse en un modelo especializado distinto. Este sistema funcionaba según un bucle relativamente simple: la aplicación enviaba una captura de pantalla a la IA, esta analizaba la interfaz y luego devolvía una acción estructurada a ejecutar antes de recibir una nueva captura.

Con Gemini 3.5 Flash, esta lógica desaparece.

El control de computadora se convierte en una herramienta nativa del modelo, al igual que la búsqueda en la web, la ejecución de código o las llamadas a funciones. Resultado: los desarrolladores pueden construir ahora agentes mucho más fluidos y coherentes sin necesidad de múltiples llamadas a diferentes modelos.

Según Google, Flash ahora tiene la capacidad de «ver, razonar y actuar» directamente en una pantalla.

gemini 3 5 benchmark OSWorld Ve.width 1000.format webp

Una IA que supera al simple chatbot

El desafío va mucho más allá de la asistencia conversacional. Google ya imagina agentes capaces de realizar pruebas de software automatizadas, navegar por aplicaciones empresariales, llenar formularios complejos, extraer datos de tableros de control y automatizar flujos de trabajo internos sin intervención humana.

En otras palabras, Gemini ya no busca únicamente generar contenido o responder preguntas. Su ambición es convertirse en una capa operativa capaz de ejecutar tareas digitales reales.

Esta evolución alinea la visión de Google con la de los principales actores del sector, que han defendido durante varios meses la idea de transformar la IA en un verdadero agente de software en lugar de un simple motor de respuestas.

La seguridad se convierte en el verdadero campo de batalla

Sin embargo, permitir que una IA controle una computadora también abre una nueva superficie de riesgo. Google parece ser consciente de este desafío. La empresa indica haber entrenado a Gemini específicamente contra ataques de «inyección de instrucciones», una técnica que consiste en ocultar instrucciones maliciosas en una página web, un documento o una interfaz para desviar el comportamiento de un agente de IA.

El riesgo ya no es teórico.

En los últimos meses, varios equipos de investigación han demostrado que un agente autónomo puede ser manipulado por contenidos encontrados durante su navegación.

Para limitar estos escenarios, Google ofrece dos mecanismos de protección adicionales:

  • Una validación obligatoria del usuario para acciones sensibles o irreversibles;
  • Un apagado automático del agente cuando se detecta un intento de manipulación indirecta.

Un hecho notable: estas protecciones son opcionales. Google recomienda explícitamente un enfoque en capas, reconociendo que ninguna medida individual es suficiente para garantizar una seguridad total.

Una rara demostración de prudencia en un sector a menudo dominado por promesas de marketing.

Una competencia que se intensifica

La integración de Uso de Computadora se produce en un momento en que la batalla entre agentes de IA entra en una nueva fase. Anthropic ha allanado el camino con su sistema Claude Uso de Computadora, capaz de interactuar con sistemas operativos completos y entornos de escritorio. Por su parte, OpenAI también está desarrollando capacidades similares en torno a sus agentes autónomos.

Google adopta una estrategia diferente: integrar gradualmente estas funciones directamente en Gemini en lugar de multiplicar los modelos especializados.

Este enfoque podría ofrecer una ventaja significativa en términos de costo y simplicidad de despliegue. Gemini 3.5 Flash es uno de los modelos más asequibles del ecosistema de Google, lo que podría hacer que la automatización a gran escala sea más accesible para las empresas.

Una tecnología prometedora, pero aún imperfecta

A pesar de los avances logrados, las limitaciones siguen siendo numerosas. Como sus competidores, Gemini todavía puede encontrar dificultades frente a:

  • Ventanas emergentes inesperadas
  • CAPTCHA
  • Contenidos dinámicos
  • Interfaces poco comunes
  • Cambios visuales imprevistos

Estos obstáculos recuerdan que la automatización generalizada sigue siendo un objetivo por alcanzar más que una realidad completamente dominada. Esto es precisamente lo que hace que la decisión de Google sea interesante.

Al integrar el Uso de Computadora directamente en Gemini 3.5 Flash, la empresa demuestra su confianza en la madurez creciente de la tecnología. Sin embargo, mantener salvaguardias opcionales también indica que reconoce las limitaciones actuales de los agentes autónomos.

Un paso hacia la computadora pilotada por IA

La llegada del control de computadora nativo en Gemini marca una evolución más significativa de lo que parece. El futuro de la IA probablemente no se jugará solo en las interfaces de chat. Se construirá en la capacidad de los modelos para actuar directamente en el software que utilizamos cada día.

Google, OpenAI y Anthropic ahora persiguen el mismo objetivo: transformar la IA en un operador digital universal.

La verdadera pregunta ya no es si una IA puede hacer clic en un botón.

La pregunta es cuándo podrá gestionar un flujo de trabajo completo de manera confiable, segura y autónoma.


Scroll al inicio