Gemini « Bonobo »: Google lanza la automatización de pantalla para pedir tus Uber y comidas

Gemini « Bonobo » : Google lanza la automatización de pantalla para pedir sus Uber y comidas

Durante mucho tiempo, Gemini ha sido principalmente un asistente conversacional: explica, resume, redacta, propone un plan… pero se queda al borde de la acción.

Sin embargo, una nueva filtración sugiere que Google está dando un paso mucho más ambicioso: permitir que Gemini interactúe directamente con la interfaz de aplicaciones Android para realizar tareas en su lugar — pedir, reservar, navegar, validar. En resumen, actuar, no solo asesorar.

Una funcionalidad detectada en la beta: “Consigue tareas hechas con Gemini”

Según un análisis de la beta 17.4 de la app de Google, se han encontrado cadenas de texto que describen una opción Labs titulada “Consigue tareas hechas con Gemini”, asociada con el término “automatización de pantalla” y el nombre en clave “bonobo”.

La redacción es clara: Gemini podría ayudar a “realizar pedidos” o “reservar un viaje” utilizando la automatización de pantalla en “ciertas apps” presentes en el dispositivo.

El aspecto clave es la naturaleza de la integración: no se trata de una API oficial a la que las aplicaciones se conectan, sino de un enfoque “computer use” aplicado al móvil: Gemini comprende lo que está en pantalla y actúa (toques, navegación, validación) como lo haría un usuario.

Por qué es un cambio de categoría

Hasta ahora, la IA en un smartphone a menudo significaba: “te preparo el mensaje”, “te encuentro una ruta”, “te propongo opciones”. Con la automatización de pantalla, cambiamos a una lógica de agente:

  • Usted formula la intención (“pide mi almuerzo habitual”, “reserva un VTC para las 18 h”)
  • Gemini ejecuta el proceso dentro de la aplicación
  • Usted supervisa y retoma el control si es necesario

Es exactamente el giro que toda la industria busca: reducir la interfaz a una intención y delegar el “tap tap tap” a los agentes.

Supervisión y salvaguardias: Google insiste en la responsabilidad del usuario

Las cadenas encontradas insisten en un tono muy “cauteloso”: Gemini puede equivocarse, el usuario sigue siendo responsable de las acciones, y será posible detener la automatización y retomar el control. Varios puntos de la filtración también destacan advertencias sobre información sensible (pagos, identificadores).

Otro aspecto que genera preocupación: la cuestión de las capturas de pantalla. En ciertos casos, la funcionalidad podría apoyarse en capturas de pantalla durante la interacción con las aplicaciones, con la mención de que podrían ser revisadas (según configuraciones/actividad) para mejorar el servicio. Este es un punto que pesará significativamente en la aceptación del público.

Una pista del lado del sistema: un permiso «Automatización de pantalla» ya aparece en Android 16 (Pixel)

No se trata solo de cadenas de texto. En enero, 9to5Google reportó la aparición de un elemento “Automatización de pantalla” en los permisos de la Beta 2 de Android 16 QPR3 (particularmente en Pixel 10), descrito como una capacidad para “ayudar a completar tareas interactuando con el contenido en pantalla de otras aplicaciones”. En otras palabras: la infraestructura del sistema también se está preparando.

Sobre el papel, es una de las funciones más deseables de la IA:

  • cero fricción para tareas repetitivas,
  • menos tiempo perdido en aplicaciones que quieren retenerlo,
  • una enorme accesibilidad para aquellos que tienen dificultades con la interfaz de usuario.

Pero también es el terreno más delicado: una IA que hace clic en aplicaciones es una IA que puede validar en el momento equivocado, ser engañada por una pantalla engañosa, o actuar en áreas sensibles (reservas, pedidos, configuraciones). Si Google quiere que funcione, deberá encontrar un equilibrio fino: suficiente autonomía para ser útil, suficiente control para ser aceptable.

Por el momento, todo indica un despliegue progresivo, limitado a “ciertas aplicaciones”, probablemente a través de Labs y con supervisión reforçada.


Scroll al inicio