OpenAI lanza GPT-Realtime-2: la voz IA se convierte en una interfaz de acción

OpenAI quiere llevar los asistentes de voz a una nueva etapa. Con GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper, la API ya no se limita a escuchar y responder: puede razonar, traducir, transcribir y actuar durante una conversación en tiempo real.

Tres modelos para reinventar la voz

OpenAI presenta tres nuevos modelos de audio en su API Realtime: GPT-Realtime-2, diseñado para interacciones vocales con razonamiento; GPT-Realtime-Translate, dedicado a la traducción de voz en tiempo real; y GPT-Realtime-Whisper, creado para la transcripción en streaming de baja latencia.

GPT-Realtime-2 se destaca como el más ambicioso de los tres. Puede manejar solicitudes vocales complejas, usar herramientas durante la conversación, mantener el contexto en sesiones largas y ajustar su tono según la situación. OpenAI también indica que su ventana de contexto se amplía a 128K, en comparación con 32K anteriormente.

Traducir y transcribir en tiempo real

GPT-Realtime-Translate está enfocado en las conversaciones multilingües: acepta más de 70 idiomas de entrada y puede generar audio traducido en 13 idiomas, mientras produce una transcripción en paralelo. El modelo está optimizado para mantener el ritmo y el significado, incluso con interrupciones o acentos diversos.

GPT-Realtime-Whisper, por su parte, se centra en situaciones donde cada segundo cuenta: subtítulos en vivo, reuniones, soporte al cliente, clases, eventos o notas automáticas. OpenAI lo describe como un modelo de transcripción voz-a-texto en streaming para producir transcripciones de baja latencia.

La voz se convierte en un sistema operativo

La estrategia es clara: OpenAI ya no ve la voz como un simple comando, sino como una interfaz de software completa. Un usuario puede hablar, cambiar de opinión, interrumpir, solicitar una acción, y el agente debe seguir entendiendo sin interrumpir el flujo.

Este es el verdadero avance: pasar de un chatbot vocal a un colaborador vocal capaz de reservar, buscar, resumir, traducir o gestionar un flujo de trabajo.

Precios y disponibilidad

Los tres modelos están disponibles en la API Realtime. GPT-Realtime-2 tiene un costo de 32 dólares por millón de tokens de audio de entrada y 64 dólares por millón de tokens de audio de salida. GPT-Realtime-Translate se cobra a 0,034 dólares por minuto, y GPT-Realtime-Whisper a 0,017 dólares por minuto.

Con este anuncio, OpenAI está preparando un futuro en el que muchas aplicaciones no se controlarán más con el teclado, sino con la voz — de manera continua, en contexto, y con agentes capaces de actuar mientras hablamos.