Microsoft toma su independencia: descubre MAI-Transcribe, Voice e Image

Microsoft toma su independencia: Descubre MAI-Transcribe, Voice e Image

Microsoft ya no quiere solo alojar la IA de otros. Con el lanzamiento de tres modelos fundamentales MAI desarrollados internamente — MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2 — el grupo de Redmond materializa una ambición que se ha vuelto mucho más clara en los últimos meses: construir su propia autonomía tecnológica en las capas más estratégicas de la IA.

Microsoft MAI: Tres modelos, tres usos clave, una misma lógica de independencia

Microsoft ha oficializado el 2 de abril la llegada de MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2, disponibles a través de Microsoft Foundry y, para pruebas, a través de MAI Playground. Los tres cubren categorías altamente monetizables de la IA empresarial: la transcripción de voz, la síntesis de voz y la generación de imágenes.

En su artículo de lanzamiento, Mustafa Suleyman hace hincapié en una promesa muy simple: modelos «mejores, más rápidos y más baratos» que la competencia, con precios agresivos desde el principio.

El mensaje es importante porque cambia la posición de Microsoft en la cadena de valor. Hasta ahora, la empresa era vista principalmente como el gran distribuidor de IA de la era OpenAI: la infraestructura, la integración de productos, la difusión a gran escala. Ahora, también quiere ser evaluada por su capacidad para diseñar su propia tecnología de vanguardia.

MAI-Transcribe-1 es la verdadera pieza clave

El modelo más estratégico, a corto plazo, parece ser MAI-Transcribe-1. Microsoft afirma que alcanza la mejor tasa de error promedio en FLEURS, el benchmark multilingüe de referencia, en los 25 idiomas más importantes para sus productos. Según los resultados publicados por Microsoft, supera a Whisper-large-v3 de OpenAI en los 25 idiomas evaluados, a Gemini 3.1 Flash-Lite de Google en 22 de ellos, y a otros modelos competidores como Scribe v2 y GPT-Transcribe en una parte considerable del benchmark.

Microsoft también anuncia una velocidad de transcripción en lote 2.5 veces superior a su oferta actual de Azure Fast.

Screen 2026 04 03 at 06.46.47 — Captura de pantalla

En términos de producto, esto no es en absoluto trivial. Microsoft ya está probando este modelo en Copilot Voice y en Teams para la transcripción conversacional, lo que indica que no se trata de una vitrina aislada, sino de un componente destinado a reemplazar rápidamente soluciones de terceros o más antiguas en sus propios servicios.

Microsoft también precisa que la grabación, el streaming y el sesgo contextual llegarán más adelante.

Voz e imagen: Microsoft también apunta a las capas creativas más rentables

Junto a la transcripción, MAI-Voice-1 ataca un mercado en rápida expansión. Microsoft describe un modelo capaz de generar 60 segundos de audio en menos de un segundo en una sola GPU, con conservación de la identidad vocal en contenidos más largos, y la posibilidad de crear voces personalizadas a partir de unos segundos de audio en Foundry. Su precio de lanzamiento está fijado en 22 dólares por millón de caracteres.

MAI-Image-2, por su parte, se presenta como el modelo de imagen más avanzado de Microsoft hasta la fecha. La empresa afirma que ha comenzado en el tercer lugar del ranking de Arena.ai para familias de modelos de imagen, y que ofrece al menos el doble de rapidez que su predecesor en Foundry y Copilot.

Microsoft también comienza a implementarlo en Bing y PowerPoint, con una tarifa de 5 dólares por millón de tokens en entrada de texto y 33 dólares por millón de tokens en salida de imagen.

Este lanzamiento no habría sido posible sin el nuevo acuerdo con OpenAI

El contexto contractual es esencial para entender por qué este anuncio es tan significativo. En noviembre de 2025, Bloomberg reveló que Microsoft había renegociado su relación con OpenAI, lo que le permitía ahora llevar a cabo trabajos de manera independiente sobre la «superinteligencia», mientras que su anterior acuerdo limitaba esa libertad.

Suleyman lo ha repetido en sus entrevistas posteriores: Microsoft conserva sus derechos de licencia sobre los modelos de OpenAI hasta 2032, pero ahora tiene la libertad necesaria para desarrollar sus propios modelos de vanguardia.

En otras palabras, Microsoft no está abandonando a OpenAI; simplemente se está dando las herramientas para no depender completamente de ella. Esta es una distinción crucial. La firma continúa distribuyendo tanto los modelos de OpenAI como los de Anthropic en su ecosistema, pero al mismo tiempo construye un camino de soberanía técnica. Esto es exactamente lo que Suleyman resume con la idea de «autosuficiencia de la IA».

Pequeños equipos para un discurso maximalista

Uno de los detalles más sorprendentes de la entrevista concedida a VentureBeat es el tamaño de los equipos. Suleyman afirma que el modelo de audio fue construido por diez personas, y que el equipo de imagen también cuenta con menos de diez personas. Atribuye la mayor parte de los logros a la arquitectura de los modelos y a la calidad de los datos, en una organización deliberadamente muy plana.

Este dato no es solo una anécdota de gestión. Sirve al relato que Microsoft quiere establecer: el de una IA de vanguardia más eficiente, menos dependiente de ejércitos de ingenieros y potencialmente más rentable. En un contexto donde los inversores exigen pruebas de monetización y disciplina económica en la IA, el argumento es astuto.

El verdadero tema: Microsoft quiere ser un laboratorio de frontera, no solo una plataforma

Lo más revelador puede estar en otro lugar. En marzo, Microsoft reorganizó sus equipos de Copilot: Jacob Andreou asumió el liderazgo de la experiencia de Copilot en el lado del producto, mientras que Suleyman se liberó más para concentrarse en los esfuerzos de superinteligencia.

Estos tres modelos no son, por tanto, un golpe aislado. Sirven como prueba inicial. Microsoft demuestra que ya puede producir modelos competitivos en modalidades específicas, integrarlos en sus productos, venderlos a desarrolladores y tarifarlos bajo presión competitiva.

Y según Suleyman, esto es solo el principio: afirma claramente que Microsoft planea entregar modelos de última generación en todas las modalidades, incluyendo a largo plazo un auténtico Large Language Model capaz de competir frontalmente con las referencias del sector.

Microsoft pasa de ser un socio indispensable a un competidor creíble

El movimiento es estratégico y casi inevitable. Durante dos años, Microsoft ha ganado ampliamente al ser el aliado industrial de OpenAI. Pero a medida que la IA se convierte en un mercado de infraestructura, márgenes y dependencias críticas, esta posición resulta insuficiente. Alojar, integrar y distribuir los mejores modelos no protege totalmente contra el riesgo de dependencia tecnológica. Producir sus propias bases, sí

Esto es lo que hace que este anuncio sea más importante que las propias prestaciones técnicas. MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2 no son aún el gran rival de GPT en términos de razonamiento general. Pero establecen algo más profundo: Microsoft ya no es solo la casa que alberga la IA. Quiere convertirse en una de las que la fabrican.

Y en la economía que está emergiendo, esta diferencia podría tener un peso muy significativo.