Apple Intelligence : DeepMMSearch-R1, la IA de Apple aprende a buscar en la Web como un humano
Apple avanza a menudo sin glamour, pero sus publicaciones de investigación cuentan una trayectoria muy clara: la IA de la compañía no solo quiere «comprender texto», sino que también desea razonar con imágenes, producirlas y usarlas para buscar en la Web como un humano que recorta, compara y afina.
Detrás de la etiqueta Apple Intelligence, está surgiendo una nueva generación de modelos multimodales diseñados para el iPhone… y para los servidores.
La IA de Apple opera en dos frentes: dispositivo y nube privada
Apple ya ha definido su estrategia con dos «pilares» técnicos:
- un modelo en el dispositivo de aproximadamente 3 mil millones de parámetros, optimizado para Apple silicon (compartición de KV-cache, etc.);
- un modelo servidor basado en una arquitectura Parallel-Track Mixture-of-Experts (PT-MoE), diseñado para Private Cloud Compute.
Esta base no es solo un ejercicio académico: se utiliza para hacer que la IA sea útil y rápida en iPhone/iPad/Mac, mientras se mantiene un camino «en la nube» controlado, cuando la demanda supera lo que el dispositivo puede manejar.
MANZANO: un modelo que unifica comprensión visual y generación de imágenes
El artículo MANZANO aborda un problema conocido: muchos sistemas multimodales sobresalen en «visión-lenguaje» (describir/comprender) o en generación de imágenes… rara vez en ambos casos, sin compromisos. MANZANO propone un enfoque unificado mediante un hybrid vision tokenizer: embeddings continuos para la comprensión y tokens discretos para la generación, todo dentro de un espacio semántico común, con un decodificador AR y un decodificador de difusión para volver a producir los píxeles.

Traducción del producto: Apple busca un modelo «cuchillo suizo» capaz de alternar entre análisis y creación sin necesidad de ensamblar varios componentes dispares.
DeepMMSearch-R1: la búsqueda Web «multiround» a partir de imágenes… y recortes
Otro signo claro es DeepMMSearch-R1, publicado por Apple ML Research. El modelo está diseñado para realizar búsquedas web multimodales: puede iniciar una búsqueda a partir de recortes relevantes de una imagen, y luego iterar ajustando sus consultas de texto en función de los resultados, con mecanismos de «auto-reflexión» y «auto-corrección» a través de un pipeline SFT y luego RL en línea.

Este punto es estratégico: el uso diario no es solo «describe esta foto», es «quiero encontrar esa cosa en la imagen», «quiero comprar ese objeto», «¿qué modelo es este?» — y el recorte es el gesto natural para lograrlo.
Integrar lo multimodal en una experiencia Apple (y no solo en un benchmark)
Lo que se está delineando es una IA multimodal a dos velocidades en el dispositivo, para la latencia, la inmediatez, los usos privados y sin conexión, y en Private Cloud Compute, para consultas pesadas y herramientas.
Y en segundo plano, Apple también ha oficializado un cambio significativo: una colaboración plurianual con Google en torno a Gemini y tecnologías en la nube para la próxima generación del Modelo Fundamental de Apple, especialmente para un Siri más personalizado.
Esta colaboración no contradice la I+D interna: le da a Apple un «suelo» industrial mientras sus equipos impulsan arquitecturas propias y componentes multimodales más específicos.
Lo que significa concretamente para el iPhone (y para el futuro)
Si MANZANO y DeepMMSearch-R1 terminan por integrarse en los productos, nos dirigimos hacia:
- fotos más «inteligentes» (comprender, encontrar, resumir una escena);
- una búsqueda que finalmente acepta el lenguaje natural… y la imagen como consulta;
- herramientas creativas donde la generación ya no es un gadget, sino un flujo de trabajo.
Apple probablemente no venderá públicamente esos nombres. Pero, la dirección es clara: el futuro de la IA «útil» en smartphones pasará por la capacidad de ver, razonar, buscar — y no solo escribir.




