Una IA más atenta podría costar mucho menos. Con SubQ, la startup estadounidense Subquadratic promete reducir la carga de cálculo en los grandes modelos de lenguaje. La propuesta parece concreta, pero las cifras publicadas aún requieren validaciones independientes.
Por qué SubQ apunta al punto débil económico de los modelos de lenguaje
Los grandes modelos de lenguaje aún se basan en gran medida en el Transformer, la arquitectura que ganó popularidad en 2017. Su mecanismo central, la atención, compara cada fragmento de texto con todos los demás. Como si en una sala cada persona hablara con todas las otras, el ruido crece rápidamente.
Este costo sigue una lógica conocida como cuadrática: duplicar el texto no sólo duplica el trabajo, sino que lo multiplica por cuatro. Para una empresa que analiza contratos, tickets de clientes o código fuente, esta regla convierte rápidamente una consulta larga en una factura de cálculo elevada.
Lo que Subquadratic realmente anuncia con SubQ 1M-Preview
Subquadratic, cofundada y dirigida por Justin Dangel, presentó SubQ el 5 de mayo de 2026. La empresa afirma que su modelo utiliza una atención escasa, es decir, una atención que sólo considera parte de las relaciones entre tokens.
Un token corresponde a un fragmento de palabra o símbolo procesado por el modelo. SubQ buscaría las conexiones útiles en lugar de comparar todas las posiciones. La promesa radica en una idea comprensible: mantener las conversaciones relevantes, eliminar las demás y conservar la coherencia.
Las cifras presentadas son ambiciosas. Subquadratic menciona 12 millones de tokens en un resultado de búsqueda, 52 veces más velocidad que FlashAttention con 1 millón de tokens, y cerca de 1,000 veces menos cálculo de atención en ciertos escenarios.
Por qué los desarrolladores observan este anuncio con cautela
Las largas ventanas de contexto interesan a los equipos que trabajan en repositorios de código, bases de datos documentales o dossiers regulatorios. Sin un contexto completo, fragmentan los archivos, indexan los pasajes y utilizan RAG, o generación aumentada por recuperación, una búsqueda antes de generar.
SubQ promete reducir estas estructuras de soporte, pero un modelo cerrado sigue siendo difícil de evaluar. Los benchmarks publicados, como RULER o SWE-Bench Verified, ofrecen referencias, pero no sustituyen a auditorías independientes sobre corpus variados, con costos, errores y límites reproducibles.
El verdadero desafío radica menos en el anuncio que en los usos verificados
La idea de una atención más ligera no nace con SubQ. Investigadores han estado probando enfoques lineales, escasos o recurrentes durante varios años. Trabajos teóricos recientes también han demostrado que algunas formas de atención rápida son posibles, pero bajo condiciones matemáticas específicas.
La cuestión central es, por lo tanto, operativa. SubQ debe demostrar que un contexto largo no sólo sirve para procesar mucho texto, sino para encontrar la frase correcta en el momento adecuado. Un libro completo en memoria no vale nada si la página útil desaparece.
Subquadratic abre SubQ a través de una API en acceso anticipado, SubQ Code para repositorios de software y SubQ Search para búsqueda prolongada. El próximo punto de referencia será simple: pruebas públicas, realizadas por terceros, sobre 1 millón de tokens y más allá.




