Inteligencia artificial

¿Por qué la IA más rápida del mundo se ejecuta en chips estándar en lugar de hardware personalizado?

El MiMo-V2.5-Pro-UltraSpeed de Xiaomi alcanza los 1,000 tokens por segundo en GPUs estándar, superando a ChatGPT y Claude por 15 veces mediante innovación de software.
¿Por qué la IA más rápida del mundo se ejecuta en chips estándar en lugar de hardware personalizado?

La industria tecnológica pasó los últimos dos años convencida de que la única forma de hacer que la IA fuera más rápida era reinventar el chip de computadora. Empresas emergentes como Groq y Cerebras recaudaron miles de millones de dólares para construir hardware masivo y especializado, diseñado para resolver los cuellos de botella de datos que ralentizan modelos como ChatGPT. La narrativa era simple: los chips gráficos estándar de Nvidia eran adecuados para entrenar la IA, pero resultaban demasiado lentos para las respuestas instantáneas necesarias en el mundo real. Esta creencia convirtió la búsqueda de silicio personalizado en una fiebre del oro digital.

Xiaomi acaba de demostrar que esa teoría es errónea. El lunes por la mañana, el gigante electrónico chino lanzó un nuevo modo de servicio para su modelo insignia, MiMo-V2.5-Pro-UltraSpeed. Hizo algo más que romper un récord de velocidad. Destrozó el techo de lo que creíamos posible en hardware estándar y comercial. El sistema alcanzó velocidades de 1,200 tokens por segundo en un modelo de un billón de parámetros. Para contextualizar, un token equivale aproximadamente a tres cuartas partes de una palabra. Esto significa que el modelo genera unas 900 palabras cada segundo.

Mirando el panorama general, esto es 15 veces más rápido que las versiones de GPT y Claude que la mayoría de las personas usan hoy en día. Xiaomi logró esto utilizando un nodo estándar de 8 GPUs, el mismo tipo de hardware que se puede alquilar en cualquier proveedor importante de la nube. Este avance sugiere que el secreto para la próxima generación de velocidad en IA no es una mejor fábrica de chips, sino una forma más inteligente de usar los chips que ya tenemos.

La brecha de velocidad en números

Para entender por qué esto es importante, debemos observar cómo los humanos experimentan la velocidad de la IA. Cuando le haces una pregunta a ChatGPT o Claude, el texto suele aparecer al ritmo de un mecanógrafo rápido. Eso es aproximadamente de 60 a 80 tokens por segundo. Si bien esto parece rápido para una persona que lee una sola respuesta, es demasiado lento para tareas industriales complejas. La IA de alta velocidad es la columna vertebral invisible para cosas como la traducción en tiempo real, la detección instantánea de fraudes en la banca y los agentes autónomos que deben tomar miles de decisiones por minuto.

Históricamente, las velocidades más rápidas provenían de hardware personalizado. Cerebras fue noticia al alcanzar casi 1,000 tokens por segundo en un modelo de Meta, pero eso requería un chip del tamaño de un plato de cena. Xiaomi alcanzó ese mismo umbral —y luego lo superó— en un modelo que es más del doble de grande.

Modelo Tokens por segundo Tipo de hardware
MiMo-V2.5-Pro-UltraSpeed 1,200 GPUs estándar
Gemini Flash 192 Google TPU (Personalizado)
Claude Haiku 98 GPUs de nube estándar
Claude Opus 4.6 71 GPUs de nube estándar
GPT-5.5 68 GPUs de nube estándar

Cómo los trucos de software superan los límites del hardware

Bajo el capó, Xiaomi utilizó una técnica llamada cuantización FP4 en las capas expertas del modelo. Para explicarlo en términos sencillos, imagine que un modelo con un billón de parámetros es una biblioteca enorme. Por lo general, la computadora tiene que leer cada palabra de cada libro para darle una respuesta. Esto requiere mucha memoria y tiempo. La cuantización es una forma de encoger esos libros para que ocupen menos espacio.

Muchas empresas intentan encoger toda la biblioteca, pero esto a menudo hace que la IA sea menos inteligente y más propensa a errores. Xiaomi fue quirúrgica. Mantuvieron la lógica central del modelo en alta resolución pero comprimieron las capas expertas especializadas —los departamentos específicos de la biblioteca— a una precisión de 4 bits. Esto redujo a la mitad la cantidad de datos que el chip tenía que mover. El resultado es un modelo que mantiene su alto coeficiente intelectual mientras se mueve el doble de rápido a través de la memoria de la computadora.

También hay un segundo truco llamado decodificación especulativa DFlash. En una conversación típica de IA, el modelo es como un escritor que tiene que pensar en cada letra antes de escribirla. La decodificación especulativa introduce a un pasante incansable que intenta adivinar las siguientes palabras. Si el pasante acierta, el modelo acepta todo el bloque de texto a la vez. Si el pasante se equivoca, el modelo lo corrige. El DFlash de Xiaomi es tan eficiente que propone ocho tokens a la vez y suele acertar en seis de ellos. Esto permite que el modelo avance a saltos en lugar de arrastrarse palabra por palabra.

El motor TileRT y el fin de los intervalos

La eficiencia del software a menudo consiste en eliminar los espacios vacíos en un proceso. Xiaomi combinó su modelo con un nuevo motor de inferencia llamado TileRT. En la mayoría de los sistemas de IA, hay un pequeño retraso cada vez que el software le dice al hardware que realice un nuevo cálculo. Estos intervalos se miden en microsegundos, pero se acumulan cuando se realizan miles de millones de cálculos.

TileRT mantiene todo el proceso de cómputo dentro de la memoria de la GPU en todo momento. Elimina la naturaleza de "arranque y parada" del procesamiento de IA tradicional. Este enfoque simplificado garantiza que los chips gráficos nunca estén inactivos esperando la siguiente instrucción. Esta combinación de datos comprimidos, conjeturas afortunadas y una tubería sin interrupciones es lo que permite que un servidor estándar rinda como una supercomputadora personalizada de varios millones de dólares.

Qué significa esto para tu tecnología diaria

Para el usuario promedio, estos récords de velocidad pueden parecer una competencia corporativa abstracta. Sin embargo, el impacto en la tecnología de consumo es tangible. Cuando la IA es así de rápida, deja de ser un chatbot con el que hablas para convertirse en una herramienta que trabaja para ti en segundo plano.

Considere una aplicación de traducción de idiomas en tiempo real. Las velocidades actuales suelen tener un retraso notable que dificulta la conversación natural. A 1,000 tokens por segundo, una IA podría escuchar una oración completa, traducirla a tres idiomas diferentes y verificar la gramática de los tres en menos tiempo del que tarda usted en parpadear. Esto elimina las pausas incómodas en reuniones de negocios transfronterizas o viajes.

En el lado del mercado, este es un movimiento disruptivo para el costo de la IA. Xiaomi está fijando el precio de esta prueba UltraSpeed al triple de su tarifa estándar, pero ofrecen diez veces más rendimiento. Para los desarrolladores que crean nuevas aplicaciones, esto significa que pueden realizar mucho más trabajo por cada dólar que gastan en computación en la nube. Los costos más bajos para los desarrolladores suelen traducirse en aplicaciones más baratas o más capaces para el usuario final.

Previsión práctica

El éxito de Xiaomi sugiere que la escasez de hardware de los últimos años podría haber sido un problema de software disfrazado. A medida que las empresas se den cuenta de que pueden obtener ganancias masivas de rendimiento mediante una mejor programación, la presión por comprar los chips especializados más caros podría comenzar a desvanecerse. Nos dirigimos hacia un período donde la eficiencia de las matemáticas importa tanto como la potencia del silicio.

Es de esperar que una ola de funciones de IA en tiempo real llegue a sus dispositivos para finales de este año. No serán solo chatbots más rápidos. Busque funciones que requieran que la IA piense en docenas de posibilidades a la vez, como asistentes de programación avanzados que escriben programas enteros en segundos o personajes de videojuegos que mantienen conversaciones instantáneas y sin guion. El cuello de botella ya no es qué tan rápido puede pensar la computadora, sino qué tan rápido podemos darle algo útil que hacer.

Fuentes:
Xiaomi MiMo Developer Documentation (Abril 2026)
Artificial Analysis LLM Leaderboard (Junio 2026)
TileRT Technical Whitepaper (Mayo 2026)
Cerebras and Groq Performance Benchmarks (2025)

bg
bg
bg

Nos vemos en el otro lado.

Nuestra solución de correo electrónico cifrado y almacenamiento en la nube de extremo a extremo proporciona los medios más potentes para el intercambio seguro de datos, lo que garantiza la seguridad y la privacidad de sus datos.

/ Crear una cuenta gratuita