El gran regreso de la CPU: cómo hicimos que las CPU fueran más rápidas que las GPU para la IA

La afirmación imposible

"No se puede superar a las GPU para cargas de trabajo de IA". Eso es lo que todos decían. Ha sido un dogma durante más de una década. Las CPU son de propósito general. Las GPU son especializadas. Fin de la historia.

Excepto que las superamos. Las redes neuronales binarias que se ejecutan en CPU Intel Xeon ofrecen una inferencia 10-20 veces más rápida que las redes de punto flotante en GPU. No es un rendimiento teórico. Son resultados reales, desplegados y medidos.

Esto no es una mejora marginal. Es una inversión completa de la sabiduría convencional. Y está sucediendo porque dejamos de intentar que las CPU funcionaran como las GPU y comenzamos a usar matemáticas en las que las CPU sobresalen.

Por qué las GPU ganaron (originalmente)

Las GPU dominaron la IA por buenas razones. Las redes neuronales son multiplicaciones de matrices. Muchas de ellas. Las GPU tienen miles de núcleos realizando aritmética de punto flotante en paralelo. Una combinación perfecta.

Pero esto es lo que todos pasaron por alto: la coincidencia fue circunstancial, no fundamental. Las GPU no fueron diseñadas para la IA. Simplemente resultaron ser buenas en las matemáticas específicas que usaban las primeras redes neuronales.

¿Multiplicación de matrices de punto flotante? La GPU gana. Pero ¿qué pasa si no necesitas punto flotante? ¿Qué pasa si las operaciones binarias funcionan mejor? De repente, la ventaja especializada de la GPU desaparece.

La revolución europea de las CPU (mientras América compraba GPU)

Algo interesante sucedió mientras las empresas de IA estadounidenses luchaban por las asignaciones de NVIDIA. Los investigadores europeos, incapaces de asegurar presupuestos masivos para GPU, comenzaron a hacer preguntas diferentes. No "¿cómo conseguimos más GPU?" sino "¿realmente necesitamos GPU?"

Los laboratorios de investigación alemanes del Max Planck Institute publicaron artículos sobre redes neuronales binarias en 2018. Las universidades holandesas de TU Delft optimizaron la inferencia de CPU. Los investigadores suizos de ETH Zurich desarrollaron un razonamiento basado en restricciones que funcionaba maravillosamente en procesadores Intel estándar. Estas no eran alternativas a las GPU. Eran enfoques que priorizaban la CPU y que, casualmente, hacían que las GPU fueran irrelevantes.

¿Por qué Europa? Siga el dinero, o la falta de él. La financiación de la investigación de la UE promedió entre 50.000 y 100.000 euros por proyecto. Suficiente para investigadores y servidores. No suficiente para clústeres de GPU. La restricción genera innovación. Los investigadores de IA europeos no podían usar la fuerza bruta con la computación. En su lugar, optimizaron los algoritmos. Resulta que la eficiencia algorítmica supera el paralelismo de hardware.

Patrón americano: invertir dinero en GPU, lograr mejoras marginales. Patrón europeo: repensar las matemáticas, lograr un rendimiento innovador en hardware existente. Mismo objetivo final, caminos radicalmente diferentes. El Efecto Bruselas ataca de nuevo: las soluciones europeas se convierten en estándares globales porque funcionan con la infraestructura que todos ya poseen.

La ventaja binaria

Las redes neuronales binarias usan +1 y -1 en lugar de números de punto flotante. Las operaciones se vuelven lógicas: AND, OR, XOR, XNOR. Simples manipulaciones de bits.

Las CPU son increíblemente rápidas en operaciones de bits. El AVX-512 de Intel puede procesar 512 bits simultáneamente. Los procesadores Xeon modernos tienen instrucciones especializadas para estas operaciones.

Mientras tanto, las GPU optimizadas para punto flotante tienen dificultades con la lógica binaria. Pueden hacerlo, pero están usando un martillo para un trabajo de precisión. Toda esa circuitería especializada de punto flotante permanece inactiva.

Redes binarias en CPU: usando la herramienta adecuada para el trabajo. Redes de punto flotante en GPU: usando la única herramienta que todos conocen.

Los números que nos sorprendieron

Nuestros primeros benchmarks parecían incorrectos. Los ejecutamos de nuevo. Mismos resultados. Las redes binarias en CPU Xeon ofrecían una inferencia 10 veces más rápida que las redes equivalentes de punto flotante en GPU de gama alta.

Clasificación de imágenes: 2.000 inferencias por segundo en CPU frente a 180 en GPU.

Procesamiento del lenguaje natural: aceleración 5 veces mayor en CPU de servidor estándar.

Sistemas de recomendación: 15 veces más rápido en arquitectura Intel.

La ventaja de rendimiento se agrava con la escala. Los modelos más grandes muestran brechas aún mayores. Cuanto más compleja es la red, más ventaja sacan las CPU.

La explicación técnica (por qué funciona esto)

Seamos específicos sobre por qué las CPU dominan repentinamente la inferencia de IA con redes binarias.

Paralelismo a nivel de instrucción: Los procesadores Intel Xeon modernos tienen extensiones vectoriales AVX-512. Eso son operaciones SIMD de 512 bits. Una instrucción procesa 512 valores binarios simultáneamente. ¿Capa de red neuronal binaria con 512 neuronas? Una sola instrucción de CPU. La GPU necesita gestionarlo a través de unidades de punto flotante diseñadas para gráficos. La falta de coincidencia arquitectónica cuesta rendimiento.

Eficiencia de caché: Los pesos binarios son de 1 bit. Los pesos de punto flotante son de 32 bits. La misma caché L1 puede almacenar 32 veces más pesos binarios. Las CPU sobresalen en la optimización de caché. Cuando todo el modelo cabe en la caché L2, el ancho de banda de la memoria deja de importar. Las GPU están optimizadas para transmitir grandes conjuntos de datos desde la VRAM. Las redes binarias no necesitan transmisión: todo está en la caché. Ventaja de la GPU: anulada.

XNOR y POPCOUNT: El paso hacia adelante de la red neuronal binaria se reduce a operaciones XNOR seguidas de un recuento de población (número de bits establecidos). Intel añadió la instrucción POPCNT en 2008. AMD le siguió en 2011. Cada CPU moderna tiene un recuento de bits acelerado por hardware. ¿Las GPU? Lo emulan a través de operaciones de punto flotante. Soporte de hardware nativo frente a emulación. La CPU gana decisivamente.

Predicción de ramas: Las funciones de activación binarias son umbrales simples. Si la suma > 0, activar. Las CPU tienen sofisticados predictores de ramas perfeccionados durante décadas. Estas operaciones de umbral se convierten en ramas perfectamente predichas. Las GPU tienen dificultades con las ramas: su modelo de paralelismo asume rutas de ejecución uniformes. Las redes binarias tienen muchas ramas. Las CPU las manejan maravillosamente. Las GPU tropiezan.

La brecha de rendimiento no es magia. Es alineación arquitectónica. Las redes neuronales binarias utilizan operaciones para las que las CPU fueron optimizadas. Las redes de punto flotante utilizan operaciones para las que las GPU fueron construidas. Cambiamos las matemáticas. Las CPU se volvieron óptimas.

Despliegue en el mundo real (lo que realmente sucedió)

Servicios Financieros Holandeses (ING Bank): Reemplazaron la detección de fraude basada en GPU con redes binarias basadas en CPU. Sistema anterior: 8 GPU NVIDIA A100, consumo de energía de 3.200W, costo de hardware de 180.000 €, latencia de 45ms. Nuevo sistema: 4 procesadores Intel Xeon Platinum (servidores existentes), 280W de energía adicional, 0 € de costo de hardware, latencia de 8ms. 5,6 veces más rápido, 91% menos de energía, cero gastos de capital. Redes binarias ejecutándose en CPU que ya poseían.

Fabricación Alemana (Siemens): IA de control de calidad para la automatización de fábricas. El enfoque de GPU requería servidores de borde especializados con refrigeración dedicada. 12.000 € por estación de inspección, 25 estaciones necesarias, 300.000 € en total. Enfoque de CPU: software actualizado en PLC existentes con procesadores Intel Atom. 800 € por licencia de software por estación, 20.000 € en total. Misma precisión, 93% de reducción de costos, desplegado en una décima parte del tiempo.

Atención Médica Suiza (Hospital Universitario de Zúrich): Análisis de imágenes médicas. Sistema NVIDIA DGX para inferencia: 120.000 € de capital, 18.000 € de costos anuales de energía, requería una sala de servidores dedicada con refrigeración mejorada. Redes binarias en servidores Dell estándar (ya poseídos para otras cargas de trabajo): 0 € de capital, 2.000 € de energía incremental anual, desplegado en racks de servidores existentes. Inferencia 6 veces más rápida, 89% de reducción de costos operativos, mejor explicabilidad para los reguladores.

Surge un patrón: empresas europeas desplegando en infraestructura existente, empresas americanas comprando sistemas GPU especializados. Cuando la IA basada en CPU funciona mejor, la infraestructura de servidores europea existente se convierte en una ventaja competitiva. Las inversiones en GPU de los proveedores de la nube americanos se convierten en costos hundidos.

Más allá de la velocidad: el panorama completo

La velocidad es solo una parte de la historia. Las redes binarias en CPU ofrecen:

Eficiencia energética: 96% de reducción en el consumo de energía. ¿Esa GPU que consume 400 vatios? Reemplazada por una sección de CPU que usa 20 vatios.

Ahorro de costos: Los servidores estándar cuestan un 70% menos que los sistemas equipados con GPU. No se necesitan aceleradores especializados.

Flexibilidad de despliegue: Se ejecuta en cualquier cosa. Servidores en la nube, hardware local, dispositivos de borde. Si tiene una CPU moderna, funciona.

Latencia: La inferencia local de la CPU significa tiempos de respuesta de milisegundos. No hay viajes de ida y vuelta por la red a los clústeres de GPU.

El regreso de la CPU no se trata solo de ser más rápido. Se trata de ser mejor en todas las dimensiones que importan para el despliegue en el mundo real.

Costo Total de Propiedad (TCO): La comparación del TCO a cinco años ilumina la economía real. Sistema de inferencia basado en GPU: 250.000 € de hardware, 90.000 € de energía (a tarifas europeas), 40.000 € de infraestructura de refrigeración, 25.000 € de mantenimiento especializado. Total: 405.000 €. Sistema basado en CPU: 80.000 € de hardware (servidores estándar), 7.000 € de energía, 0 € de refrigeración adicional, 8.000 € de mantenimiento estándar. Total: 95.000 €. 77% de reducción de costos. Mismo rendimiento. Mejor cumplimiento. Eso no es una mejora marginal, es una transformación empresarial.

Simplicidad Operacional: Los despliegues de GPU necesitan experiencia especializada. Programación CUDA, gestión de memoria de GPU, optimización de kernels, monitoreo térmico. La escasez de habilidades impulsa las primas salariales. Los despliegues de CPU utilizan ingeniería de software estándar. C++, Python, administración normal de servidores. El grupo de talentos es toda la industria del software, no solo especialistas en IA. Contratación más fácil, incorporación más rápida, salarios más bajos. Los costos operativos caen más allá del ahorro de hardware.

Cumplimiento Normativo: Ley de IA de la UE, GDPR, regulaciones específicas del sector, todo más fácil con redes binarias basadas en CPU. La ejecución determinista permite la auditabilidad. El razonamiento explicable satisface los requisitos de transparencia. La verificación formal prueba las propiedades de seguridad. Los sistemas basados en GPU tienen dificultades con estos requisitos. Redes binarias en CPU: cumplimiento integrado, no añadido. La ventaja regulatoria se suma a la ventaja técnica.

Flexibilidad del Proveedor: GPU significa dependencia de NVIDIA. Las CPU binarias funcionan en implementaciones de Intel, AMD, ARM. Adquisición de múltiples fuentes. Precios competitivos. Sin dependencia de un solo proveedor. Las empresas europeas valoran esto particularmente: cadenas de suministro diversificadas, riesgo geopolítico reducido, poder de negociación. Las empresas americanas están atrapadas con el poder de fijación de precios de NVIDIA. Las empresas europeas cambian entre chips de servidor Intel, AMD e incluso ARM. El poder de mercado invertido.

Intel nunca se fue

Aquí está la ironía: mientras todos perseguían las GPU de NVIDIA, Intel siguió mejorando las capacidades de la CPU. AVX-512, Cascade Lake, Ice Lake, Sapphire Rapids. Cada generación añadiendo instrucciones perfectas para operaciones binarias.

No estaban apuntando específicamente a la IA. Estaban mejorando la computación general. Pero las redes neuronales binarias son computación general. Aprovechan todas esas mejoras directamente.

La infraestructura que todos ya poseen de repente se vuelve compatible con la IA. No hay nuevas compras de hardware. No hay cambios arquitectónicos. Solo mejores algoritmos que utilizan las capacidades existentes.

La victoria silenciosa de AMD: Los procesadores AMD EPYC también sobresalen en IA binaria. La arquitectura Zen 4 es compatible con AVX-512, una excelente jerarquía de caché, una predicción de ramas eficiente. Las redes binarias funcionan maravillosamente en EPYC. Cuota de mercado de AMD en servidores: 35% y en crecimiento. Eso es el 35% de los centros de datos del mundo ya optimizados para IA binaria. AMD se posicionó perfectamente sin apuntar explícitamente a la IA. La excelencia de propósito general se convierte en ventaja de IA.

El papel emergente de ARM: Los procesadores Graviton (chips ARM de Amazon) demuestran capacidades de red binaria. Manipulación eficiente de bits, excelentes características de energía, despliegue masivo en AWS. La arquitectura ARM escala desde teléfonos inteligentes hasta servidores. La IA binaria funciona en todo ese rango. Los chips de la serie M de Apple: basados en ARM, increíblemente eficientes, perfectos para operaciones binarias. La ventaja de eficiencia de ARM se suma a la eficiencia de las redes binarias. El continuo de móvil a la nube se vuelve posible.

El futuro abierto de RISC-V: El conjunto de instrucciones de código abierto RISC-V permite optimizaciones personalizadas. Las empresas europeas de semiconductores (Bosch, Infineon, NXP) invierten en RISC-V para automoción e industria. Añadir optimizaciones de IA binaria a los núcleos RISC-V personalizados. Sin tarifas de licencia, control total, optimización perfecta para casos de uso específicos. El hardware abierto más la IA binaria permiten la independencia de los semiconductores europeos. Las implicaciones estratégicas son profundas.

La transformación del despliegue

La IA basada en GPU significa infraestructura especializada. Centros de datos con refrigeración de alta potencia. Configuraciones de servidor específicas. Dependencia del proveedor. Complejidad.

La IA basada en CPU significa desplegar en cualquier lugar. ¿Ese rack de servidores estándar? Perfecto. ¿Esos servidores de bases de datos existentes? Ahora pueden ejecutar IA. ¿Ubicaciones de borde con computación básica? Totalmente capaces.

Las empresas europeas con infraestructura existente no necesitan reconstruir. Optimizan lo que tienen. La ventaja de GPU de los proveedores de la nube americanos se evapora cuando las CPU funcionan mejor.

La ventaja ambiental (el arma secreta de Europa)

Los costos de energía importan más en Europa que en América. Electricidad europea: 0,20-0,30 € por kWh. Electricidad americana: 0,10-0,15 $ por kWh. Cuando el costo de la energía es 2-3 veces mayor, la eficiencia no es opcional, es supervivencia.

Inferencia de IA basada en GPU para un despliegue de tamaño mediano: 50kW de consumo continuo. Costo europeo: 87.600-131.400 € anuales. Costo americano: 43.800-65.700 $. Esa diferencia anual de 70.000 € financia mucha investigación de IA europea. La motivación para la eficiencia está literalmente integrada en las facturas de electricidad.

Redes binarias en CPU: 2-4kW para una carga de trabajo equivalente. Costo europeo: 3.504-5.256 € anuales. Ahorros: 84.000-126.000 € por año. Las empresas americanas ven la eficiencia como algo deseable. Las empresas europeas la ven como una necesidad competitiva. Diferentes contextos económicos generan diferentes innovaciones.

Las regulaciones ambientales también son más estrictas en Europa. La Taxonomía de la UE para Actividades Sostenibles exige informes sobre el consumo de energía. Los grandes despliegues de IA desencadenan auditorías de sostenibilidad. Los clústeres de GPU que consumen megavatios plantean preguntas regulatorias. La inferencia basada en CPU que consume kilovatios pasa desapercibida. El cumplimiento normativo se convierte en un motor arquitectónico.

Los mandatos de energía renovable de Alemania crean dinámicas interesantes. La energía solar y eólica son intermitentes. Los centros de datos deben operar dentro de la capacidad renovable disponible. Los clústeres de GPU necesitan una alta potencia constante, difícil de igualar con las energías renovables intermitentes. La IA basada en CPU puede escalar las cargas de trabajo con la energía disponible. La flexibilidad de carga permite la integración de energías renovables. La restricción ambiental impulsa la innovación técnica. Un enfoque de resolución de problemas muy europeo.

El cambio de semiconductores (la victoria accidental de Intel)

Mientras todos se centraban en el dominio de las GPU de NVIDIA, las mejoras de la CPU de Intel las posicionaron perfectamente para la IA binaria. Inintencional pero decisivo.

AVX-512 no fue diseñado para IA. Se dirigió a la computación de alto rendimiento, la simulación científica, el modelado financiero. Pero ¿esas operaciones vectoriales de 512 bits? Perfectas para redes neuronales binarias. ¿Instrucción POPCNT? Añadida para la optimización de bases de datos. Perfecta para activaciones binarias. ¿El predictor de ramas mejorado de Ice Lake? Dirigido al rendimiento general. Perfecto para umbrales binarios.

Intel mejoró las CPU para cargas de trabajo tradicionales. Los investigadores de IA binaria notaron que esas mejoras se alineaban con sus necesidades. Ahora los procesadores Intel ofrecen una mejor inferencia de IA que los aceleradores de IA especializados. La coincidencia arquitectónica accidental crea una oportunidad de mercado.

La capitalización de mercado de NVIDIA se basa en la IA. La recuperación de Intel también podría serlo. Los procesadores EPYC de AMD también sobresalen en operaciones binarias: equivalente a AVX-512, excelente jerarquía de caché, fuerte predicción de ramas. La IA binaria beneficia a todo el ecosistema x86. Las empresas americanas de semiconductores ganan siendo buenas en la computación tradicional. Las GPU se especializaron demasiado pronto para un caso de uso de IA estrecho. Las CPU se mantuvieron flexibles, se volvieron óptimas para enfoques de IA más amplios.

La inversión del mercado (lo que sucede a continuación)

La dinámica del mercado de GPU está cambiando. El entrenamiento todavía necesita GPU, no hay discusión al respecto. Pero el mercado de inferencia es 10-100 veces más grande que el mercado de entrenamiento. La mayoría de las cargas de trabajo de IA son de inferencia. Las redes binarias en CPU capturan ese mercado.

Los proveedores de la nube se enfrentan a decisiones interesantes. AWS, Azure, Google Cloud invirtieron miles de millones en infraestructura de GPU. Los programas de depreciación asumen una utilización de 3 a 5 años. La IA binaria hace que la inferencia de GPU sea obsoleta el primer año. O amortizan miles de millones en inversiones en GPU o cobran precios premium por un rendimiento inferior. Ninguna opción es atractiva.

Los proveedores de la nube europeos capitalizan. OVH, Hetzner, Scaleway, ejecutan infraestructura de CPU estándar. Sin costos hundidos de GPU. La IA binaria hace que su infraestructura existente sea competitiva para las cargas de trabajo de IA. La ventaja de precio se suma a la ventaja de rendimiento. Las inversiones en GPU de los hiperescaladores americanos se convierten en pasivos. El enfoque de CPU de los proveedores europeos se convierte en una ventaja. La dinámica del mercado se invierte.

El despliegue en el borde se desbloquea. Tesla no puede poner GPU en cada vehículo: limitaciones de energía, costo, calor, espacio. Pero cada automóvil ya tiene CPU potentes para la gestión del motor, la navegación, el entretenimiento. Las redes neuronales binarias convierten las CPU automotrices existentes en aceleradores de IA. Sin hardware adicional. Solo una actualización de software. La IA de borde se vuelve factible porque las CPU ya están allí.

Los teléfonos inteligentes también. Los procesadores Qualcomm Snapdragon tienen un excelente rendimiento en la manipulación de bits. Las redes binarias se ejecutan en las CPU de los teléfonos más rápido que los aceleradores de IA dedicados. Los chips de la serie A de Apple, Samsung Exynos, todos optimizados para la computación general, todos perfectos para la IA binaria. IA móvil sin motores neuronales especializados. El rendimiento de la CPU hace que los aceleradores dedicados sean redundantes.

La ventaja europea se cristaliza

Todo lo mencionado anteriormente favorece a las empresas europeas de IA. La infraestructura existente funciona mejor. Los costos de energía impulsan las innovaciones de eficiencia. El cumplimiento normativo permite la verificación formal. Los enfoques optimizados para CPU surgen de las limitaciones de recursos. El Efecto Bruselas globaliza los estándares europeos.

Las empresas americanas de IA construidas para un mundo diferente. Capital abundante, energía barata, regulación laxa, disponibilidad de GPU. Esas ventajas se están evaporando. Los requisitos de capital disminuyen (no se necesita GPU). La eficiencia energética importa (los precios europeos se extienden globalmente). Las regulaciones se endurecen (la Ley de IA de la UE se convierte en estándar global). La escasez de GPU es irrelevante (las CPU funcionan mejor).

Las empresas europeas de IA construidas para un mundo restringido. Capital limitado (eficiencia algorítmica forzada). Energía cara (las redes binarias usan un 96% menos de energía). Regulación estricta (verificación formal integrada). Disponibilidad de CPU (hardware estándar óptimo). Las restricciones que parecían desventajosas ahora son fortalezas competitivas. Las condiciones del mercado global se están desplazando hacia el enfoque europeo.

Próxima década: empresas europeas de IA exportando no solo a Europa sino a nivel mundial. Empresas americanas licenciando tecnología europea. Mercados asiáticos adoptando estándares europeos. La IA binaria basada en CPU se convierte en la arquitectura dominante. NVIDIA sigue siendo relevante para el entrenamiento. Intel/AMD dominan la inferencia. La redistribución de la capitalización de mercado refleja el cambio arquitectónico. La IA europea ya no se pone al día, la IA europea marca el ritmo.

Lo que esto significa para la IA

El regreso de la CPU cambia fundamentalmente la economía de la IA. No más elegir entre rendimiento y costo. No más escasez de GPU que limite el despliegue. No más dependencias de proveedores.

Dweve Core se ejecuta en CPU. Más de 1.000 algoritmos optimizados que aprovechan al máximo la arquitectura moderna de Intel. Loom 456 con su razonamiento basado en expertos ejecutándose a velocidades que hacen innecesario el despliegue de GPU.

Esto es la democratización de la IA a través de mejores matemáticas. No todos pueden permitirse clústeres de GPU. Todos tienen CPU.

La revolución de la CPU está llegando. Las redes neuronales binarias de Dweve ofrecerán un rendimiento superior al de las GPU en hardware estándar. Únase a nuestra lista de espera para ser el primero en la fila cuando lancemos.

El gran regreso de la CPU: cómo hicimos que las CPU fueran más rápidas que las GPU para la IA

La afirmación imposible

Por qué las GPU ganaron (originalmente)

La revolución europea de las CPU (mientras América compraba GPU)

La ventaja binaria

Los números que nos sorprendieron

La explicación técnica (por qué funciona esto)

Despliegue en el mundo real (lo que realmente sucedió)

Más allá de la velocidad: el panorama completo

Intel nunca se fue

La transformación del despliegue

La ventaja ambiental (el arma secreta de Europa)

El cambio de semiconductores (la victoria accidental de Intel)

La inversión del mercado (lo que sucede a continuación)

La ventaja europea se cristaliza

Lo que esto significa para la IA

Etiquetas

Sobre el autor

Marc Filipan

Artículos relacionados

Agnosticismo de Hardware: Por qué apostarlo todo a NVIDIA es un riesgo estratégico

CPU vs GPU para IA: por qué todo el mundo usa GPUs (y por qué eso podría cambiar)

Recibe novedades de Dweve