Agnosticismo de Hardware: Por qué apostarlo todo a NVIDIA es un riesgo estratégico

La trampa del monocultivo

Imaginemos que el 95% de los coches del mundo solo pudieran funcionar con un tipo específico de gasolina vendida por exactamente una empresa. Imaginemos que la refinería de esa empresa estuviera ubicada en una isla geológicamente inestable. Imaginemos que el resto de fabricantes de automóviles tuvieran que diseñar sus motores para adaptarse a esa mezcla de combustible específica.

Si esa empresa tuviera un problema de producción, subiera los precios un 400%, o si un bloqueo aislara la isla, la economía mundial se detendría. El transporte cesaría.

Esto suena a ficción distópica, pero es la realidad precisa de la industria de la Inteligencia Artificial hoy en día.

En 2025, aproximadamente el 95% del entrenamiento de IA y la inferencia de alto nivel ocurren en GPUs fabricadas por una sola empresa: NVIDIA. Toda la pila global de IA (desde los frameworks como PyTorch hasta los diseños de refrigeración de los centros de datos) está optimizada para la arquitectura de NVIDIA. La industria es adicta a CUDA, la plataforma de software propietaria de NVIDIA.

NVIDIA es una empresa brillante. Han construido una tecnología increíble. Pero este monocultivo es una pesadilla estratégica. Crea un Punto Único de Fallo (SPOF) para todo el futuro de la inteligencia humana.

La escasez estructural

Todos hemos vivido la escasez de H100 de 2023 y 2024. Las startups esperaron 12 meses por el hardware. Los gobiernos acapararon chips como si fueran lingotes de oro. El precio de la computación se disparó.

No fue solo un fallo temporal de la cadena de suministro. Fue un cuello de botella estructural. La fabricación de estos chips depende de un proceso increíblemente complejo llamado encapsulado avanzado CoWoS (Chip-on-Wafer-on-Substrate), realizado principalmente por TSMC en Taiwán. La capacidad para construir estos paquetes es finita. Las leyes de la física son finitas.

Si su estrategia de IA depende de obtener acceso al último y mejor chip de NVIDIA, está apostando la supervivencia de su empresa a una cadena de suministro que no controla, por un producto que se subasta al mejor postor.

El foso de CUDA

El verdadero bloqueo no es el hardware; es el software. CUDA es el lenguaje de la IA. Durante 15 años, investigadores y estudiantes han aprendido a escribir kernels CUDA. Las bibliotecas están optimizadas para CUDA. Si intenta ejecutar código de IA estándar en una tarjeta AMD o en un acelerador Intel, a menudo entra en un mundo de dolor: dependencias rotas, kernels faltantes y un rendimiento deficiente.

Este "foso de CUDA" mantiene a los competidores fuera. Asegura que incluso si AMD construye un chip más rápido y barato (cosa que han hecho), nadie lo compre porque el software no simplemente "funciona".

La filosofía de Dweve: Ejecutar en cualquier lugar

En Dweve, tomamos una decisión radical desde el principio. Miramos la trampa de CUDA y dijimos: "No."

Decidimos que no escribiríamos ni una sola línea de CUDA. No asumiríamos una dependencia de una pila de hardware propietaria.

En su lugar, construimos nuestra pila sobre estándares abiertos. Usamos Vulkan (la API de gráficos que se ejecuta en todo, desde teléfonos Android hasta servidores Linux). Usamos OpenCL. Usamos SPIR-V. Confiamos en representaciones intermedias (IRs) como MLIR (Multi-Level Intermediate Representation).

Pero el verdadero secreto no es solo la API; son las matemáticas.

Debido a que nuestras Redes Neuronales Binarias (BNNs) dependen de operaciones enteras simples (XNOR y POPCNT) en lugar de complejas multiplicaciones de matrices de punto flotante, no estamos atados a los "Tensor Cores" específicos que solo NVIDIA hace bien.

Los Tensor Cores son unidades de hardware especializadas diseñadas para procesar matemáticas de punto flotante de 16 bits. Si su algoritmo depende de FP16, necesita un Tensor Core. Si su algoritmo depende de lógica de 1 bit, no lo necesita. Solo necesita puertas lógicas digitales básicas.

Esta libertad arquitectónica nos permite ejecutar eficientemente en una diversidad asombrosa de hardware:

1. AMD ROCm

Las GPUs Instinct de AMD ofrecen una capacidad de cálculo y ancho de banda de memoria masivos por dólar. Para cargas de trabajo de punto flotante, la pila de software (ROCm) ha sido históricamente el punto débil. Pero para nuestras cargas de trabajo binarias, compilamos directamente a la ISA (Arquitectura del Conjunto de Instrucciones). Evitamos las bibliotecas poco fiables. En el hardware de AMD, los modelos de Dweve vuelan.

2. Intel CPUs (AVX-512)

Todo el mundo ignora la humilde CPU. Pero los procesadores Intel Xeon modernos tienen un conjunto de instrucciones llamado AVX-512. Permite que la CPU procese 512 bits de datos en un solo ciclo. Para una Red Neuronal Binaria, eso son 512 neuronas procesadas instantáneamente. Podemos ejecutar inferencia de alto rendimiento en servidores estándar que las empresas ya poseen. No se requiere GPU.

3. RISC-V

RISC-V es la arquitectura de hardware de código abierto del futuro. Es para los chips lo que Linux fue para los sistemas operativos. Nos ejecutamos de forma nativa en aceleradores RISC-V. Esto es crucial para Europa y las naciones en desarrollo que quieren construir sus propias industrias de chips nacionales independientes de los controles de exportación de EE. UU.

4. FPGAs (Field Programmable Gate Arrays)

Esta es la frontera más emocionante. Una FPGA es un chip "lienzo en blanco" que puede reconectarse en milisegundos. Debido a que nuestras redes utilizan puertas lógicas simples, podemos cablear físicamente el chip para que coincida con la estructura de la red neuronal. Los datos fluyen a través del chip como el agua a través de tuberías, con cero sobrecarga. Esto ofrece una latencia ultrabaja (microsegundos) y una eficiencia energética extrema.

Resiliencia estratégica y soberanía

Para nuestros clientes (especialmente gobiernos, agencias de defensa y proveedores de infraestructura crítica), este agnosticismo de hardware es una característica clave.

Significa que no están bloqueados por sanciones. Si una crisis geopolítica corta el acceso a los chips estadounidenses, pueden ejecutar sus modelos Dweve en chips europeos o en silicio heredado ampliamente disponible. Tienen un "Plan B".

Significa que tienen poder de negociación. No están atados a los caprichos de precios de un solo proveedor. Si NVIDIA sube los precios, pueden cambiarse a AMD o a ASICs especializados sin reescribir su software.

También significa longevidad. Un NVIDIA H100 quedará obsoleto en 3 años. En entornos industriales (trenes, fábricas, centrales eléctricas), el equipo debe durar 20 años. Una FPGA genérica o una CPU estándar serán útiles durante décadas. Construimos software que respeta el ciclo de vida del mundo físico.

La era post-GPU

Creemos que el dominio de la GPU de propósito general (GPGPU) para la IA es una anomalía histórica. Fue la herramienta adecuada para la fase de prototipado de la IA, porque era flexible y estaba disponible. Pero a medida que la IA entra en la fase de despliegue, veremos una explosión cámbrica de hardware especializado.

Veremos Computación Analógica. Computación Óptica. Computación Neuromórfica. Computación en Memoria. Todas estas arquitecturas son fundamentalmente incompatibles con CUDA. Requieren una nueva pila de software.

Al desacoplar hoy nuestro software del monopolio del hardware, Dweve está preparado para el futuro. No solo estamos construyendo para los chips de 2025; estamos construyendo para la física de 2035.

¿Quiere una IA que funcione bajo sus condiciones, no las de NVIDIA? La arquitectura agnóstica de hardware de Dweve le da libertad estratégica, control de costes y resiliencia soberana. Contáctenos para descubrir cómo nuestras Redes Neuronales Binarias pueden ejecutarse en el hardware que ya posee, o en el silicio abierto del mañana.

Agnosticismo de Hardware: Por qué apostarlo todo a NVIDIA es un riesgo estratégico

La trampa del monocultivo

La escasez estructural

El foso de CUDA

La filosofía de Dweve: Ejecutar en cualquier lugar

1. AMD ROCm

2. Intel CPUs (AVX-512)

3. RISC-V

4. FPGAs (Field Programmable Gate Arrays)

Resiliencia estratégica y soberanía

La era post-GPU

Etiquetas

Sobre el autor

Marc Filipan

Artículos relacionados

El gran regreso de la CPU: cómo hicimos que las CPU fueran más rápidas que las GPU para la IA

CPU vs GPU para IA: por qué todo el mundo usa GPUs (y por qué eso podría cambiar)

Recibe novedades de Dweve