La gran ilusión de la IA: por qué "más datos" no nos salvarán

La ilusión del billón de parámetros

Hay una carrera en la IA. No una carrera para construir mejores sistemas. No una carrera para resolver problemas reales. Una carrera para construir números más grandes.

Cien mil millones de parámetros. Quinientos mil millones. Un billón. Diez billones. Cada anuncio recibido con comunicados de prensa sin aliento y precios de acciones disparados. Cada modelo comercializado como el próximo avance en inteligencia artificial.

Excepto que no son avances. Son simplemente más grandes.

Y en algún momento, toda la industria se convenció de que más grande es mejor. Que más parámetros significan más inteligencia. Que si seguimos escalando, seguimos añadiendo ceros, seguimos consumiendo más datos y más computación, eventualmente nos toparemos con la inteligencia artificial general.

Es la mayor ilusión de la tecnología moderna. Y se está resquebrajando.

El evangelio de la ley de escala

En 2020, los investigadores descubrieron lo que llamaron "leyes de escala". Alimente una red neuronal con más parámetros y más datos, y su rendimiento mejora predeciblemente. Duplique los parámetros, reduzca a la mitad la tasa de error. Era hermoso. Matemático. Repetible.

Las leyes de escala se convirtieron en evangelio. ¿Planificando investigación de IA? Simplemente escale. ¿Quiere un mejor rendimiento? Añada más parámetros. ¿Necesita competir? Construya modelos más grandes.

Todos los laboratorios importantes adoptaron la misma estrategia: modelos más grandes, más datos, más computación. GPT-3 tenía 175 mil millones de parámetros. GPT-4 fue más grande. Gemini avanzó aún más. Se anunciaron modelos con un billón de parámetros. Se discutieron diez billones.

La lógica parecía inexpugnable: si la escala ha funcionado hasta ahora, ¿por qué se detendría?

Excepto que se está deteniendo. Ahora mismo.

El muro que nadie predijo

A finales de 2024, sucedió algo inesperado. La próxima generación de modelos insignia no mostró las mejoras esperadas.

El doble de parámetros. El triple de datos de entrenamiento. Diez veces la computación. Y el rendimiento apenas se movió. En algunos casos, empeoró.

Las leyes de escala, que se habían mantenido tan fiables durante años, se estaban rompiendo. Los rendimientos decrecientes ya no eran teóricos. Estaban aquí.

TechCrunch informó en noviembre de 2024 que las leyes de escala de la IA están "mostrando rendimientos decrecientes, lo que obliga a los laboratorios de IA a cambiar de rumbo". DeepLearning.AI documentó cómo las principales empresas reconocieron que "la próxima generación de modelos de alto perfil no ha mostrado las mejoras esperadas a pesar de arquitecturas más grandes, más datos de entrenamiento y más poder de procesamiento".

La evidencia es clara: la escala chocó contra un muro. Múltiples muros, de hecho.

El muro de los datos

Primer muro: nos estamos quedando sin datos de entrenamiento de calidad.

Los grandes modelos de lenguaje consumen internet. Literalmente. GPT-3 fue entrenado con cientos de miles de millones de palabras extraídas de sitios web, libros, artículos, foros. Cada pieza de texto humano razonablemente accesible en línea.

Pero solo hay una cantidad limitada de internet. Una investigación publicada en 2022 predijo que agotaremos los datos de texto de alta calidad entre 2026 y 2032 si las tendencias actuales continúan. El análisis de Epoch AI encontró que, si bien las estimaciones anteriores sugerían el agotamiento para 2024, la metodología refinada ahora indica que esto podría ocurrir para 2028.

De cualquier manera, el tiempo corre. El texto de alta calidad generado por humanos es finito.

¿La respuesta? Datos sintéticos. Modelos que generan texto para entrenar otros modelos. Suena inteligente hasta que te das cuenta de que es como hacer fotocopias de fotocopias. Cada generación se degrada. Los errores se acumulan. Los sesgos se amplifican.

Nature publicó una investigación en 2024 que demuestra que los modelos entrenados con datos generados recursivamente experimentan un "colapso del modelo". El estudio mostró que el entrenamiento indiscriminado con contenido sintético conduce a un deterioro del rendimiento, una reducción de la diversidad y, en última instancia, a modelos de IA que producen resultados cada vez más genéricos.

No se puede escalar infinitamente cuando la fuente de combustible es finita. Y los datos de calidad —el conocimiento humano real— son muy finitos.

El colapso de la calidad

Segundo muro: más datos no significan mejores datos.

El artículo Chinchilla de 2022 reveló algo crucial: el modelo óptimo no es el modelo más grande. Es el que tiene la mejor relación entre parámetros y tokens de entrenamiento. Por cada aumento de 4× en la computación, se necesita un aumento de 2× en el tamaño del modelo Y un aumento de 2× en la calidad de los datos.

Pero, ¿qué sucede cuando ya ha utilizado todos los datos buenos? Empieza a extraer de fuentes de menor calidad. Foros con desinformación. Contenido traducido automáticamente. Spam generado por IA. Las heces de internet.

Más datos de entrenamiento. Peor rendimiento. Porque la basura que entra, basura que sale no deja de ser cierto solo porque tenga un billón de parámetros.

Un estudio de 2024 encontró que la calidad de los datos importa más que la cantidad para los modelos de lenguaje pequeños. Otro encontró que los conjuntos de datos cuidadosamente seleccionados de 1 millón de ejemplos superan a los conjuntos de datos recopilados aleatoriamente de 100 millones de ejemplos.

¿La respuesta de la industria? Seguir escalando de todos modos. Lanzar más computación al problema. Esperar que la fuerza bruta supere los datos malos.

No lo hace.

El techo de la computación

Tercer muro: la física de la computación.

Entrenar un modelo de un billón de parámetros requiere cantidades impías de computación. Estamos hablando de decenas de miles de GPU funcionando durante meses. Consumo de energía que rivaliza con el de pequeños países. Costos de infraestructura de cientos de millones.

¿Y para qué? Mejoras marginales. Ganancias de rendimiento que apenas justifican el aumento exponencial de los costos.

Una estimación sugiere que entrenar un hipotético modelo de 10 billones de parámetros consumiría más electricidad que la que usan anualmente algunas naciones europeas. Para una sola ejecución de entrenamiento. Que probablemente tendrá que repetirse docenas de veces antes de que funcione.

Los retornos económicos ya no soportan los costos de computación. Las leyes de escala prometían mejoras lineales con inversión lineal. La realidad está entregando mejoras logarítmicas con inversión exponencial.

Eso no es un modelo de negocio. Eso es una burbuja a punto de estallar.

La ilusión de la inteligencia

Pero aquí está el problema más profundo: incluso cuando la escala funcionaba, no estaba creando inteligencia. Estaba creando una coincidencia de patrones estadísticos a una escala enorme.

Un billón de parámetros no piensan. No razonan. No entienden. Predicen el siguiente token basándose en patrones en los datos de entrenamiento. Es algo profundamente diferente de la inteligencia.

La ilusión es convincente porque la escala puede aproximar la comprensión. Alimente un modelo con suficientes ejemplos, y puede hacer coincidir patrones para obtener respuestas aparentemente inteligentes. Pero es mimetismo, no comprensión.

Por eso los modelos fallan en problemas novedosos. Por qué no pueden realizar razonamientos de varios pasos de forma fiable. Por qué alucinan hechos incorrectos con confianza. No están pensando. Están recuperando y recombinando patrones.

Y ninguna cantidad de escala soluciona esto. Añadir más parámetros a un buscador de patrones solo le da un buscador de patrones más grande.

La trampa europea

Para Europa, el paradigma de la escala crea una situación imposible.

Los gigantes tecnológicos estadounidenses tienen la computación. Tienen los datos. Tienen la infraestructura para entrenar modelos de un billón de parámetros. Las empresas europeas no.

Intentar competir en la carrera de la escala significa que la IA europea siempre estará persiguiendo. Siempre una generación atrás. Siempre superada en computación y superada en gastos de recopilación de datos.

Es un juego amañado desde el principio. Las reglas favorecen a quienes tienen más recursos, no a quienes tienen las mejores ideas.

Y ahora, a medida que las leyes de escala se rompen, la desventaja de Europa en esa carrera se vuelve irrelevante. Porque la carrera misma está terminando.

La alternativa más inteligente

Entonces, ¿cuál es la alternativa? Si más grande no es mejor, ¿qué lo es?

La respuesta es elegancia. Eficiencia. Rigor matemático.

En Dweve, nunca creímos en la ilusión de la escala. No intentamos construir modelos más grandes. Construimos modelos más inteligentes.

Redes neuronales binarias con 456 expertos especializados. Cada experto centrado en tipos específicos de razonamiento. La activación dispersa significa que solo los expertos relevantes se activan para cada tarea. Sin computación desperdiciada. Sin parámetros innecesarios.

¿El resultado? Rendimiento de vanguardia con una fracción de los parámetros. Mejor razonamiento con menos datos. Sistemas desplegables que no requieren infraestructura a escala de centro de datos.

Loom 456 no intenta memorizar internet. Está diseñado para razonar con restricciones, para pensar en problemas, para comprender realmente la estructura.

Esto es inteligencia a través de la arquitectura, no a través de la acumulación.

Calidad sobre cantidad

El artículo Chinchilla acertó en una cosa: la proporción importa más que los números brutos.

Pero la verdadera perspicacia va más allá: los modelos cuidadosamente diseñados con regímenes de entrenamiento curados superan a los modelos masivos con acaparamiento indiscriminado de datos.

Piense en el aprendizaje humano. No se vuelve inteligente leyendo todo. Se vuelve inteligente leyendo las cosas correctas, en el orden correcto, con la guía correcta. La calidad del aprendizaje importa más que la cantidad de información.

La IA no es diferente. Un modelo entrenado con datos bien estructurados y cuidadosamente seleccionados superará a un modelo ahogado en texto aleatorio de internet. Incluso si el segundo modelo tiene 100 veces más parámetros.

Aquí es donde Europa puede competir. No construyendo más grande, sino construyendo mejor. No extrayendo más datos, sino utilizando regímenes de entrenamiento más inteligentes.

Dweve Core demuestra este principio. Nuestro marco de red neuronal binaria logra un rendimiento competitivo con órdenes de magnitud menos parámetros que los modelos estándar. Porque nos centramos en la elegancia matemática en lugar de la escala por fuerza bruta.

La ventaja de la arquitectura

Esto es lo que la multitud de la escala no ve: la arquitectura importa más que el tamaño.

Puede tener un billón de parámetros dispuestos estúpidamente, o mil millones de parámetros dispuestos inteligentemente. La disposición inteligente gana siempre.

Las arquitecturas de Mezcla de Expertos (MoE) lo demuestran. En lugar de activar todos los parámetros para cada tarea, active solo el subconjunto relevante. De repente, obtiene un rendimiento de un billón de parámetros con costos de computación de mil millones de parámetros.

Las redes neuronales binarias llevan esto más allá. Cada operación es matemáticamente más simple, pero la arquitectura general es más sofisticada. Razonamiento basado en restricciones en lugar de aproximación probabilística. Lógica discreta en lugar de conjeturas de punto flotante.

El resultado son sistemas que razonan en lugar de recuperar. Que entienden la estructura en lugar de memorizar patrones. Que funcionan de forma fiable en lugar de alucinar de forma plausible.

Este es el futuro que las leyes de escala no pueden alcanzar: inteligencia real, no solo un mimetismo más grande.

Más allá de la ilusión

La era de la escala está terminando. No con un choque dramático, sino con un lento reconocimiento de que lanzar más computación al problema ya no funciona.

Muros de datos. Colapso de la calidad. Techos de computación. Rendimientos decrecientes. Estos no son contratiempos temporales. Son límites fundamentales al paradigma de la escala.

Pero para aquellos que nunca creyeron la ilusión, esto no es una crisis. Es una oportunidad.

Una oportunidad para construir IA basada en principios de inteligencia reales en lugar de correlación estadística. Para crear sistemas que funcionen de manera eficiente en lugar de derrochadora. Para desarrollar tecnología que sea accesible en lugar de requerir presupuestos de miles de millones de dólares.

La carrera del billón de parámetros siempre fue un callejón sin salida. Solo tuvimos que esperar a que todos los demás chocaran contra el muro para demostrarlo.

El verdadero avance

Aquí está la ironía: el verdadero avance en la IA no será un modelo más grande. Será la comprensión de que hemos estado optimizando para lo incorrecto.

No más parámetros. Mejor arquitectura.

No más datos. Mejor aprendizaje.

No más computación. Matemáticas más inteligentes.

Las redes neuronales binarias representan este cambio. De la acumulación a la elegancia. De la fuerza bruta al rigor matemático. De monstruos de un billón de parámetros a sistemas de mil millones de parámetros que realmente piensan.

La plataforma de Dweve demuestra que funciona: Core como el marco de algoritmo binario, Loom como el modelo de inteligencia de 456 expertos, Nexus como el marco de inteligencia multiagente, Aura como la plataforma de orquestación de agentes autónomos, Fabric como el panel de control y centro de control unificado, Mesh como la capa de infraestructura descentralizada.

Todo construido sobre el principio de que la inteligencia proviene de la estructura, no del tamaño.

La elección que se avecina

La industria de la IA se enfrenta a una elección. Seguir persiguiendo la ilusión de la escala, tirando el dinero bueno al malo, esperando que el próximo orden de magnitud de alguna manera rompa los muros. O aceptar que el paradigma tiene límites y pasar a algo mejor.

Los datos dicen que la escala está hecha. La física dice que los costos de computación son insostenibles. Las matemáticas dicen que hay enfoques más inteligentes.

Europa no necesita ganar la carrera de la escala. Europa necesita dejarla obsoleta. Construir IA que no requiera modelos de un billón de parámetros. Crear sistemas que funcionen de manera eficiente en lugar de derrochadora. Desarrollar tecnología que se base en la comprensión, no en la memorización.

La gran ilusión de la IA se está rompiendo. Más datos no la salvarán. Modelos más grandes no la salvarán. Más computación no la salvará.

¿Qué rompe la ilusión? Reconocer que la inteligencia nunca se trató del tamaño en primer lugar.

El futuro de la IA no son billones de parámetros. Son arquitecturas inteligentes, computación eficiente y elegancia matemática. Son sistemas diseñados para la comprensión, no para la memorización. Inteligencia a través de la estructura, no de la acumulación.

El paradigma de la escala cumplió su propósito. Nos mostró lo que la fuerza bruta puede lograr. Pero ahora hemos llegado a sus límites. El próximo capítulo de la IA requiere un pensamiento diferente: precisión sobre escala, arquitectura sobre parámetros, inteligencia sobre tamaño.

Ese futuro se está construyendo ahora. Por investigadores que se centran en la eficiencia. Por ingenieros que priorizan la explicabilidad. Por empresas que desarrollan IA que funciona sin requerir infraestructura de centro de datos. Europa tiene la oportunidad de liderar este cambio, no ganando la carrera de la escala, sino haciéndola irrelevante.

La gran ilusión de la IA se está rompiendo. Más datos no la salvarán. Lo que viene después será más inteligente.

Dweve construye IA sobre redes de restricciones binarias y arquitecturas de mezcla de expertos. Loom utiliza 456 expertos especializados para un razonamiento eficiente. Desarrollo en los Países Bajos, sirviendo a organizaciones europeas. El futuro de la IA es elegante, no solo grande.

La gran ilusión de la IA: por qué "más datos" no nos salvarán

La ilusión del billón de parámetros

El evangelio de la ley de escala

El muro que nadie predijo

El muro de los datos

El colapso de la calidad

El techo de la computación

La ilusión de la inteligencia

La trampa europea

La alternativa más inteligente

Calidad sobre cantidad

La ventaja de la arquitectura

Más allá de la ilusión

El verdadero avance

La elección que se avecina

Etiquetas

Sobre el autor

Bouwe Henkelman

Artículos relacionados

El riesgo de la "Atrofia de Habilidades": ¿Nos volverá estúpidos la IA?

El manifiesto de la IA honesta: por qué necesitamos inteligencia transparente

El verdadero futuro de la IA: más allá de la exageración

Recibe novedades de Dweve