AmsterdamChinaEspañolFeaturestechnology

DeepSeek levanta gran revuelo en Silicon Valley

Foto de Flickr/trongkhiem (dominio público)

En las últimas semanas, el sector tecnológico se ha visto sacudido por el lanzamiento del modelo de lenguaje grande R1 de la empresa china de inteligencia artificial DeepSeek. En una semana, la versión de la aplicación del modelo ya encabezaba las listas en la App Store de Apple y en la Play Store de Google, lo que provocó una conmoción en el mercado de valores; Nvidia, por ejemplo, sufrió una pérdida de $600 mil millones en capitalización bursátil en cuestión de horas. 

En las redes sociales y medios corporativos se ha producido recientemente una verdadera avalancha de artículos y publicaciones tratando de explicar el significado de este fenómeno tanto para la industria de la IA y el sector tecnológico, como para la economía e incluso para el capitalismo en general. ¿Cómo debemos interpretar la hipérbole, el catastrofismo, la negación y la propaganda anti-China que domina estas conversaciones en Occidente? ¿Qué ha dilucidado esta saga de DeepSeek sobre las formas en que producimos e implementamos la tecnología?

¿Qué hace a DeepSeek tan disruptivo?

DeepSeek es una empresa derivada de High-Flyer, una compañía privada china de gestión cuantitativa de inversiones (esencialmente un fondo de inversión libre) fundada en 2016 cuyo trabajo se ha centrado en las transacciones bursátiles algorítmicas —es decir, automatizar las operaciones del mercado de valores para maximizar los rendimientos—. Es en este contexto que DeepSeek se creó para desarrollar modelos de lenguaje grandes para aplicaciones como los chatbots. DeepSeek se separó y se independizó de High-Flyer en 2023, aunque aparentemente todavía está financiado en gran parte por ese fondo de inversión.

La mayoría de lo que se conoce como inteligencia artificial, o IA, en los medios de comunicación son modelos de lenguaje grandes (conocidos en inglés como “large language models”, LLG). Estos LLG se han vuelto referencias familiares durante el último año, por ejemplo, ChatGPT de OpenAI, Gemini de Google, Llama de Meta y Claude de Anthropic. Estos modelos son, en general, un tipo específico de red neuronal artificial conocida como transformadores generativos preentrenados (conocidos en inglés como “generative pre-trained transformers”, GPT). Si eliminamos la exageración en torno a estos modelos, la principal innovación que representan es el avance cualitativo en la capacidad de los usuarios para interactuar con las computadoras utilizando el lenguaje natural, como si se hablara con un humano.

Valga esta explicación para demostrar que, en términos de filosofía de diseño, funcionalidad y deficiencias, el R1 de DeepSeek no es diferente de los modelos producidos en Silicon Valley. Sus aplicaciones y casos de uso en el procesamiento del lenguaje, las finanzas, la ciencia, la programación y los sectores industriales son bien similares. DeepSeek puede competir con ChatGPT, Claude o sus derivados, y también está limitado por los mismos problemas y debilidades que los LLM generalmente demuestran, incluidas las “alucinaciones” —término utilizado para describir la generación de información que no es cierta—. Además, al igual que otros modelos como estos, DeepSeek también enfrenta el complejo reto de la rentabilidad.

El R1 de DeepSeek es disruptivo no porque presente una visión de la tecnología diferente a la de Silicon Valley, sino por la forma en que la empresa logró su ventaja competitiva. Si bien no todos los números están disponibles públicamente, incluso los cálculos más conservadores coinciden en que los costos de desarrollo del R1 de DeepSeek fueron una fracción de la inversión requerida para producir modelos comparables en Silicon Valley. El costo reportado del “preentrenamiento” de R1 se ha estimado en alrededor de $6 millones de dólares, frente a los $100 millones que OpenAI invirtió en preentrenar su GPT-4.

El R1 de DeepSeek también es notable porque es de código abierto. El término “código abierto” puede significar muchas cosas y, en el caso de DeepSeek, significa que la compañía lanzó el R1 bajo la licencia MIT que es tan amplia que permite a cualquier persona el uso sin restricciones del software “incluidos, entre otros, los derechos de usar, copiar, modificar, fusionar, publicar, distribuir, sublicenciar y/o vender copias del Software”. Esto no significa que DeepSeek haya hecho públicos todos sus datos de entrenamiento, sino que el código fuente del modelo está disponible para usos derivados por cualquier persona en el mundo. Esto no es algo sin precedentes, los GPT-1 y GPT-2 de OpenAI se lanzaron con la licencia MIT hace varios años, pero todos los modelos de vanguardia actuales, con la excepción del R1, son totalmente privados y de pago.

Además de ser de código abierto, el R1 requiere muchos menos recursos que las ofertas de Silicon Valley. Muchos usuarios han podido ejecutar el R1 en computadoras de consumo, lo que tiene ramificaciones sin precedentes para aplicaciones en todo el mundo. Lo que esto significa es que cualquier individuo, organización, empresa o país del mundo ahora tiene la opción de implementar y cambiar el R1 de DeepSeek para que se ajuste a cualquier caso de uso necesario o deseado, abriendo todo este campo de la tecnología a los actores que los monopolios de Silicon Valley, y el imperialismo estadounidense, quieren mantener excluidos.

DeepSeek rompe el mito de la “innovación tecnológica” intensiva en capital

Si bien existen numerosas aplicaciones industriales, científicas y de consumo para modelos de lenguaje grandes, los modelos tan publicitados que salen de Silicon Valley no son rentables ni sostenibles. En 2024, OpenAI perdió casi $5 mil millones en sus operaciones a pesar de generar $3.7 mil millones en ingresos.  Anthropic, el desarrollador del LLM Claude gastó “más de $2.7 mil millones en efectivo” en 2024. En octubre pasado, Bloomberg informó que el gasto de capital estimado por parte de las grandes empresas de tecnología podría superar la marca de $200 mil millones por el “auge de la demanda de la IA”.

En cualquier otra industria capitalista, pérdidas de miles de millones como esta serían una sentencia de muerte, pero el sector de la IA ha surgido de una colaboración particular de fuerzas estatales, financieras e ideológicas que insisten en que la única forma de avanzar en la innovación tecnológica es a través de formas de desarrollo altamente insostenibles que requieren grandes inyecciones de capital. Esto incluye inversiones masivas en infraestructura de redes de energía, fabricación de semiconductores y una expansión masiva de centros de datos que consumen energía en grandes volúmenes y que son ecológicamente desastrosos.

El año pasado, el fabricante de circuitos integrados auxiliares (conocidos en inglés como “chipsets”) Nvidia alcanzó brevemente un pico como la empresa más valorada del mundo. Como se informó en Liberation News en ese momento, esto se debió a su cuasimonopolio, una participación de mercado del 88% en las unidades de procesamiento gráfico utilizadas en la capacitación de modelos de IA. La restricción del acceso a las GPU de Nvidia ha sido un pilar clave de la guerra de EE. UU. contra China, lo que significa que estos chips de vanguardia no estaban disponibles para ese país en la cantidad que se utiliza en los centros de datos que capacitaron al GPT-4. El momentáneo estatus de Nvidia como la empresa más valorada del mundo, y su estrepitosa caída, una pérdida de más de $600 mil millones en capitalización de mercado, no se debe simplemente a su monopolio de las GPU.

El crítico de tecnologías Ed Zitron describe el status quo previo a DeepSeek definido por varios axiomas: 

  • Estos modelos eran increíblemente caros de entrenar: $100 millones a mediados de 2024, y hasta $1 mil millones para modelos futuros.
  • Estos modelos tenían que ser grandes porque hacerlos grandes, es decir, llenarlos de datos de entrenamiento y lanzar masas de cómputo sobre ellos, haría posibles nuevas funciones.
  • Estos modelos eran increíblemente caros de ejecutar, pero valía la pena porque hacerlos potentes era más importante que hacerlos eficientes.
  • Para seguir produciendo modelos más y más grandes, más potentes y hermosos, por supuesto, tendríamos que seguir comprando las GPU más grandes y potentes
  • Al seguir esta ruta, “todos” ganan: los hiperescaladores obtienen la justificación que necesitaban para crear centros de datos más extensos y gastar grandes cantidades de dinero, OpenAI y otros continúan haciendo el trabajo de “construir modelos poderosos” y Nvidia continúa ganando dinero vendiendo sus GPU. Esta industria es una especie de culto capitalista a la muerte basada en el plagio y la arrogancia, que opera sobre la premisa de que en algún momento todo esto tendrá sentido.

DeepSeek fue desarrollado y entrenado por una fracción del costo, sin acceso a hardware de vanguardia o vastos centros de datos, en gran parte debido a las sanciones estadounidenses sobre la capacidad de China para importar hardware de Nvidia, las cuales son parte de una guerra comercial que tenía la intención específica de detener exactamente este tipo de desarrollo tecnológico local por parte de China, o cualquier nación o empresa fuera del club de los oligarcas de Silicon Valley y los imperialistas estadounidenses.

DeepSeek destruye este status quo y revela como fundamentalmente falsa la idea de que el desarrollo de la IA necesita un enfoque intensivo en capital y de hiperescala. Muchos analistas han señalado las inconsistencias en el modelo de negocio del sector de la IA durante años, pero muchos asumieron que era imposible hacer que esta tecnología fuera más eficiente porque, aparentemente, ya lo era. La eficiencia es el mantra repetido por las start-up de tecnología hasta la saciedad, por lo que se deduce que si fuera posible hacer que los LLM fueran más eficientes, las empresas en la vanguardia del desarrollo ya lo habrían logrado.

Pero, como socialistas, entendemos que el capitalismo es en realidad el enemigo de la innovación y la eficiencia. El objetivo de los monopolistas es mantener su monopolio, no competir para crear soluciones y productos más eficientes, innovadores y rentables que pudieran socavar ese mismo poder monopólico que es la fuente de sus obscenas ganancias. DeepSeek muestra que la IA es ineficiente no debido a una realidad científica fundamental, sino porque no hay incentivos económicos para que Silicon Valley haga más con menos. 

Silicon Valley redobla su apuesta 

Frente a este shock fundamental al sector de la IA y los principios básicos del desarrollo tecnológico capitalista, la respuesta del gobierno de los EE. UU. y el viejo elenco de personajes de Silicon Valley es insistir y reduplicar la construcción de infraestructura de hiperescala y las inyecciones masivas de capital. El 21 de enero de 2025, un día después del lanzamiento del R1 de DeepSeek, el presidente de EE. UU., Donald Trump, apareció flanqueado por el CEO de OpenAI, Sam Altman, el CEO de SoftBank, Masayoshi Son, y el presidente de Oracle, Larry Ellison, para anunciar el proyecto Stargate.

El proyecto es un esfuerzo conjunto entre algunas de las compañías financieras y tecnológicas más grandes del país que prometen invertir $500 mil millones en infraestructura para el desarrollo de inteligencia artificial en Estados Unidos. Además de OpenAI, Softbank y Oracle, otro socio clave en el proyecto Stargate es MGX, un fondo de inversión tecnológica respaldado por el gobierno de los Emiratos Árabes Unidos. Además, el gigante de semiconductores Nvidia es considerado un “socio tecnológico inicial” junto con Microsoft y el fabricante de CPU británico Arm.

Según el sitio web de OpenAI, el proyecto Stargate, además de asegurar el “liderazgo estadounidense en IA” y crear aparentemente cientos de miles de empleos, también “apoyará la reindustrialización de los Estados Unidos” y “proporcionará una capacidad estratégica para proteger la seguridad nacional de Estados Unidos y sus aliados”. Estas audaces afirmaciones suenan como ecos de épocas anteriores del capitalismo. Durante la Edad Dorada a principios del siglo XX, los capitalistas industriales del norte competían para aprovechar el poder del monopolio en su búsqueda para suplantar a la antigua “esclavocracia” del sur, en gran parte a través de la construcción excesiva, incluso la “hiperescala”, de la infraestructura ferroviaria.

Existe una dinámica comparable hoy en día, ya que los capitalistas tecnológicos buscan suplantar a los viejos gigantes industriales como el sector más dinámico y central del capitalismo estadounidense. Si bien las fuerzas materiales y económicas en juego son fundamentales, no se pueden ignorar los elementos ideológicos extraños, eclécticos y profundamente antihumanos del capital tecnológico. Liberation News ha escrito anteriormente sobre un actor central en muchas de estas tendencias, Peter Thiel, aunque este fenómeno se extiende mucho más allá de las inclinaciones de un solo oligarca.

El nombre de esta nueva iniciativa, el proyecto Stargate, hace referencia a dos cosas: la primera, más conocida popularmente, es la serie de ciencia ficción Stargate en la que las puertas estelares titulares son portales a otros mundos. El segundo, menos conocido, el proyecto Stargate fue una unidad secreta del ejército estadounidense establecida por la Agencia de Inteligencia de Defensa y el Instituto de Investigación de Stanford en Fort Meade, Maryland. El proyecto, que fue desclasificado en 1995, se dedicó a estudiar el potencial armamentístico de los llamados fenómenos parapsicológicos como la visión remota y la telepatía.

Este tipo de ideología militarizada vestido de ideas new age no es una digresión esotérica, o una nota al pie histórica confinada a programas clasificados de la década de 1970. En el centro del auge por la IA de hiperescala, impulsada por figuras como Marc Andreesen, capitalista de riesgo y autor del Manifiesto tecno-optimista (Techno-Optimist Manifesto), Sam Altman, CEO de OpenAI, Peter Thiel y Elon Musk, está la idea de que, a la larga, este proceso llevará a la creación de la “inteligencia general artificial” ( Artificial General Intelligence, AGI). La AGI es científicamente dudosa y consiste esencialmente en la idea de que la IA inevitablemente se volverá exponencial y cualitativamente “más inteligente” hasta el punto de replicar o incluso superar la conciencia humana.

El objetivo de la AGI es una pieza en un paquete ideológico que define a la élite de Silicon Valley, descrita por los académicos críticos de IA Émile Torres y Timnit Gebru como “TESCREAL”, que significa “transhumanismo, extropianismo, singularitarismo, cosmismo (moderno), racionalismo, altruismo efectivo y largo placismo”. Torres y Gebru argumentan que el objetivo incuestionable de la AGI es fundamentalmente una continuación de la “tradición eugenésica angloamericana del siglo XX”. Muchos de los oligarcas en el centro del ciclo de noticias, y que asumen roles clave en la nueva administración de Trump, son defensores abiertos y conscientes de estas ideologías. 

Cualquier lucha contra la clase multimillonaria necesita entender qué y cómo piensan. La decisión de continuar con el proyecto Stargate, pese a la gran disrupción que DeepSeek supone, demuestra una motivación ideológica que va más allá de ser una simple estafa. Sin embargo, la tecnología es tan inestable que sin duda habrá más interrupciones con un impacto mayor y de mayor alcance que el de DeepSeek. La ventaja que a la clase trabajadora nos ofrecen disrupciones como esta es la posibilidad de asomarnos al funcionamiento real de un sector de la economía que usualmente permanece envuelto en manto de exageración especulativa y mitología fantasiosa.

Back to top button