
Escucha este artículo
Audio generado con IA de Google
0:00
/
0:00
El avance en inteligencia artificial (IA) que está generando conmoción en los mercados bursátiles, asustando a los gigantes de Silicon Valley y desatando apasionados comentarios sobre el fin del dominio tecnológico de Estados Unidos llegó con un título sencillo y absurdo: “Incentivando la capacidad de razonamiento en modelos de lenguaje de gran tamaño mediante el aprendizaje por refuerzo”.
El artículo de 22 páginas, publicado la semana pasada por una empresa china de inteligencia artificial llamada DeepSeek, no alarmó a nadie de inmediato. Los investigadores tardaron unos días en digerir lo que el documento afirmaba y las implicaciones de lo que describía. La empresa creó un nuevo modelo de IA llamado DeepSeek-R1, diseñado por un equipo de investigadores que aseguraban haber utilizado una pequeña cantidad de chips de IA de calidad inferior para igualar el rendimiento de los principales modelos de IA estadounidenses a una fracción del costo.
DeepSeek dijo que lo había logrado usando ingenio técnico para remplazar la necesidad de una gran potencia de cómputo. Y lo había hecho en China, un país que muchos expertos creían que estaba en un lejano segundo lugar en la carrera mundial de la IA.
La primera reacción de algunos observadores del sector ante el avance de DeepSeek fue de incredulidad. Pensaron que, sin duda, DeepSeek había hecho trampa para conseguir los resultados de R1, o había falseado sus cifras para que su modelo pareciera más impresionante de lo que era. Quizá el gobierno chino estaba promoviendo propaganda para socavar la narrativa del dominio estadounidense en el campo de la IA. Tal vez DeepSeek ocultaba una reserva de chips Nvidia H100 ilícitos, prohibidos por los controles de exportación estadounidenses, y estaba mintiendo. Tal vez el R1 no era más que un rediseño ingenioso de los modelos de IA estadounidenses, y no representaba un gran avance real.
Poco a poco, a medida que más gente examinaba a fondo los detalles de DeepSeek-R1 —que, a diferencia de la mayoría de los principales modelos de IA, se publicó como software de código abierto, lo que permitió que cualquiera examinara su funcionamiento interno más de cerca—, el escepticismo se transformó en preocupación.
Y, a finales de la semana pasada, cuando muchos estadounidenses empezaron a utilizar los modelos de DeepSeek y la aplicación de la empresa alcanzó la primera posición en la App Store de Apple, el pánico se desató.
Tengo reservas sobre los comentarios más dramáticos que he visto en los últimos días, como la afirmación, hecha por un inversionista de Silicon Valley, de que DeepSeek es un elaborado complot del gobierno chino para destruir la industria tecnológica estadounidense. También creo que es posible que se haya exagerado sobre el escaso presupuesto de la empresa, o que haya aprovechado los avances realizados por empresas estadounidenses de IA de maneras que no ha revelado.
Pero sí creo que el avance de DeepSeek con su R1 fue real. Luego de conversar con personas de la industria, y tras una semana de expertos que han investigado y probado las conclusiones del artículo, parece que se está poniendo en duda varias suposiciones importantes que la industria tecnológica estadounidense ha estado haciendo.
La primera es la suposición de que, para crear modelos de IA de vanguardia, es necesario gastar enormes cantidades de dinero en potentes chips y centros de datos.
Es difícil exagerar lo fundamental que se ha convertido este dogma. Empresas como Microsoft, Meta y Google ya han invertido decenas de miles de millones de dólares en construir la infraestructura que creían necesaria para crear y ejecutar modelos de IA de próxima generación. Y planean gastar decenas de miles de millones más o, en el caso de OpenAI, hasta 500.000 millones de dólares a través de una empresa conjunta con Oracle y SoftBank que se anunció la semana pasada.
DeepSeek parece haber gastado una pequeña fracción de esa cantidad en construir R1. No sabemos cuál fue el costo exacto, y hay que tener muchas reservas sobre las cifras que han publicado hasta ahora. Casi con certeza es superior a 5,5 millones de dólares, la cifra que la empresa afirma haber gastado en entrenar un modelo anterior.
Pero aunque el entrenamiento del R1 costara 10 veces más de lo que afirma DeepSeek, e incluso si se toman en cuenta otros costos que podrían haber excluido, como los salarios de los ingenieros o los costos de la investigación básica, seguiría siendo sumamente inferior a lo que las empresas estadounidenses de IA están gastando para desarrollar sus modelos más competentes.
La conclusión obvia no es que los gigantes tecnológicos estadounidenses están malgastando su dinero. Sigue siendo caro hacer funcionar modelos de IA potentes que ya han sido entrenados, y hay razones para pensar que gastar cientos de miles de millones de dólares seguirá teniendo sentido para empresas como OpenAI y Google, que pueden permitirse hacer un gran desembolso para mantener el liderazgo.
Pero el gran logro de DeepSeek en términos de costos pone en tela de juicio la narrativa de “más grande es mejor” que ha impulsado la carrera armamentística de la IA en años recientes, al demostrar que los modelos relativamente pequeños, cuando se entrenan de manera adecuada, pueden igualar o superar el rendimiento de modelos mucho más grandes.
Eso, a su vez, significa que las empresas de IA podrían lograr capacidades muy potentes con una inversión mucho menor de lo que se creía. Y hace pensar que pronto podríamos ver una avalancha de inversiones en pequeñas empresas emergentes de IA, y mucha más competencia para los gigantes de Silicon Valley. (Que, debido a los enormes costos de entrenamiento de sus modelos, hasta ahora han competido sobre todo entre ellos mismos).
Hay otras razones, más técnicas, por las que todos en Silicon Valley están centrando su atención en DeepSeek. En el artículo de investigación, la empresa revela algunos detalles sobre cómo se construyó el R1, que incluyen algunas técnicas de vanguardia de destilación de modelos. (Básicamente, eso significa comprimir los grandes modelos de IA en modelos más pequeños, lo que hace que sean más baratos de ejecutar sin perder mucho en cuanto a rendimiento).
DeepSeek también incluyó detalles que sugerían que convertir un modelo de lenguaje de IA básico en un modelo de razonamiento más sofisticado no había sido tan difícil como se pensaba, aplicando una técnica conocida como aprendizaje por refuerzo. (No te preocupes si estos términos se resultan complicados: lo importante es que los métodos para mejorar los sistemas de IA que antes guardaban celosamente las empresas tecnológicas estadounidenses ahora están allá afuera, en internet, libres para que cualquiera los tome y los reproduzca).
Aunque los precios de las acciones de los gigantes tecnológicos estadounidenses se recuperen en los próximos días, el éxito de DeepSeek plantea interrogantes importantes sobre sus estrategias de IA a largo plazo. Si una empresa china puede construir modelos de código abierto baratos que igualan el rendimiento de los costosos modelos estadounidenses, ¿por qué alguien pagaría por los nuestros? Y si eres Meta —el único gigante tecnológico estadounidense que publica sus modelos como software libre de código abierto—, ¿qué impide que DeepSeek u otra empresa emergente simplemente tome tus modelos, en los que has gastado miles de millones de dólares, y los destile en modelos más pequeños y baratos que puedan ofrecer por unos centavos?
El avance de DeepSeek también socava algunas de las suposiciones geopolíticas que muchos expertos estadounidenses habían hecho sobre la posición de China en la carrera de la IA.
En primer lugar, cuestiona la narrativa de que China está significativamente rezagada en la frontera de la construcción de modelos poderosos de IA. Durante años, muchos expertos en IA (y los legisladores que los escuchan) han dado por sentado que Estados Unidos tenía una ventaja de al menos varios años, y que copiar los avances realizados por las empresas tecnológicas estadounidenses era excesivamente difícil para que las compañías chinas lo hicieran rápidamente.
Sin embargo, los resultados de DeepSeek muestran que China tiene capacidades avanzadas de IA que pueden igualar o superar los modelos de OpenAI y otras empresas estadounidenses de IA, y que los avances realizados por las empresas estadounidenses pueden ser fáciles de reproducir por las empresas chinas —o, al menos, por una empresa china— en cuestión de semanas.
(The New York Times ha demandado a OpenAI y a su socio, Microsoft, alegando una infracción de los derechos de autor del contenido de las noticias relacionadas con los sistemas de IA. Las dos empresas tecnológicas han negado las afirmaciones de la demanda).
Los resultados también plantean interrogantes sobre si las medidas que el gobierno estadounidense ha estado tomando para limitar la propagación de poderosos sistemas de AI en el caso de nuestros adversarios —específicamente, los controles de exportación utilizados para impedir que chips de IA avanzados caigan en manos de China— están funcionando según lo previsto, o si esas normativas deben adaptarse para tener en cuenta otros métodos para entrenar modelos nuevos y más eficientes.
Y, por supuesto, hay preocupaciones en torno a lo que significaría para la privacidad y la censura que China tomara la delantera en la creación de potentes sistemas de IA utilizados por millones de estadounidenses. Los usuarios de los modelos de DeepSeek han observado que se niegan sistemáticamente a responder a preguntas sobre temas delicados dentro de China, como la masacre de la plaza de Tiananmén y los campos de detención uigures. Si otros desarrolladores se basan en los modelos de DeepSeek, como suele ocurrir con el software de código abierto, esas medidas de censura podrían permear toda la industria.
Los expertos en privacidad también han expresado su preocupación por el hecho de que el gobierno chino pueda acceder a los datos compartidos con los modelos de DeepSeek. Si te preocupaba que TikTok fuera utilizado como instrumento de vigilancia y propaganda, el ascenso de DeepSeek también debería preocuparte.
Aún no estoy seguro de cuál será el impacto total del avance de DeepSeek, tampoco sé si el lanzamiento del R1 será considerado un “momento Sputnik” para la industria de la IA, como algunos han afirmado.
Pero parece buena idea tomarse en serio la posibilidad de que nos encontramos en una nueva era: la del juego de poder de la IA. Una era en la que es posible que las empresas tecnológicas estadounidenses más grandes y ricas no ganen por defecto, y en que contener la propagación de sistemas de IA cada vez más potentes podría ser más difícil de lo que pensábamos.
Como mínimo, DeepSeek ha demostrado que la carrera armamentística de la IA sin duda está en marcha, y que, tras varios años de vertiginosos avances, aún nos aguardan más sorpresas.
c. 2025 The New York Times Company