Hybrid Thinking Mode: la innovación silenciosa de DeepSeek bajo el prisma del confucianismo tecnológico

Hay dos cosas que me han quedado muy claras en el curso que he realizado en Pekín estos días: la primera es que China es muy distinto a todo lo que conocemos en occidente, y la segunda es una extraordinaria mezcla de humildad, capacidad de esfuerzo y bondad que, o bien no saben vender al exterior, o bien (me inclino más hacia esto) no les hace falta.

Cuando hablamos de tecnología, y ya no digamos de Inteligencia Artificial, vivimos sometidos a miles de impactos publicitarios y de marketing que las grandes tecnológicas lanzan, la mayoría de las veces únicamente buscando captar fondos o tranquilizar a inversores.

Mientras tanto, en tecnología, como en tantos otros aspectos de la vida, he podido constatar que China avanza silenciosamente, con pasos firmes.

El 19 de agosto de 2025, sin hacer apenas ruido, DeepSeek publicó en Hugging Face su nuevo modelo DeepSeek-V3.1 bajo licencia MIT, que anunció oficialmente dos días después.

Esta actualización ha traído consigo muchas mejoras, algunas importantes, aunque invisibles para el gran público:

  • Más parámetros: DeepSeek-V3.1 incorpora entre 671 y 685 mil millones de parámetros (los “conectores” internos que permiten aprender y razonar a un modelo). Aunque no llega al billón de OpenAI, supera con creces a LLaMA-3 de Meta, y además resulta extraordinario tratándose de un modelo de código abierto.
  • Mixture-of-Experts (MoE): esta arquitectura, que ya sorprendió en DeepSeek R1 y que muchas otras empresas han copiado, permite que, aunque el modelo sea enorme, solo se activen los parámetros necesarios en cada momento (37 mil millones por token). En la práctica significa más eficiencia: menor coste de uso y respuestas más rápidas.
  • Ventana de contexto reforzada: se mantiene en 128.000 tokens, pero el entrenamiento de V3.1 recibió un dataset mucho mayor (10 veces más para 32K y 3,3 veces más para 128K). Esto se traduce en una mejor capacidad para manejar textos largos sin perder coherencia.

Hybrid Thinking Mode

Ahora bien, la gran novedad es, sin duda, la incorporación del Hybrid Thinking Mode.

Cuando se lanzó DeepSeek R1, ya sorprendió al mostrar la cadena de pensamiento (CoT), algo que otros modelos escondían. V3.1 va un paso más allá: el usuario puede elegir cuándo quiere que el modelo razone y cuándo no, con dos modos claramente diferenciados:

  • Non-Thinking Mode: respuestas rápidas, similares a lo que ofrece ChatGPT en una conversación normal.
  • Thinking Mode: el modelo razona paso a paso y muestra cómo llega a la conclusión. Ideal para problemas complejos, matemáticos o cuando se necesita transparencia.

Estas opciones se activan mediante distintos endpoints (deepseek-chat y deepseek-reasoner) y plantillas de chat que definen el comportamiento.

Creo que el lanzamiento silencioso de DeepSeek-V3.1 marca un verdadero punto de inflexión: no se trata solo de más parámetros o más contexto, sino de poner el control del razonamiento en manos del usuario.

Confucianismo tecnológico

China sigue avanzando con firmeza y discreción. 

No me cabe duda de que otros grandes modelos de lenguaje copiarán esta innovación y lo harán, eso sí, con mucho más ruido mediático.

Podría decirse que la estrategia tecnológica china es casi la materialización de un ideal confuciano en la era digital. Frente al modelo de ruido y apropiación que practican algunos competidores, China opta por una vía más silenciosa pero infinitamente más contundente: la del junzi o hombre superior, quien, como enseñó Confucio, es modesto en el hablar, pero sobresaliente en el obrar

China no anuncia, demuestra. No promete, entrega.

Creo que no es una simple casualidad, sino la esencia de un modus operandi cultural que demuestra que la mirada de China no está puesta en ganar titulares, sino en construir un futuro, sólido y mejor para todos.