MoE: por qué un modelo de 35B parámetros activa solo 3B

En las fichas de los modelos modernos hay una cifra que cada vez aparece más: «35B-A3B», «122B-A10B», «671B-A37B». La primera parte del número se entiende, son los parámetros totales del modelo. La segunda parte, el «A3B» o «A10B», parece un código secreto. Pero contiene el dato más importante a la hora de decidir si ese modelo cabe en tu ordenador o no, y por qué cuesta menos hacerlo correr de lo que cabría esperar.

La «A» significa active. Lo que dice esa cifra es cuántos parámetros se activan realmente cada vez que el modelo procesa una palabra. Y la diferencia entre el número total y el número activado es lo que define la arquitectura llamada MoE, de Mixture of Experts: mezcla de expertos. Está detrás de modelos como Qwen 3.6, DeepSeek V3, Mixtral, GPT-4 (según se ha filtrado) y casi todo lo que ha aparecido en 2025-2026. Es, junto con el escalado puro, la idea técnica que ha cambiado más cosas en el último año.

La metáfora es la del hospital. Imagina un hospital con quinientos especialistas: cardiólogos, neurólogos, oncólogos, traumatólogos, dermatólogos, oftalmólogos, infectólogos, todo. Cuando un paciente entra a urgencias con dolor torácico agudo, no se reúnen los quinientos para decidir qué hacer. Lo atiende el cardiólogo de guardia, quizá con apoyo del internista. Los demás están en sus consultas, en quirófano o en casa. El hospital existe entero, con todos sus especialistas en plantilla, pero en cada caso concreto solo trabaja la parte que toca. Lo demás es capacidad disponible, no recursos consumidos.

Un modelo MoE funciona igual. En lugar de tener una sola red enorme donde todas las neuronas se ponen a calcular cada vez que llega una palabra, el modelo se organiza internamente en grupos llamados expertos. Cada experto es un sub-modelo especializado en cierto tipo de patrones. Ante cada palabra que entra, un componente llamado router, el equivalente al triaje de urgencias, decide qué dos o tres expertos son los más adecuados para procesarla, y solo esos se activan. El resto se queda quieto. La factura de cómputo, la electricidad consumida y la memoria que se necesita en ese instante corresponden únicamente a la fracción activada.

De ahí salen los números aparentemente raros. Un modelo «35B-A3B» tiene treinta y cinco mil millones de parámetros guardados, pero cada predicción solo activa unos tres mil millones. La memoria que necesitas para tener el modelo abierto en RAM es la del total, los treinta y cinco mil millones tienen que estar disponibles, porque nunca sabes qué experto vas a necesitar a continuación, , pero la velocidad a la que responde y la potencia de cómputo que consume son las de un modelo tres veces más pequeño. Es un truco elegante: capacidad de un modelo grande, coste de uno mediano.

El primer modelo MoE que ganó atención fue Mixtral 8x7B, lanzado por Mistral en diciembre de 2023. Tenía ocho expertos de unos siete mil millones de parámetros cada uno, y activaba dos por cada palabra. La gente probó a hacerlo correr en portátiles que jamás habrían soportado un modelo equivalente «denso», y descubrió que volaba. A partir de ahí, la idea ha ido madurando. DeepSeek V3 escaló MoE a 671B totales con 37B activos. Qwen 3 introdujo modelos como el 30B-A3B, donde la diferencia entre total y activo es enorme, ideal para correr en local en máquinas con 64 GB de RAM. Hoy, casi todos los modelos punteros que aparecen tienen MoE en alguna forma.

El precio que se paga es en memoria. Un modelo MoE de 35B parámetros pesa lo mismo en disco que un modelo denso de 35B: hay que descargarlo entero, almacenarlo entero y cargarlo en memoria entero. La RAM o la VRAM tienen que aguantar los 35B, aunque solo se usen 3B en cada paso. Esto es una restricción real para quien quiera correr modelos en local: la diferencia entre poder cargarlo o no la marca el total, no el activo. Pero si lo cargas, su velocidad y consumo eléctrico se parecerán más a los del activo. Es un compromiso curioso: necesitas más memoria de la que crees, y menos potencia de la que crees.

Otra consecuencia, menos comentada pero importante, es que MoE introduce variabilidad en la respuesta. Como diferentes preguntas activan distintos expertos, dos prompts parecidos pueden recorrer caminos internos distintos. En la práctica, esto se traduce en que los modelos MoE pueden ser más o menos consistentes según la pregunta. Algunos expertos están mejor «entrenados» en ciertos dominios, código, idiomas concretos, razonamiento matemático, y los modelos heredan esa especialización. Si una pregunta cae en un dominio donde los expertos relevantes están afilados, la respuesta es excelente. Si cae en una zona menos cubierta, puede flaquear.

La razón por la que MoE se ha vuelto el nuevo estándar es económica. Entrenar y servir un modelo denso de 200B parámetros es prohibitivamente caro. Entrenar un modelo MoE con 200B totales y 30B activos puede dar un rendimiento similar a un sexto del coste de cómputo. Para los grandes proveedores, OpenAI, Anthropic, Google, Meta, eso significa servir más usuarios con la misma infraestructura. Para quienes corremos modelos en local, significa que podemos tener calidades de modelo grande en máquinas mucho más modestas de lo que hace dos años haría falta.

La conclusión práctica es que cuando veas «35B-A3B» en la ficha de un modelo, el primer número te dice la memoria que vas a necesitar, y el segundo te dice la velocidad y el coste energético que va a costarte hacerlo correr. Tener los dos números a la vista es lo que te permite estimar, sin probarlo, si encajará en tu hardware o si tendrás que mirar otro modelo. La cifra de marketing, el total, es la que vende; la otra es la que importa.

Y a ti, ¿ya tienes claro como entender de un vistazo las características que definen un modelo a la hora de instalarlo en tu equipo?