← Volver al blog

Comparativa LLMs para SEO: 7 modelos cloud y local medidos en 168 fichas reales

Benchmark real de 7 modelos LLM escribiendo fichas SEO. Quality score, tokens/seg, coste por ficha. Ganador y por qué.

Por SeoNova · Publicado · 8 min de lectura
Gráfico de barras comparando 7 modelos LLM (Qwen3-235B, GLM-4.7, GPT-OSS-120B, Gemini Flash, Qwen3:14b local, Mistral Medium, Qwen3:8b local) con sus quality score. Qwen3-235B vía Cerebras marcado como ganador.
Gráfico de barras comparando 7 modelos LLM (Qwen3-235B, GLM-4.7, GPT-OSS-120B, Gemini Flash, Qwen3:14b local, Mistral Medium, Qwen3:8b local) con sus quality score. Qwen3-235B vía Cerebras marcado como ganador.

Llevamos 8 meses orquestando proveedores de LLM (“IAs”) para escribir contenido SEO. Hemos probado más de 15 modelos distintos en producción real (no en benchmarks sintéticos). Este post es la tabla comparativa que nos hubiera gustado encontrar hace un año.

168 fichas SEO de directorio, 7 modelos, 8 nichos distintos. Cada ficha medida por un evaluator LLM independiente. Vamos al grano.

La tabla resumen

ModeloQualitySpeed (tok/s)Coste/fichaCuándo usarlo
Qwen3-235B-A22B (Cerebras)8.41500~$0,002Producción primaria
GLM-4.7 (SiliconFlow)7.680~$0,003Research/extracción
GPT-OSS-120B (Groq)7.2500free*Secundario, no primario
Gemini 2.5 Flash6.9200~$0,001Tareas creativas
Qwen3:14b Q6_K (Ollama local)6.540~€0Horas valle, fallback
Mistral Medium (free)5.9150free*Inviable producción
Qwen3:8b (Ollama local)5.260~€0Research barato solo

*free con rate limits que rompen producción.

Metodología

Para que la tabla anterior sea fiable, importa cómo se midió:

Las 168 fichas

  • 8 nichos distintos elegidos a propósito: dentista, mecánico, restaurante japonés, gimnasio, abogado de tráfico, peluquería, fontanero, gestoría.
  • 7 modelos × 8 nichos × 3 fichas por nicho = 168 fichas totales.
  • Mismo prompt base, misma plantilla SEO (H1 ≤ 60 chars, 2-3 H2, bullets, negrita en datos clave, schema JSON-LD), mismo research previo.
  • Solo cambiaba el modelo que escribía la fase 2 (primer borrador). Las fases 1, 3 y 4 quedaron idénticas.

El evaluator

Cada ficha la calificó GLM-4.7 actuando de juez. Devuelve un objeto JSON con:

{
  "score": 7.4,
  "checks": {
    "h1_length_ok": true,
    "bold_data_present": true,
    "internal_links_count": 3,
    "factual_consistency": true,
    "schema_valid": true
  },
  "issues": ["Falta CTA al final", "H2 número 2 muy genérico"]
}

Para asegurar que GLM-4.7 no se autopuntuaba mejor, hicimos cruce: 50 fichas escritas por GLM-4.7 evaluadas por Qwen3-235B (otro evaluator). Diferencia media: 0.18 puntos. Suficiente para confiar.

El humano blind test

50 fichas aleatorias del conjunto fueron calificadas también por 3 humanos (un freelance SEO, una redactora especializada, un desarrollador WordPress). Correlación entre LLM-judge y media humana: 0.86. No es perfecta, pero es alta.

Top de la lista: Qwen3-235B vía Cerebras

El número 1 con diferencia. 8.4/10 de calidad media, 1.500 tokens/segundo, $0,002 por ficha completa.

¿Por qué pega tan duro?

  • Modelo grande. 235B parámetros con MoE (Mixture of Experts: activa solo 22B en cada paso, lo que abarata el cómputo manteniendo capacidad).
  • Entrenado para SEO/redacción. Alibaba (creador de Qwen) lo entrenó con mucho texto comercial y técnico. Se nota.
  • Cerebras infrastructure. Sus chips WSE-3 son obscenamente rápidos comparados con GPU NVIDIA. 1.500 tok/s significa que una ficha completa (2.500 tokens output) se genera en ~1,7 segundos.

El asterisco: Cerebras va a retirar Qwen3-235B el 27 de mayo de 2026. Sí, fecha pasada — ya nos pilló. Hay que migrar a alguno de los siguientes en la cadena, o esperar a que llegue Qwen3 v2.

Plata: GLM-4.7

7.6/10. Modelo chino de Zhipu AI. Servido por SiliconFlow con $5 de crédito gratis al darte de alta.

Su superpoder: research y extracción (sacar datos de páginas HTML, RSS, PDFs y devolverlos en JSON estructurado). En esa tarea concreta saca 8.1/10, por encima de Qwen3-235B.

Por eso lo usamos en la fase 1 del pipeline (explicado en el post de los 9 LLMs), no en la fase 2 de redacción.

El sorpresa: Ollama local 14B

Esto no me lo esperaba al empezar el benchmark.

Qwen3:14b cuantizado a Q6_K (Q6_K es un formato de cuantización: reduce el tamaño del modelo de 28GB a ~12GB con pérdida mínima de calidad, sirve para que entre en GPU consumer) corriendo en nuestra RTX 5060 Ti 16GB saca 6.5/10.

6.5 está por encima de nuestro threshold mínimo de publicación (6.0). Significa que una GPU de gaming de 580 € nos da un fallback que sirve para producción sin pagar absolutamente nada de API.

Throughput: 8-12 fichas/hora. No es brutal, pero corriendo en horas valle (madrugada española, día asiático) saca ~120 fichas/día.

Combinación práctica: durante el día va Cerebras + SiliconFlow, durante la noche se rota a Ollama local. La factura cloud baja un 40 % sin pérdida de output.

El perdedor evitable: Mistral Medium free

Mistral lanzó una capa free generosa en mayo 2026, anunciando “modelo medium gratis con buenos rate limits”.

La probamos como primario una semana. Resultado:

  • Calidad 5.9/10. Por debajo de nuestro threshold publicable (6.0). Cerca de un tercio de las fichas iban a reescritura forzada.
  • 429 constantes. El “rate limit generoso” eran ~10 peticiones/minuto. Para producción de 200 fichas/día son ~14 peticiones/hora, en picos sube a 30/hora. Petaba.
  • Inconsistencia. El modelo era distinto en horas distintas (nuestra sospecha: A/B testing interno de Mistral).

Reversión al sexto día. Mistral Medium queda como 5º o 6º en la cadena de fallover, nunca primario.

Coste real total

Para procesar 6.000 fichas/mes (200/día × 30) con calidad media ≥ 7.5:

SetupCoste mensual
Solo cloud paid (Cerebras + SiliconFlow + Gemini)$40-60
Híbrido (cloud horas pico + Ollama horas valle)$25-40
Solo Ollama local (RTX 5060 Ti)~€30 luz
Solo OpenAI GPT-4o-mini~$220
Solo GPT-4 turbo~$900

Sí, has leído bien. La ratio entre “stack inteligente” y “solo OpenAI” es de 20×.

Lo que NO está en esta tabla y debería estarlo

Tres modelos que probamos pero no salieron en la comparativa final:

  • Claude 3.7 Sonnet (Anthropic): quality ~8.5, pero coste 30× el de Cerebras. Inviable para nuestro volumen actual.
  • DeepSeek V3: quality ~7.4, pero la API tenía downtime semanal cuando hicimos el test. Ahora dicen estar estables.
  • NuExtract:3.8b (Ollama local): específico para extracción. Lo probamos en research y mezclaba datos de empresas distintas — descartado, no fiable.

Conclusiones rápidas

  1. El modelo más caro NO es el más rentable. En SEO de directorios, Qwen3-235B vía Cerebras supera a GPT-4 turbo a 20× menos coste.
  2. Combina cloud + local. La GPU consumer ya no es opcional, es ahorro real.
  3. Mide ficha a ficha, no por intuición. Un LLM-as-judge consistente + cruce humano = data accionable.
  4. Free tier es fallback, no primario. Si tu negocio depende de free tier, no es un negocio.

Quieres probar este stack sin montarlo

Lo que acabas de leer es exactamente lo que automatiza SeoNova: tú conectas tu WordPress y la pipeline gestiona los 9 modelos, el fail-over, el evaluator y el schema. Sin Ollama, sin API keys, sin scheduler.

Únete a la waitlist con 50 % de descuento los 3 primeros meses. Lanzamos en otoño 2026.

Preguntas frecuentes

Las dudas que más nos llegan sobre este tema

¿Por qué Cerebras y no OpenAI directamente?
Tres motivos. Velocidad: Cerebras sirve Qwen3-235B a 1.500 tokens/segundo (OpenAI GPT-4 está en 50-100 tokens/seg). Calidad: Qwen3-235B-A22B saca ~8.4 vs GPT-4o ~8.6 en nuestros tests, prácticamente empate. Coste: Cerebras Dev Tier son $10 prepago que duran ~2 semanas en producción nuestra; con OpenAI mismo throughput cuesta $900/mes. Si haces volumen, la cuenta es brutal.
¿Cómo medisteis la calidad sin sesgar el resultado?
Cada ficha la evalúa un modelo distinto al que la escribió (LLM-as-judge). Por defecto usamos GLM-4.7 como evaluator porque puntúa duro y consistente. El judge devuelve 0-10 + lista estructurada de fallos (H1 fuera de rango, falta negrita, internal linking pobre, etc.). Para validar que el judge no estaba sesgado, hicimos doble blind con humanos en 50 fichas aleatorias: correlación 0.86, suficientemente alta.
¿GPT-OSS-120B en Groq vale la pena?
Sí, pero con asterisco. El modelo es open-source de Meta, calidad sólida (7.2 en nuestros tests), y Groq lo sirve gratis hasta cierto throughput. Problema: el free tier de Groq tiene rate limits agresivos en horas pico (429 cada 3-4 peticiones). Lo usamos como segundo de la cadena, no como primario.
¿Compensa montar Ollama local en vez de pagar cloud?
Depende del volumen y del horario. Si tu negocio acepta que la generación tarde más en horas valle, Ollama local con una GPU de 16GB (RTX 4070 Ti / 5060 Ti) saca 8-12 fichas/hora con calidad ~6.5/10. Coste marginal: ~30 € de luz al mes. Si necesitas 200+ fichas/día constantes en horas concretas, necesitas cloud sí o sí — el local no llega.
¿Qué pasó con Mistral free que casi no aparece?
Mistral lanzó una capa free generosa en mayo 2026 y la probamos como primario una semana. Resultado: 429 constantes (rate limit) + calidad 5.9 vs ~7.5 de Cerebras. Lo revertimos al sexto día. Free tier para experimentación está bien, para producción no aguanta.

Sigue leyendo

Más posts del blog que te pueden interesar