Comparativa LLMs para SEO: 7 modelos cloud y local medidos en 168 fichas reales
Benchmark real de 7 modelos LLM escribiendo fichas SEO. Quality score, tokens/seg, coste por ficha. Ganador y por qué.
Resumen
- El experimento: 168 fichas SEO de directorio escritas por 7 modelos distintos, distribuidas en 8 nichos (negocios locales, productos, eventos). Cada ficha evaluada por un judge LLM independiente.
- El ganador: Qwen3-235B-A22B vía Cerebras, 8.4/10 de calidad media + 1.500 tokens/segundo.
- El segundo: GLM-4.7 vía SiliconFlow, 7.6/10, mejor en research/extracción puro.
- La sorpresa: Qwen3:14b corriendo en Ollama local (GPU consumer) saca 6.5/10 — bastante por encima del floor aceptable.
- El perdedor evitable: Mistral Medium free, 5.9/10 con 429s constantes. Inviable como primario.
- Coste real: desde $0/mes (Ollama puro) hasta $40-90/mes (cadena cloud paid de producción).
Llevamos 8 meses orquestando proveedores de LLM (“IAs”) para escribir contenido SEO. Hemos probado más de 15 modelos distintos en producción real (no en benchmarks sintéticos). Este post es la tabla comparativa que nos hubiera gustado encontrar hace un año.
168 fichas SEO de directorio, 7 modelos, 8 nichos distintos. Cada ficha medida por un evaluator LLM independiente. Vamos al grano.
La tabla resumen
| Modelo | Quality | Speed (tok/s) | Coste/ficha | Cuándo usarlo |
|---|---|---|---|---|
| Qwen3-235B-A22B (Cerebras) | 8.4 | 1500 | ~$0,002 | Producción primaria |
| GLM-4.7 (SiliconFlow) | 7.6 | 80 | ~$0,003 | Research/extracción |
| GPT-OSS-120B (Groq) | 7.2 | 500 | free* | Secundario, no primario |
| Gemini 2.5 Flash | 6.9 | 200 | ~$0,001 | Tareas creativas |
| Qwen3:14b Q6_K (Ollama local) | 6.5 | 40 | ~€0 | Horas valle, fallback |
| Mistral Medium (free) | 5.9 | 150 | free* | Inviable producción |
| Qwen3:8b (Ollama local) | 5.2 | 60 | ~€0 | Research barato solo |
*free con rate limits que rompen producción.
Metodología
Para que la tabla anterior sea fiable, importa cómo se midió:
Las 168 fichas
- 8 nichos distintos elegidos a propósito: dentista, mecánico, restaurante japonés, gimnasio, abogado de tráfico, peluquería, fontanero, gestoría.
- 7 modelos × 8 nichos × 3 fichas por nicho = 168 fichas totales.
- Mismo prompt base, misma plantilla SEO (H1 ≤ 60 chars, 2-3 H2, bullets, negrita en datos clave, schema JSON-LD), mismo research previo.
- Solo cambiaba el modelo que escribía la fase 2 (primer borrador). Las fases 1, 3 y 4 quedaron idénticas.
El evaluator
Cada ficha la calificó GLM-4.7 actuando de juez. Devuelve un objeto JSON con:
{
"score": 7.4,
"checks": {
"h1_length_ok": true,
"bold_data_present": true,
"internal_links_count": 3,
"factual_consistency": true,
"schema_valid": true
},
"issues": ["Falta CTA al final", "H2 número 2 muy genérico"]
}
Para asegurar que GLM-4.7 no se autopuntuaba mejor, hicimos cruce: 50 fichas escritas por GLM-4.7 evaluadas por Qwen3-235B (otro evaluator). Diferencia media: 0.18 puntos. Suficiente para confiar.
El humano blind test
50 fichas aleatorias del conjunto fueron calificadas también por 3 humanos (un freelance SEO, una redactora especializada, un desarrollador WordPress). Correlación entre LLM-judge y media humana: 0.86. No es perfecta, pero es alta.
Top de la lista: Qwen3-235B vía Cerebras
El número 1 con diferencia. 8.4/10 de calidad media, 1.500 tokens/segundo, $0,002 por ficha completa.
¿Por qué pega tan duro?
- Modelo grande. 235B parámetros con MoE (Mixture of Experts: activa solo 22B en cada paso, lo que abarata el cómputo manteniendo capacidad).
- Entrenado para SEO/redacción. Alibaba (creador de Qwen) lo entrenó con mucho texto comercial y técnico. Se nota.
- Cerebras infrastructure. Sus chips WSE-3 son obscenamente rápidos comparados con GPU NVIDIA. 1.500 tok/s significa que una ficha completa (2.500 tokens output) se genera en ~1,7 segundos.
El asterisco: Cerebras va a retirar Qwen3-235B el 27 de mayo de 2026. Sí, fecha pasada — ya nos pilló. Hay que migrar a alguno de los siguientes en la cadena, o esperar a que llegue Qwen3 v2.
Plata: GLM-4.7
7.6/10. Modelo chino de Zhipu AI. Servido por SiliconFlow con $5 de crédito gratis al darte de alta.
Su superpoder: research y extracción (sacar datos de páginas HTML, RSS, PDFs y devolverlos en JSON estructurado). En esa tarea concreta saca 8.1/10, por encima de Qwen3-235B.
Por eso lo usamos en la fase 1 del pipeline (explicado en el post de los 9 LLMs), no en la fase 2 de redacción.
El sorpresa: Ollama local 14B
Esto no me lo esperaba al empezar el benchmark.
Qwen3:14b cuantizado a Q6_K (Q6_K es un formato de cuantización: reduce el tamaño del modelo de 28GB a ~12GB con pérdida mínima de calidad, sirve para que entre en GPU consumer) corriendo en nuestra RTX 5060 Ti 16GB saca 6.5/10.
6.5 está por encima de nuestro threshold mínimo de publicación (6.0). Significa que una GPU de gaming de 580 € nos da un fallback que sirve para producción sin pagar absolutamente nada de API.
Throughput: 8-12 fichas/hora. No es brutal, pero corriendo en horas valle (madrugada española, día asiático) saca ~120 fichas/día.
Combinación práctica: durante el día va Cerebras + SiliconFlow, durante la noche se rota a Ollama local. La factura cloud baja un 40 % sin pérdida de output.
El perdedor evitable: Mistral Medium free
Mistral lanzó una capa free generosa en mayo 2026, anunciando “modelo medium gratis con buenos rate limits”.
La probamos como primario una semana. Resultado:
- Calidad 5.9/10. Por debajo de nuestro threshold publicable (6.0). Cerca de un tercio de las fichas iban a reescritura forzada.
- 429 constantes. El “rate limit generoso” eran ~10 peticiones/minuto. Para producción de 200 fichas/día son ~14 peticiones/hora, en picos sube a 30/hora. Petaba.
- Inconsistencia. El modelo era distinto en horas distintas (nuestra sospecha: A/B testing interno de Mistral).
Reversión al sexto día. Mistral Medium queda como 5º o 6º en la cadena de fallover, nunca primario.
Coste real total
Para procesar 6.000 fichas/mes (200/día × 30) con calidad media ≥ 7.5:
| Setup | Coste mensual |
|---|---|
| Solo cloud paid (Cerebras + SiliconFlow + Gemini) | $40-60 |
| Híbrido (cloud horas pico + Ollama horas valle) | $25-40 |
| Solo Ollama local (RTX 5060 Ti) | ~€30 luz |
| Solo OpenAI GPT-4o-mini | ~$220 |
| Solo GPT-4 turbo | ~$900 |
Sí, has leído bien. La ratio entre “stack inteligente” y “solo OpenAI” es de 20×.
Lo que NO está en esta tabla y debería estarlo
Tres modelos que probamos pero no salieron en la comparativa final:
- Claude 3.7 Sonnet (Anthropic): quality ~8.5, pero coste 30× el de Cerebras. Inviable para nuestro volumen actual.
- DeepSeek V3: quality ~7.4, pero la API tenía downtime semanal cuando hicimos el test. Ahora dicen estar estables.
- NuExtract:3.8b (Ollama local): específico para extracción. Lo probamos en research y mezclaba datos de empresas distintas — descartado, no fiable.
Conclusiones rápidas
- El modelo más caro NO es el más rentable. En SEO de directorios, Qwen3-235B vía Cerebras supera a GPT-4 turbo a 20× menos coste.
- Combina cloud + local. La GPU consumer ya no es opcional, es ahorro real.
- Mide ficha a ficha, no por intuición. Un LLM-as-judge consistente + cruce humano = data accionable.
- Free tier es fallback, no primario. Si tu negocio depende de free tier, no es un negocio.
Quieres probar este stack sin montarlo
Lo que acabas de leer es exactamente lo que automatiza SeoNova: tú conectas tu WordPress y la pipeline gestiona los 9 modelos, el fail-over, el evaluator y el schema. Sin Ollama, sin API keys, sin scheduler.
Únete a la waitlist con 50 % de descuento los 3 primeros meses. Lanzamos en otoño 2026.
Preguntas frecuentes
Las dudas que más nos llegan sobre este tema
¿Por qué Cerebras y no OpenAI directamente?
¿Cómo medisteis la calidad sin sesgar el resultado?
¿GPT-OSS-120B en Groq vale la pena?
¿Compensa montar Ollama local en vez de pagar cloud?
¿Qué pasó con Mistral free que casi no aparece?
Sigue leyendo
Más posts del blog que te pueden interesar
- IA aplicada al SEO
Directorios SEO con 9 IAs en paralelo: cómo escribimos 200 fichas al día sin tocar una
Cómo orquestamos 9 modelos de lenguaje en paralelo para investigar, redactar y validar fichas de directorio SEO. Caso real, arquitectura y métricas.
7 min de lectura - SEO Técnico
En 2026, Bing nos trae casi 3 veces más tráfico que Google. Aquí están los datos.
8 sitios reales: Bing aporta el 74,5% del tráfico SEO total. Por qué Bing rinde más que Google en 2026 y qué hacer en tu web.
6 min de lectura - WPO WordPress
El orden de invalidación de cachés en WordPress + Cloudflare que NO te explican
Cómo purgar 5 capas de caché en WordPress (OPcache, Object Cache, WP Rocket, LiteSpeed, Cloudflare) sin servir contenido viejo. Orden exacto.
9 min de lectura