← Volver al blog

Directorios SEO con 9 IAs en paralelo: cómo escribimos 200 fichas al día sin tocar una

Cómo orquestamos 9 modelos de lenguaje en paralelo para investigar, redactar y validar fichas de directorio SEO. Caso real, arquitectura y métricas.

Por SeoNova · Publicado · 7 min de lectura
9 nodos con nombres de modelos LLM (GPT-OSS, Qwen3, GLM-4.7, Llama, Mistral, Gemini, Cohere, Cloudflare, Ollama) conectados con líneas hacia una ficha generada con etiqueta SCHEMA OK.
9 nodos con nombres de modelos LLM (GPT-OSS, Qwen3, GLM-4.7, Llama, Mistral, Gemini, Cohere, Cloudflare, Ollama) conectados con líneas hacia una ficha generada con etiqueta SCHEMA OK.

Llevamos 14 meses gestionando 8 sitios de directorio sin un solo redactor humano en plantilla. Entre todos suman más de 45.000 fichas publicadas. Y la calidad media —medida ficha a ficha— es 7.6/10. Este post explica cómo está montado por dentro, qué proveedores LLM (los modelos de lenguaje, las “IAs”) usamos y por qué nueve a la vez en lugar de uno.

Si vienes pensando que esto va a ser “metemos GPT-4 y a correr”, spoiler: el modelo es lo de menos. Lo que mueve la aguja es la pipeline y la orquestación.

La cifra que importa

200 fichas por día, por sitio. Si lo escalas mentalmente: 8 sitios × 200 fichas/día × 30 días = 48.000 fichas al mes. Para hacer eso con humanos necesitarías unos 20 redactores a jornada completa (asumiendo 10 fichas/día por persona). En Madrid, eso son ~50.000 € al mes solo en nóminas.

Nuestra factura LLM mensual: entre 40 € y 90 € según el mes. El resto es Cloudflare gratis, hosting compartido y una GPU NVIDIA RTX 5060 Ti que compramos en abril por 573 €.

Por qué 9 modelos y no 1

Cuando arrancamos hace 14 meses, lo intentamos con GPT-4 turbo y nada más. Tres problemas en la primera semana:

  1. Rate limits agresivos. Tier 1 te da ~3.500 tokens/min. Para una ficha de directorio (1.500 palabras = 2.000 tokens) que incluye research previo + escritura + corrección, son ~8.000 tokens. Te quedas en 25 fichas/día con suerte.
  2. Coste. GPT-4 turbo a $10/MTok input + $30/MTok output. Una ficha completa cuesta ~$0,15. 200 fichas/día × $0,15 = $30/día = $900/mes. Insostenible.
  3. Cero resiliencia. Si la API de OpenAI tiene incidente (les pasa cada 3-4 semanas), tu pipeline se para. No queda otra que esperar.

La solución fue obvia pero costosa de implementar: pool rotativo de proveedores. La aplicación tiene una lista priorizada de modelos. Si el primero falla o satura, salta al siguiente sin que se pierda la ficha.

El stack de 9 proveedores

A día de hoy (junio 2026), nuestra cadena por defecto está formada por:

  1. Cerebras Qwen3-235B-A22B — el rey en calidad/velocidad. Inferencia a 1.500 tokens/segundo (sí, 1.500). El Dev Tier de Cerebras cuesta $10 prepago.
  2. Groq GPT-OSS-120B — modelo open-source de Meta, muy bueno en reasoning. Free tier generoso.
  3. SiliconFlow GLM-4.7 — modelo chino de Zhipu, brutal para research y extracción de datos. Crédito inicial gratis.
  4. Mistral Medium — solo si los tres anteriores fallan. Free tier estricto.
  5. Google Gemini 2.5 Flash — sólido para tareas creativas.
  6. Cohere Command R+ — bueno para clasificación y resúmenes.
  7. Cloudflare Workers AI — modelos pequeños (Llama 3.1 8B) en el edge, muy baratos.
  8. Ollama Qwen3:14b Q6_K (local) — corre en nuestra GPU. 8-12 fichas/hora, gratis.
  9. Ollama Qwen2.5:7b (local) — para tareas de extracción rápida (research).

Los modelos locales (Ollama es un runtime que corre LLMs en tu propia máquina) son el seguro de vida. Si todos los cloud se caen a la vez (nos ha pasado dos veces), los locales siguen produciendo. Coste por ficha: 0 € (luz aparte).

La pipeline: 4 fases por ficha

Una ficha no se escribe en una sola llamada al LLM. Se compone:

Fase 1 — Research

El sistema busca información real sobre la entidad (negocio, lugar, producto) en motores como Brave Search API y Firecrawl. Saca 3-5 fuentes contrastadas, las extrae con un modelo pequeño (GLM-4.7 o NuExtract) y devuelve JSON estructurado: nombre, dirección, horarios, servicios, reviews.

Tiempo: ~6 segundos. Tokens: ~3.000 input + ~500 output.

Fase 2 — Primer borrador

Un modelo grande (Qwen3-235B vía Cerebras, normalmente) toma el JSON de research + un prompt de plantilla SEO + las directrices del nicho del directorio, y escribe la ficha completa con H1, H2, H3 (los encabezados HTML que estructuran un documento), bullets, párrafos cortos y CTA.

Tiempo: ~3 segundos (Cerebras es muy rápido). Tokens: ~4.000 input + ~2.500 output.

Fase 3 — Evaluación

Otro LLM, distinto del que escribió, actúa de judge (juez). Lee la ficha, contrasta con la fuente, mira H1 longitud, presencia de negrita, internal linking, alt en imágenes, longitud total, y devuelve un score 0-10 + lista de fallos.

Si el score < 6.5 → vuelve a fase 2 con feedback. Si el score ≥ 6.5 → pasa a fase 4.

Tiempo: ~2 segundos. Tokens: ~5.000 input + ~300 output.

Fase 4 — Publicación

La ficha se publica vía la REST API de WordPress con autenticación por Application Passwords (guía aquí), se generan los schemas JSON-LD (los datos estructurados que Google lee para entender de qué va la página) y se notifica a Bing y Google vía IndexNow (explicación aquí).

Tiempo total ficha completa: ~15 segundos.

El secreto: adaptive concurrency

El problema gordo es que los proveedores se saturan. Si lanzas 50 fichas a Cerebras a la vez en su Dev Tier, te empieza a tirar 429 (Too Many Requests).

Nuestro scheduler (el componente que decide qué se ejecuta cuando) ajusta la concurrencia en vivo:

  • Empieza con 4 workers paralelos.
  • Si el ratio de 429 sube del 5 %, baja a 2.
  • Si todo va fino durante 5 minutos, sube a 6.
  • Si el modelo local Ollama empieza a swappear (la GPU se queda sin memoria), baja a 1 worker local.

Esto es lo que separa un script casero de un sistema de producción.

¿Por qué importa el schema JSON-LD?

Una ficha sin schema JSON-LD (los datos estructurados de Schema.org, que Google usa para entender el contenido) es invisible para AI Overviews, ChatGPT search, Perplexity y Bing Generative. El schema le dice a la IA: “esto es un negocio local, está en esta dirección, abre estos horarios, tiene esta valoración”.

Nuestro sistema mete schema automático en cada ficha según el tipo de directorio:

  • Directorio de negocios → LocalBusiness + PostalAddress + OpeningHoursSpecification + AggregateRating
  • Directorio de productos → Product + Offer + AggregateRating
  • Directorio de eventos → Event + Place + Offer

Schema bien metido es lo que mete tu ficha en las respuestas AI sin tener autoridad de marca todavía.

Lo que aprendimos por las malas

Tres lecciones que nos costaron caras:

1. La calidad no la pone el modelo más caro. Probamos GPT-4o, Claude 3.7 Sonnet, Qwen3-235B, GLM-4.7. La diferencia en calidad media del output era de 0.3 puntos sobre 10. La diferencia de coste, de 20× a 50×. Conclusión: la pipeline pesa más que el modelo.

2. El fail-over tiene que ser silencioso. Si una ficha tarda 12 segundos en vez de 5 porque el primer proveedor se cayó, no pasa nada. Si el sistema se planta y devuelve un 500 al usuario, sí pasa. La cadena de modelos debe ser invisible.

3. Free tier ≠ producción. Probamos Mistral free + Cloudflare free como primarios durante una semana. Throughput → 30 % del esperado. Volvimos a pin Cerebras/SiliconFlow como primarios. Free tier es bueno como fallback, no como cabeza de cadena.

Lo que viene en SeoNova

Todo esto que acabas de leer es lo que estamos empaquetando dentro de SeoNova. La idea es que cualquiera con una WordPress instalada pueda conectar su sitio, elegir nicho, y empezar a generar fichas con la misma pipeline que llevamos 14 meses afinando.

Sin tener que montar Ollama, sin gestionar 9 API keys, sin escribir el scheduler. Solo apuntar al WordPress, marcar el tipo de directorio y esperar.

Si te interesa, únete a la waitlist con 50 % de descuento durante los 3 primeros meses. Lanzamos en otoño 2026.

Preguntas frecuentes

Las dudas que más nos llegan sobre este tema

¿Por qué 9 modelos y no uno solo?
Por dos motivos. Primero, ningún proveedor cloud aguanta 200 peticiones/día sin rate limits agresivos en tier gratuito o barato. Segundo, cada modelo es mejor en una tarea distinta: Qwen3-235B vía Cerebras es brutal para redacción larga, GLM-4.7 da el mejor research/extracción, y los modelos locales Ollama valen para tareas baratas (clasificación, formato). Combinándolos pagas menos y ganas resiliencia.
¿No saca el contenido peor que un redactor humano?
Para un nicho técnico avanzado, sí — un experto humano siempre gana. Para un directorio masivo (datos verificables, formato estándar, miles de fichas), la IA con buena pipeline iguala o supera al redactor freelance medio. Hicimos el test ciego con 30 fichas y nuestro evaluator independiente: la calidad IA fue 7.4 vs 7.1 humano. La diferencia es que la IA cuesta 80 % menos y va 50× más rápido.
¿Cómo evitáis que Google considere esto 'spam de contenido IA'?
Google penaliza *contenido escalado sin valor* — no IA en sí. Tres salvavidas: (1) cada ficha lleva datos verificables únicos (NAP, horarios, precios), (2) cada nicho tiene investigación real con citaciones, (3) el schema JSON-LD declara el tipo `LocalBusiness` o equivalente con `AggregateRating` real. Google ya confirmó en marzo 2024 que penaliza el resultado, no el método.
¿Por qué meter Ollama local si los cloud son rápidos?
Por costo y por *fail-open*. Si todos los cloud satúran simultáneamente, los locales siguen produciendo. En nuestro stack, el local procesa ~30 % de las fichas en horas valle. El coste marginal es 0 € (luz aparte). Con una RTX 5060 Ti 16 GB y Qwen3:14b Q6_K hacemos 8-12 fichas por hora con calidad 6.5/10.
¿Cuánto cuesta montar algo similar?
Si tiras solo de tier gratuito de los providers + un Ollama local en tu PC, **0 € al mes**. Si quieres throughput de producción (≥200 fichas/día estables), Cerebras Dev Tier cuesta $10 prepago que duran ~2 semanas, SiliconFlow tiene crédito inicial gratis $5. Total marginal: $20-40/mes para 6.000 fichas/mes con calidad media 7.5+.

Sigue leyendo

Más posts del blog que te pueden interesar