Автоматизация SEO через LLM: архитектура, стек и реальные цифры

Автоматизация SEO через LLM: архитектура, стек и реальные цифры

Когда семантическое ядро разрастается до сотен тысяч запросов, наращивать темп вручную становится дорого и сложно. Логичное решение – не нанимать десяток дополнительных специалистов, а автоматизировать процессы.

Мы приложили это к SEO – так появился пайплайн автоматизации с LLM. Результат – экономия в 3–6 раз и ускорение в 10–15. Разбираем технические подробности и делимся впечатлениями.

Почему вообще решили автоматизировать

Мы выполняли задачу для клиента: за полгода собрать семантику для 500 000 кластеров. Требовалось выстроить структуру, прописать H1 и анкоры, типизировать страницы.

Команда из шести человек за три месяца обработала только 10% запланированного объема. Рентабельность проекта упала до минус 60%, все перерабатывали, качество страдало. Масштабирование классическим способом означало бы найм еще 12–15 человек – с теми же проблемами координации и контроля качества.

Классический SEO-процесс для крупного проекта включает семь этапов:

  • Выгрузка семантики из сервисов в Excel.

  • Ручная чистка от мусора.

  • Кластеризация.

  • Построение структуры.

  • Типизация страниц.

  • Написание метатегов.

  • Формирование анкоров для перелинковки.

  • Каждый этап упирается в технические или человеческие ограничения.

    Keys.so по умолчанию не отдает всю семантику сразу по крупным проектам – приходится выгружать частями. Excel останавливается на миллионе строк, а буксовать начинает уже на 300–500 тысячах. Чистка семантического ядра съедает до 40% времени команды. Построение структуры требует опыта и внимания – делегировать джунам не получится. Типизация страниц, теги и анкоры – рутина, но объемная.

    Что сделали: трехуровневая архитектура

    Выстроили систему, где база данных хранит миллионы запросов, Python-парсер управляет процессом, а LLM обрабатывает данные. Рассказываем подробнее.

    Уровень 1: SQL БД – хранилище и источник данных

    База данных заменяет Excel. Она обеспечивает работу с миллионами строк без пробуксовок, принимает данные по API из Keys.so и JustMagic, сама мэтчит ключи (быстрее и надежнее) и отдает данные порциями для обработки.

    В базе лежит все: сам запрос, частотность, позиции и URL конкурентов из выдачи, категории, номера кластеров, типы страниц, заголовки.

    Уровень 2: Python Parser – оркестратор процесса

    Парсер берет данные из базы, разбивает на фрагменты по 200–300 строк (это лимит LLM), отправляет по API к нейросети, объединяет результаты в общий список.

    Интерфейс парсера позволяет выбрать шаблон задачи (чистка семантики, генерация H1, построение структуры, формирование анкоров), отредактировать промпт, выбирать из сотен доступных моделей, задать размер итерации и количество параллельных запусков.

    Уровень 3: LLM через OpenRouter – обработчик данных

    В OpenRouter можно переключаться между 300+ моделями, мониторить популярность и тренды, работать с единой биллинговой системой.

    По данным платформы, для SEO и маркетинга чаще используют Claude 3.7 Sonnet, GPT-4o-mini, Gemini 2.0 Flash и Gemini 2.0 Flash Lite. Но мы убедились: модели показывают разную точность на конкретных этапах.

    По нашему опыту, для чистки семантики оптимальна Gemini Flash 2, для построения структуры – DeepSeek V3.1, для генерации заголовков – Gemini 2.5 Flash.

    Пайплайн: три блока обработки

    1. Подготовка данных

    Сбор и загрузка

    Запускаем API-парсинг по фрагментам – результаты сразу объединяются в SQL-базе.

    Классификация

    Здесь определяем категорию каждого запроса. Например, «брюки мужские» относятся к одежде и обуви, «палатка 4 местная» – к спорту и отдыху, «кольцо с сапфиром» – к ювелирным украшениям. Это позволяет на старте отсечь нерелевантные категории и сосредоточиться на приоритетных или сезонных.

    Подойдет модель Gemini Flash 2.

    Пример промпта

    «Определи категорию из списка доступных, верни только название без пояснений».

    Чистка семантики

    Задача – отделить коммерческие запросы от мусора. К нему относятся навигационные, информационные и нерелевантные запросы.

    Для максимального качества (но со сниженной скоростью) подойдет DeepSeek V3. Для баланса «быстро/качественно» – Gemini Flash 2.

    Важно: на этом этапе делаем «сверку с реальностью»: контролируем, что LLM не потеряла важное. Это не полностью ручная работа, а выборочный контроль 5–10% результата. Его стоит поручить миддлу или сеньору.

    2. Структурирование запросов

    Кластеризация

    Сгруппировать запросы по интенту – задача, которая пока не под силу LLM. Поэтому берем проверенные инструменты: Key Collector, Rush Analytics, Топвизор, собственные алгоритмы.

    Сцепка дублей

    LLM находит и объединяет кластеры, которые идентичны по смыслу. С разным порядком слов как в «брюки мужские» и «мужские брюки», «куртка зимняя женская» и «зимняя женская куртка», или с однокоренными, как в «кольцо с сапфиром» и «сапфировое кольцо».

    Здесь хороша модель Gemini 2.5 Flash – она быстрая, дает минимум потерь.

    Типизация страниц

    Теперь нужно определить тип страницы для каждого кластера – от этого зависят шаблон, структура URL и стратегия продвижения.

    Используем DeepSeek V3.1, ведь тут важна точность.

    3. Логика страниц

    Формирование H1

    Написать заголовок для каждой страницы – задача, где нужна естественность. Для этого важно учитывать ряд нюансов: язык написания бренда, регистр и порядок слов, число (единственное или множественное) как в запросе.

    Модель Gemini 2.5 Flash на этом этапе быстро выдает приемлемое качество. Но может потребоваться итеративная доработка:

    прогнали модель → сравнили результат с ручным эталоном → зафиксировали типовые ошибки → уточнили правила в промпте.

    Повторяем, пока не останемся довольны уровнем.

    Построение структуры

    Теговые страницы нужно привязать к категориям и построить иерархию – тут логика важнее скорости.

    Пример: тег «Колье из жемчуга» можно отправить к «украшениям из жемчуга» или к «ювелирным колье». Нам нужна вторая категория: товарный класс важнее материала.

    DeepSeek V3.1 – самая точная модель для проработки структуры.

    Что получили: цифры и сравнение

    Проект, с которым мы работали – топ-10 e-commerce в России. Брали категорию «одежда и обувь». За три месяца с автоматизацией обработали 450 000 кластеров (без ИИ было бы 50 000). Создали 690 000 новых страниц, проработали 19 000 категорий. Общий объем семантики – 6 млн запросов.

    Важно: автоматизация выгодна не всегда.

    Настройка пайплайна съест около 100 ч и 200 000 ₽. Вложения начинают окупаться от 1000, а кратная экономия получается только от 10 000 кластеров. На масштабах 100 000+ вручную вообще нереально уложиться в разумный срок – здесь однозначно нужно автоматизировать.

    Ограничения автоматизации

    Использование LLM в SEO не отменяет работу специалистов. Их задача – управлять автоматизацией и включаться на этапах, где без ручного контроля и корректировок масштабирование не имеет смысла.

    Вот почему без работы руками не обойтись.

    ​​LLM по умолчанию не погружены в бизнес

    Они не учитывают колебания спроса, фактический ассортимент и ограничения брендов. Модели могут сгенерировать структуру под отсутствующие товары или «мимо сезона». Поэтому обязательно – проверка 5–10% результата и корректировка промптов под нишу.

    API могут падать

    В тестах GPT-4o показывал до 32% сбоев API, Qwen3 – порядка 20% потерь данных. Поэтому важно использовать устойчивые модели (Gemini, Claude, DeepSeek), иметь под рукой резервные варианты и логировать все запросы.

    Кластеризация – слабое место LLM

    Искусственный интеллект пока нестабильно справляется с кластеризацией запросов по интенту. Поэтому нужны проверенные сервисы (Topvisor, Rush Analytics, Key Collector) и грамотные специалисты, которые смогут с ними работать.

    Модели не универсальны

    Ошибка – использовать одну LLM для всего. Этапы требуют разных приоритетов: для чистки семантики это скорость и цена, для структуры и типизации – максимальная точность, для H1 – баланс качества и времени. Задача специалиста – подобрать модель под задачу.

    Промпты тоже не универсальны

    Логика группировки зависит от ниши. Для ювелирных сайтов «кольцо с сапфиром» – это категория «Кольца». В одежде цветовые признаки работают как теги. Решает поэтапное тестирование и доработка промптов.

    Главный принцип автоматизации:

    не заменять людей, а дать им инструменты для работы с нечеловеческими объемами.

    Оригинал статьи на SEOnews

    Источник: seonews.ru