Управление индексацией малополезных для пользователей страниц

В индексе должны находиться только полезные посадочные страницы. Но туда регулярно попадают технические страницы, страницы без контента и дубли. Их нужно удалять!

Что такое индексация

Индексацией называют добавление информации о страницах сайта в базу данных поисковой системы, которую называют «поисковым индексом».

Поисковые системы и владельцы сайтов заинтересованы, чтобы в индексе находились только посадочные страницы (важные страницы с полезным для потенциального покупателя контентом), например, с информацией о выгодах приобретения и преимуществах использования товаров или услуг.

Однако, в индекс с определенным постоянством также попадают страницы без контента, технические страницы, страницы с дублями контента и т.д. Подобные страницы бесполезны для целевых посетителей сайта и их необходимо периодически из индекса удалять.

Какие страницы считаются бесполезными

Вот основные типы страниц, бесполезных для целевой аудитории:

  • Страницы с конфиденциальными данными: с платежной информацией, личные кабинеты пользователей и т.д.
  • Страницы без содержания (thin content) типа «Спасибо за покупку» или «Ошибка 404» и т.д.
  • Технические страницы, например, отвечающие за функционирование админ-панели управления контентом сайта.
  • Страницы-дубли (их множество вариантов).

Почему появляются страницы-дубли

Существует более двух десятков различных вариантов страниц с дублями контента.

Вот простой пример их появления.

При создании новой страницы система управления контентом сайта (CMS), например, Tilda или WordPress присваивает ей внутренний системный url адрес с цифровым идентификатором. Одновременно веб-мастер, заполняющий страницу контентом, присваивает ей публичный человеко-понятный url.

Если все пустить на самотёк, то через некоторое время с большой вероятностью обе страницы попадут в индекс:

страницы дубли

Почему важно начинать оптимизацию сайта с закрытия от индексации страниц с дублями контента

  • SEO каннибализация. Дубликат конкурирует с основной версией страницы за ТОП поисковой выдачи.
  • Понижение ранжирования сайта. Поисковые системы наказывают сайты, содержащие многочисленные дубликаты контента.

Зачем контролировать индексацию

Краулер (поисковый бот) периодически посещает сайт, регистрирует изменения контента и обновляет свой индекс, причем время его нахождения на сайте ограничено.

Если не закрывать мусорные страницы, то возникают следующие проблемы:

  • Робот будет бесполезно тратить выделенный лимит времени (краулинговый бюджет) на анализ мусорных страниц.
  • Размываются поисковые сигналы. Страницы с дублями контента сбивают с толку краулер, ищущий контент посадочной страницы.
  • Запросы ботов увеличивают нагрузку на сервер. Большое количество мусорных страниц, просматриваемых краулерами, может замедлить скорость работы сайта, что негативно скажется на его дальнейшем ранжировании. (Речь идет о сайтах с десятками тысяч страниц).

Как находить ненужные страницы

Для их поиска используют два бесплатных инструмента:

  • Google Search Console: раздел «Проиндексированные страницы»
  • Яндекс Вебмастер

Как управлять индексацией

SEO-эксперты используют следующие методы:

1. Запретить краулеру сканировать и индексировать страницы

  • через файл robots.txt
  • через ограничение доступа на страницу (пароль)

2. Разрешить краулеру сканировать страницу, но запретить ее индексацию

  • через метатег noindex

3. Склеить страницу -дубль с ее основной версией

  • с помощью тега rel=canonical (для дублей контента)
  • с помощью 301 редиректа (для частичных дублей и устаревшего контента)
  • с помощью директивы clean-param (Яндекс для GET-параметров).

После проведения этих работ в течение полугода ненужные в поиске страницы обычно удаляются из индекса.

Инструменты для управления индексацией

Для каждого типа бесполезных для пользователей страниц существует свой оптимальный метод блокировки.

Пароль на страницу

Непубличные страницы с конфиденциальными данными лучше всего закрывать паролем.

robots.txt

Чтобы запретить краулерам посещать, например, технические разделы сайта со служебными страницами, файлами и папками, используют инструмент robots.txt.

Robots.txt представляет собой текстовый файл, расположенный в корневой директории сайта с комбинациями запрещающих и разрешающих директив.

В нижеследующем примере показана совместная работа двух директив, указывающих краулеру не посещать системный раздел “wp-admin” сайта за исключением страницы “admin-ajax.php”. (Раздел “wp-admin” отвечает за функционирование админ-панели управления контентом сайта):

команды robots.txt

Внимание: В заблокированных от сканирования технических разделах сайта обязательно открывайте краулеру доступ к файлам js и css, которые необходимы для рендеринга страниц.

Метатег noindex

Для закрытия от индексации страницы без контента в её код вписывают метатег “noindex”.

Вот как это выглядит на примере:

metatag Noindex

Убедитесь, что страница с метатегом noindex не заблокирована в файле robots.txt, иначе краулер не сможет прочитать эту директиву.

Преимущество этого метода заключается в «гибкости» контроля за индексацией каждой отдельной страницы.

rel=canonical

Появившись в поисковой выдаче, страница с дублем контента также, как и посадочная страница с основной версией контента со временем соберут положительные поисковые сигналы, влияющие на рейтинг сайта (если контент качественный).

Поисковые сигналы — это факторы, которые поисковые системы используют для определения релевантности и качества веб-страниц по отношению к запросам пользователей. К внешним поисковым сигналам относятся, например, отношение показов страницы к кликам по ее url (CTR); обратные ссылки (ссылочный вес); последний клик (полнота контента) и т.д.

При работе с дублями контента цель не в том, чтобы удалить их из индекса, а в том, чтобы, во-первых, подклеить их сигналы к сигналам посадочных страниц, во-вторых, перевести дубли контента в разряд «неосновная версия страницы».

Для решения этой задачи используют атрибут rel=canonical тега <link> в коде страниц.

Пример:

rel canonical

Итак, rel=canonical, расположенный в коде страницы с дублем контента, указывает, где находится посадочная страница с основной версией контента.

301 редирект

Этот прием можно использовать для управления индексацией, например, страниц c частично-дублированным контентом (near duplicat content).

Предположим, что на сайте есть две страницы из индекса, контент которых частично дублируется:

  • URL1 с устаревшей инструкцией для Айфон 1 (https://site.com/apple/iphone1-guide);
  • URL2 с инструкцией для Айфон 16 (https://site.com/apple/iphone16-guide).

На первый взгляд логично было бы просто физически удалить с сайта страницу с устаревшим контентом.

Однако в этом случае возникают проблемы с SEO:

  • обратные ссылки на удаленную страницу становятся для краулера битыми;
  • накопленные прежде положительные поисковые сигналы удаленной страницы без пользы «утекут» с сайта в никуда.

Чтобы этого избежать мы применяем 301 редирект.

Преимущества метода:

  • Во-первых, 301 редирект сообщает краулерам, что страница с частичным дублем контента (URL1) была перенаправлена на страницу с актуальным контентом (URL2), т.е. проблем с дублями контента больше не существует.
  • Во-вторых, 301 редирект позволяет автоматически перенаправлять пользователя на актуальную версию страницы без посещения страницы с устаревшим контентом, что удобно.

Существуют несколько вариантов настроить 301 редирект. Один из них- это внести в файл .htaccess сайта следующую запись:

redirect 301

Владельцы сайтов часто задают следующий вопрос: «Зачем применять 301 редирект и затем удалять страницу с частичным дублем контента, если вместо этого можно обновить ее контент до актуального?»

Ответ: «А как быть с неактуальным названием товара/услуги, прописанным в url обновленной страницы? URL не изменить, также как не изменить почтовый адрес вашей квартиры. »

Директива clean-param

Yandex разработал интересный инструмент для управления действиями своих краулеров, связанных с индексацией страниц c частично-дублированным контентом (near duplicat content), который называется Clean-param.

Этот инструмент (директива) особенно удобен для групповой блокировки от индексации страниц-частичных дублей, URL которых содержат GET-параметры.

Что такое URL с GET-параметрами разберем на примере:

Пользователь использовал фасетный фильтр сайдбара для группировки товаров по определенным характеристикам. В ответ CMS сайта сгенерировала соответствующую страницу, URL которой содержит GET-параметры.

Теперь нам нужно заблокировать индексацию группы URL с GET-параметрами:

url с get-параметрами

Для этого в файле robots.txt прописываем директиву Clean-param:

Директива Clean-param в robots.txt

Алгоритм работы этой директивы для Яндекс- краулера следующий: «Если URL страницы содержит параметры «yprqee» и/или «device», то игнорировать их и переключиться обратно на версию основной страницы».

Заключение

Для правильной индексации:

  • Закрывайте непубличные и личные страницы с помощью авторизации соединения.
  • Блокируйте группы технических страниц с помощью директив файла robots.txt.
  • Блокируйте страницы без контента с помощью метатегов noindex robots.
  • Склеивайте дублированный контент с его основной версией, применяя атрибут rel=canonical.
  • Склеивайте частично дублированный контент с его основной версией, а также устаревшие страницы через 301 редирект либо через Clean-param для Яндекса.
Баннер Услуга SEO-аудит сайта от anatole-seo.ru

Анатолий Снежко
Анатолий Снежко

Сертифицированный SEO специалист с 8 летним опытом работы в различных маркетинговых агентствах. Продвигаю сайты в конкурентных тематиках: от аудита до выхода в ТОП поисковых систем

Статей: 44