Подводя итог по некоторым случаям так называемых «недостаточно качественных» страниц (НКС) и реакции службы поддержки Яндекса.
Яркий пример (исходные данные)
Есть некий сайт с проблемами по НКС, и в итоге следующее сообщается в техподдержку Яндекса:
- Большинство (от 85%) НКС из найденных в выгрузках закрыты мета роботсом;
- Закрытие большинства из них произошло месяцы назад (от 2-х до 9-ти);
- Что сразу же (на следующий же день) было отражено в XML карте сайта и ссылках по сайту;
- Ресурсов для переобхода всех проблемных страниц хватает (судя по среднему числу обходимых страниц в день, Яндекс может обойти весь сайт за 7-10 дней);
- Периодически Яндекс добавляет в индекс пачки страниц из той же выборки, которые на момент добавления уже недействительны – закрыты noindex’ом мета тега robots.
Реакция техподдержки
Стандартный копипаст (т.к. такое слово в слово встречалось не единожды, в разных случаях):
Дело в том, что ранее такие страницы действительно были доступны и отвечали кодом 200 ОК, поэтому были проиндексированы и включены в базу поиска. После того, как страницы были проиндексированы, они были исключены из поиска в результате работы алгоритма, который проверяет каждую страницу и принимает решение о включении ее в поиск. Более подробно об этом алгоритме можно прочитать в нашей Справке( https://yandex.ru/support/webmaster/site-indexing/low-demand.html?lang=ru ). Данный алгоритм регулярно проверяет все страницы, и его решение может меняться, поэтому исключенные им страницы могут возвращаться в поиск, что произошло и в вашем случае. При этом алгоритм не переиндексирует страницы, он только оценивает то содержимое, которое есть в базе поиска, поэтому в поиск могли попасть те страницы, которые были доступны некоторое время назад, ведь робот еще не успел посетить их повторно и узнать о том, что они уже не отвечают http-кодом 200ОК. Когда эти страницы будут переиндексированы, они смогут выпасть из поиска в соответствии с недоступностью, и уже не должны будут вернуться в поиск.
В данной ситуации рекомендую использовать инструмент «Переобход страниц»( https://webmaster.yandex.ru/site/indexing/reindex/ ), чтобы ускорить обновление данных о страницах в базе индексирующего робота. Добавленные через этот сервис страницы смогут выпасть из поиска, если они не отвечают http-кодом 200ОК, через 1-2 недели.
Выводы и заключения
- Однажды попав в базу НКС, страницы сайта могут там болтаться неизвестно сколько, периодически выходя из статуса НКС.
- Недоступность страниц для индексации может не иметь значения, так как тасование может производиться Яндексом в изолированной системе – без переобхода сайта (updateDate в выгрузках НКС – дата перетасовки, lastAccess – переобхода), только по неким снимкам состояния страниц, какими они когда-то были.
- Яндекс может игнорировать переобход НКС страниц неизвестно сколько, несмотря на наличие достаточного количества ресурсов на сканирование.
- Пункты 1-3 по факту расцениваются Яндексом в качестве фичи а не бага, и в виде решения предлагается сильно ограниченный костылёк (переобход страниц), либо надежда на лучшее.
- В качестве лекарства напрашивается массовое пингование Яндекса – чтобы бот посетил те страницы НКС, которые ими не могут быть (недоступны к индексации поиском).
Варианты пингования
Исключая решения под Гугл и те, которые видятся не совсем подходящими именно под эту проблему с НКС:
- https://banochkin.com/tools/indexer/;
а)пока не проверялпроверил, работает - после "пингования" видно через Я.вебмастер, что бот Яндекса именно что приходит на скормленные страницы (а не всего лишь меняется дата обновления); это подтверждается впоследствии (вывод недействительных URL'ов из базы НКС);
б) какой % успеха (за который принимается в данном случае посещение страниц ботом) не вычислял;
в) эффективность использования сервиса для решения рассматриваемой проблемы с НКС субъективно оцениваю в примерно 50% – то есть, из скормленных недействительных URL'ов примерно половина исчезает из НКС; на чём основывается такая оценка: например, прогнано 10к недействительных URL'ов, и спустя недели в базе Яндекса по-прежнему маячат 5к из них; - https://t.me/alexeyalexeich/445 - не получилось заставить работать софт из поста, похоже спотыкался на новой (smart) капче Яндекса;
Может, что-то упустил?