Как известно, поисковый робот системы Яндекс хранит список адресов веб-страниц, которые подлежат индексации (внесению после проверки в поисковую базу), и с определённой разработчиками регулярностью скачивает опубликованные по данным адресам документы. Если в процессе анализа документа поисковый робот находит новую ссылку, она тут же добавляется в список индексации. Таким образом, любая веб-страница, на которую в глобальной сети Интернет существует хотя бы одна ссылка, будет рано или поздно найдена роботом, а стало быть, попадёт на то место поисковой выдачи Яндекса, которое соответствует степени релевантности конкретному запросу.
В системе Яндекс есть несколько видов индексирующих роботов. К примеру, есть специальный робот, индексирующий исключительно rss-ленты для поиска по блогам. Имеется также робот, который осуществляет индексацию лишь графических изображений. Однако главным является робот, в задачу которого входит индексирование документов для формирования основной поисковой базы. Главному роботу помогает так называемый быстрый робот. Его предназначение - оперативное индексирование самых свежих и наиболее актуальных на текущей момент документов. Когда в проиндексированных веб-страницах сайта обнаруживается две копии одного документа, чаще всего это как раз и означает, что кроме главного робота документ проиндексировал также и быстрый робот.
Следует отметить, что каждый владелец или администратор сайта может в в любой момент ускорить его индексацию. Для того чтобы составляющие ресурсе веб-страницы побыстрее оказывались в поисковой базе, нужно сделать всего две вещи – заблокировать индексацию всех неважных и ненужных документов, а также сообщить роботу о публикации новых документов. Выполнение этих двух рекомендаций сводиться к следующим простым действиям:
- внесение в служебный файл robots.txt запрета на индексирование веб-страниц, несущественных для посетителей сайта. Это может быть форма ответа на форуме, статистика посещений, страница с результатами поиска, сайт-зеркало и так далее;
- создание служебного файла Sitemap, содержащего дополнительную информацию о веб-страницах, подлежащих индексированию;
- создание полноценной карты сайта, то есть отдельной веб-страницы, которая содержит внутренние ссылки на все разделы, подразделы и документы ресурса;
- настройка сервера на выдачу ответов с корректными заголовками. К примеру, если разыскиваемая поисковым роботом веб-страница уже не существует, то сервер должен выдать сообщение об ошибке с кодом 404. А если, допустим, пришёл запрос If-Modified-Since, то он при отсутствии за указанное время изменений в документе, сервер должен выдать ответ с кодом 304.