Как правильно настроить индексирование сайта в поисковых системах

284
Интернет-маркетолог

Содержание:

С первого взгляда, может показаться, что в этом нет ничего сложного. Настроили robots.txt, разместили sitemap и ждем обновления базы данных поисковой системы. А что делать, если у Вас появились дубли страниц или некоторые страницы веб-ресурса каким-то чудесным образом не проиндексировались роботом-поисковиком? Как можно несколько сайтов объединить в один без потери трафика? Почему могут возникнуть сложности с перенаправлением и для реализации какого вида целей, какие редиректы подходят? Почему на сайт заходит часто робот-поисковик, а при отображении страницы выдается 404-ая или 503-я ошибка?

Все это и многое другое Вы узнаете из этой статьи.

Как происходит процесс индексирования?

Давайте вспомним для начала определение. Индексирование – это процесс получения информации о страницах сайта/разделах/категориях и других составляющих с последующим добавлением данных в базу данных поисковой системы.

Чтобы правильно настроить индексирование сайта, следует пройти по каждому этапу данного процесса, так как, зная каждый из них и на основе возникшей проблемы, можно будет понять, каким образом решить проблему (иными словами, это принцип причинно-следственной связи).

Индексация состоит из нескольких последовательных действий:

1. Робот-поисковик узнает о новой странице или сайте. Это может происходить различными способами, но основные из них два:
  • внешние ссылки на других сторонних источниках (например, добавили сайт и данные о вашей организации в «2GIS», «Яндекс. Справочник» и т. д.);

  • алгоритм поиска нашел и проанализировал файл sitemap.

2. Затем роботом планируется обход страницы.

3. На третьем шаге происходит анализ новой страницы. Каким образом? Этот процесс следует рассмотреть детальнее:

  • сначала бот-поисковик запрашивает данные новой страницы со стороны сервера. Уже тут могут возникнуть сложности, связанные, например, с малой мощностью серверного оборудования хостинг-провайдера. Если это так, то система сервера просто не даст пройти роботу далее и на этом индексирование закончится, информация в базу данных поисковой системы не поступит.

Чтобы просмотреть, все ли в порядке на этом этапе, достаточно воспользоваться сервисом «Яндекс. Вебмастер». Для этого, авторизовываемся, попадаем на главную панель, ищем вкладку «инструменты», в которой есть подпункт «Проверка ответа от сервера».

Прописываем интересующий нас URL, выбираем необходимую разновидность поискового индексирующего робота, при необходимости указываем дату в поле «If-Modified-Since» (нажав справку, можете ознакомиться с тем, зачем нужен данный пункт). Далее «Проверить».

Видим следующий результат:

Основное, что нас интересует, находится в первой строчке «код статуса http: 200 ОК». Что он означает? «ОК» соответственно говорит о том, что индексация прошла успешно, робот проанализировал всю необходимую информацию. «200» - это код, который дает информацию роботу-поисковику о том, что нужно сделать со страницей (также, часто встречается такой термин, как «перенаправление», напрямую относящееся к этому кодовому обозначению). 

Рассмотрим наиболее популярные статусы страниц:

  • В нашем случае, код «200» означает, что страница доступна и ее необходимо проиндексировать, потом внести в базу данных поисковой системы;

  • «404» дает понять, как роботу, так и серверу, что страница удалена и анализировать нечего;

  • «301» или наиболее часто встречающееся определение «301-ый редирект». Говорит роботу-анализатору о том, что страница и ее содержимое перенесены и находятся на другой страницы;

  • Код «304» означает, что страница не менялась с момента последнего обращения, индексировать ее нет необходимости;

  • Статус «503» - сервер временно недоступен. Может возникать, например, в случаях, когда проводятся технические или регламентные работы на сайте. Если поисковой робот придет в это время для анализа веб-ресурса, то он видит данный статус и придет позже, спустя некоторое время.

  • После того, как алгоритм, анализирующий сайт узнал о статусе страницы, он решает, что с ней делать дальше. Если у него есть возможность произвести его индексирование именно сейчас, он к этому приступает. На данном этапе происходит занесение данных в свою память о содержимом страницы (мета-теги, описание, тайтл, контент, картинки и другие элементы);

  • Затем информация передается в БД поисковой системы, которая через некоторое время обновляется и выдает, определенную на основе многих параметров, позицию странице.

Какие могут быть проблемы с ответом сервера

Разобравшись с тем, как происходит индексирование сайта, мы коснулись редиректов и статусов индексирования. Продолжим эту тему развивать и рассмотрим, как серверная сторона может влиять на поискового робота.

Система сервера, на котором расположен ваш веб-ресурс, может, в некоторых случаях, не дать пройти поисковому роботу на страницу. Какие могут быть на это причины?

Непосредственная блокировка робота-индексатора может быть связана в связи с:

  • возросшей нагрузкой на сервер от частого обращения поисковика. Решение об этом принимает система мониторинга состояния серверного оборудования. Например, на хостинге компании «TimeWeb», информацию о состоянии можно увидеть в главной панели личного кабинета, перейдя во вкладку «Нагрузка».

  • различным контентом. Многие до сих пор пытаются поступить следующим образом: для поискового робота прописывают параметры (мета-теги, ключи, описание и т. д.) той тематики, которую необходимо продвинуть, а контент для посетителей совершенно этому не соответствует. Следовательно, бот не принимает такую страницу, потому что такой метод продвижения давным-давно «не прокатывает»;

  • временной недоступностью сайта. К примеру, Вы забыли оплатить домен. Логично предположить, что если в это время будет происходить индексирование, то может ничего не произойти при анализе роботом веб-источника. Если это продлилось 2-3 дня, то ничего страшного. 503-ий редирект сообщает о том, что вернуться боту к индексации можно позже. Но, при более долгом периоде, страница может перестать «опознаваться», так как у нее нет даже «прописки» (домена);

  • некорректной настройкой CMS сайта. Связано в подавляющем большинстве случаев с появлением новой версии и ее последующим обновлением и/или неправильным оформлением атрибутов.

Настоятельно рекомендуем проверять настройки после каждого момента обновления на соответствия тем параметрам, которые Вам необходимы!

Проблемы, не зависящие от сервера. Причины, варианты решений.

После того, как мы разобрались с возможными решениями, которые помогут правильно проиндексировать сайт со стороны сервера, приступим к рассмотрению тех параметров, которые больше зависят непосредственно от нас, то есть со стороны самого веб-ресурса.

Robots.txt

Это файл, который можно отредактировать в любом текстовом редакторе. Преимущество и одновременно необходимость состоим в том, что он прописывает строгие инструкции для роботов поиска различных поисковых систем. Располагают роботс.тхт в корневой папке сайта.

Наиболее популярные ошибки, возникающие при работе с данным файлом:

  • закрытие действительно нужных страниц сайта. Чаще всего эта ошибка связана с незнанием всех аспектов и нюансов правильного заполнения;

  • использование кириллических символов в файле не допускается;

  • одни и те же правила для разных роботов. Нюанс, о котором часто забывают. Согласитесь, что даже на вид «Яндекс» и «Google» сильно отличаются друг от друга. Что тогда говорить о внутренних алгоритмах ранжирования и поисковых роботах?! Соответственно, и правила надо прописывать разные, так как один бот их примет, а другой даже не обратит внимания, а может и сразу уйдет, не завершив процесс индексирования.

  • использование директивы «crawl-delay» (определяет частоту запросов поискового бота и часто используется в тех случаях, когда сервер подвержен сильной нагрузке) без необходимости. Реальный пример: был сайт-визитка на самом дешевом хостинге. В него добавили каталог, содержащий около 10 000 товаров. Робот-поисковик начал скачивать и анализировать информацию и из-за ее объема стал не успевать ее обрабатывать. Многие страницы стали недоступны, выдавая 404-ую ошибку. Логичное решение – выставить директиву «crawl-delay». Поставили, все начало работать. Затем, в связи с разрастанием сайта, было решено перенести веб-ресурс на другой хостинг-провайдер, учтя при этом заранее параметры нагрузки сервера. Вроде все замечательно, а директиву «кроул» убрать забыли!!! В результате нагрузка на сервер минимальная, робот «не спешит» все обрабатывать и на выходе – очень долгое время индексации сайта.

Проверить файл с инструкциями для роботов можно, используя сервисы вебмастера от «Яндекс» или «Гугл». В «Yandex.Webmaster» достаточно зайти в раздел «Инструменты», затем в «анализ robots.txt». Загрузить файл и его вставить непосредственно в поле, посмотреть рекомендации или ошибки, которые необходимо будет исправить.

Дублирование

Подразумевает наличие нескольких идентичных страниц одного сайта, в которых содержится одинаковый контент.

Виды дублей:

  • страницы, адрес которых различается знаком «/». Например, «www.primer_saita.ru/Tovar/cart/GM928» и абсолютно аналогичный «…/GM928/». Часто встречается такая ситуация с карточкой одного и того же товара, которая относится к разным категориям (коньки, подходящие, как для девочек, так и для мальчиков);

  • дубли-страницы с незначащими параметрами, которые не воспринимает робот-поисковик. Примеры некоторых незначащих элементов для робота-поисковика, можно увидеть ниже:

Неприятности, которые могут возникнуть из-за дублей:

  • бот поисковой системы, вместо индексации необходимого и корректного адреса может посещать и анализировать множество ненужных страниц;

  • в базу данных поиска робот-анализатор может включить только одну страницу из всех возможных дублей, опираясь на свое усмотрение.

Как бороться с дублированными страницами:

  • Прописать атрибут rel= «canonical» тега <link> со своим значением, то есть «выделить» страницу, расставив «приоритеты» цепочкой. Например, есть две страницы:

Допустим, что предпочитаемый адрес, который нам нужен – это вторая ссылка. Тогда, в первой странице необходимо прописать в ее html-коде следующую строчку:

Важно! Алгоритм анализа поисковым роботом устроен таким образом, что не считает данную директиву строгой, поэтому бот рассматривает ее, как предполагаемый вариант, который может быть проигнорирован!

  • «редирект 301», о котором мы уже говорили ранее. Особенно актуален в случаях дублей страниц с «/» и без него;

  • В файле robots.txt прописать параметры «disallow» (запрет доступа) и «clean-param» (учитывание динамических параметров (id сессий и др.), не влияющие на содержимое страницы). Пример таких дублей мы рассмотрели чуть ранее.

Где можно выявить дубли? Все в том же Вебмастере. В сервисе от «Яндекса» заходим в раздел «Индексирование», затем «Проверить статус URL», вводим ссылку, анализируем результат.

Зеркала

Это абсолютно идентичные копии друг друга. Самый яркий пример – главная страница сайта отображается, как по адресу «www.какой-то_сайт.рф», так и под доменным адресом с совпадающим именем без «www».

Наиболее распространенные ошибки, связанные с неправильной настройкой зеркал:

  • отсутствие указаний и директивы host в robots.txt или противоречащие друг другу указания;

  • перенаправление при переезде в уже имеющейся группе зеркал;

  • недоступность одного из зеркал, которая может возникнуть по различным причинам;

  • различающийся между собой контент на зеркальных страницах.

Как правильно сделать настройку зеркал при осуществлении переезда сайта на новое доменное имя:

1. следует сделать сайты с полными зеркалами, не забыв при этом прописать директиву host в файле роботс.тхт;

2. не забываем про вебмастер. Если рассматривать продукт от «Яндекса», то заходим все в тот же раздел «Индексирование», затем в «Переезд сайта», оповещая заранее поисковую систему о предстоящей процедуре;

3. Устанавливаем редирект на главное зеркало.

Для тех, кому интересно узнать, каким образом можно осуществить переезд/перезапуск сайта без потери поисковых позиций, рекомендуем прочитать соответствующую статью в нашем блоге, где более подробно расписаны все нюансы, этапы работ и возможные результаты. Ссылка на материал.

По поводу Вебмастера

Как Вы успели заметить, в некоторых примерах, мы обращались к сервису, где можно пронаблюдать за различными моментами, касающимися динамики индексирования сайта в поиске. Так как мы делали обзор каждого из них в других статьях нашего блога, то не будем повторяться, а просто укажем источники для ознакомления:

Уверены, что там Вы найдете и много других полезных и интересных «фишек» и фактов.

Лайфхаки или реальные примеры

Так сказать, от теории перейдем плавно к практике. Для наибольшей наглядности, чтобы понять, каким образом правильно настроить индексирование сайта в поисковых системах, мы оформили маленькую табличку, которую Вы видите ниже. В ней описаны различные реальные проблемы, с которой сталкивался в свое время тот или иной владелец сайта и правильные пути решения.

Проблема, задача:

Возможные пути решения:

«Изначально было несколько сайтов разных издательств. По мере развития, было принято решение создать один единый сайт, в котором каждому отдельному издательству будет выделена отдельная «подкатегория». Контент каждого издательского дома на новом сайте будет немного отличаться от старого. Каким образом правильно осуществить «склейку» нескольких сайтов в один?

I вариант:

первое, на что стоит обратить внимание – при процедуре «склеивания» будет необходимо, чтобы контент на старых сайтах и на новом веб-ресурсе был абсолютно идентичен друг другу.

После того, как мы в этом убедились, прописываем директиву host и ждем,  когда робот поисковой системы осуществит «склеивание». Следим за результатами через вебмастер.

II вариант:

выполнить перенаправление со всех старых сайтов на главную страницу нового веб-ресурса.

* не забываем про вкладку в Вебмастере «Переезд сайта» и в первом, и во втором случаях!

Произошло по какой-то неизвестной причине падение страниц в индексации. Где можно ее выявить, а затем исправить?

Инструмента или сервиса, позволяющего выявить конкретную причину на данный момент, к сожалению, нет.

Но проверить отдельные моменты, связанные с индексацией, можно также в панели Вебмастера.

В первую очередь, следует зайти во вкладку «Исключенные страницы» и производить оттуда начало проверки.

Следует ли закрывать от индексации файлы css-стилей и javascript?

Нет, на данный момент не рекомендуется, потому что новые современные алгоритмы поисковых систем при ранжировании скоро начнут учитывать не только поведенческие показатели со стороны посетителя сайта, но и «переносить» их действия именно в тот код, который есть на сайте. Например, многим пользователям нравится форма обратной связи, через которую они пользуются. Робот поисковой системы в скором времени «научится» учитывать и этот фактор при  индексации страницы

Есть порядка 10 различных страниц с одним и тем же описанием в карточке товара. Следует ли закрывать текст от индексации во избежание падения индексации?

I вариант:

Во избежание дублей, присвоить им разные имена через «/». Например, «товар/1…товар/10».

II вариант:

Использовать директиву «canonical» с других «дублей» на основную страницу пагинации, которая будет индексироваться.

* в обоих случаях текст можно не закрывать от робота.

III вариант: написать на каждый товар (если целесообразно) уникальные и качественные SEO- или LSI-текста.

На что 304-е перенаправление обращает внимание в первую очередь?

«304» редирект означает, что страница не менялась с момента последнего обращения и индексировать ее роботу нет необходимости.

В данном случае, бот поиска будет сначала ориентироваться на ответ сервера, а только затем связываться и сверяться с файлом sitemap.

Весь трафик идет не на главную страницу сайта, а на каталог, который есть поддомене. Подключен он был гораздо позднее основного сайта, однако обладает хорошими поисковыми позициями. Можно ли осуществить правильное перенаправление на главную страницу с минимальными потерями трафика и позиций в естественной выдаче?

I вариант:

Посмотреть с помощью сервисов аналитики («Яндекс.Метрика», «Google Analytics» и др.) вводит ли это их в заблуждение, теряются ли они на сайте? Если нет, то зачем проделывать лишнюю работу?

II вариант:

Если все-таки необходимо выполнить данную процедуру, то следует поправить файл sitemap и использовать команды перенаправления.

Появилось зеркало сайта с секретным протоколом https, которое «крадет» трафик. При чем он появился непонятно откуда. Как можно решить подобную проблему?

Появилась ссылка на сайт с секретным протоколом, скорее всего, из-за ошибки, которую могли допустить при наполнении/заполнении сайта какого-нибудь рубрикатора, справочника. Возможен также и «глюк» со стороны сервера. Робот поисковой системы его увидел и начал индексировать.

Что можно сделать?

I вариант:

Если Вы нашли, например, человека, который его зарегистрировал или узнали, что он ваш, то достаточно прописать редирект страницы с секретным протоколом на основной домен.

II вариант:

Если ничего не нашли, то можно воспользоваться Вебмастером, а именно разделом «удалить URL». И ввести домен с секретным протоколом.

* все равно стоит постараться узнать, откуда он появился


Заключение

Как видите, правильно настроить индексирование сайта в поисковых системах не так уж и просто. Постоянно могут возникнуть проблемы, связанные, как с человеческим фактором, так и техническим. Также следует учесть и время, необходимое для индексации, которое может длиться от 2 недель до трех месяцев, в зависимости от сложности ситуации.

Во избежание неправильной настройки индексирования (особенно, если Вы мало разбираетесь в технических аспектах и нюансах), рекомендуем обратиться напрямую к специалистам в данной области или в специализированное веб-агентство, в штате которого такие профессионалы присутствуют.

Прочитайте еще

Настройка скорости обхода сайта в «Яндекс. Вебмастер»
«Yandex» продолжает вводить новые опции в свои продукты. На этот раз речь пойдет о функционале, кас...Читать
Анализ посещаемости канала в «Telegram»
Любой рекламный канал нуждается в сборе аналитических данных (просмотров, визитов, репостов и т...Читать
Хотите узнать все
подробности о своём
сайте, звоните:
8 800 200 47 80
(Бесплатно по России)
или
Оформить заявку
Заказать звонокМы перезвоним в течение 30 минут
Нажимая на кнопку отправить, вы даете согласие на обработку своих персональных данных
Оформить заявкуМы перезвоним в течение 30 минут
Нажимая на кнопку отправить, вы даете согласие на обработку своих персональных данных
Хочу работать
Форматы: DOC, DOCX, XLS, XLSX, TXT, PDF

Нажимая на кнопку отправить, вы даете согласие на обработку своих персональных данных

Подписывайтесь на наш канал в Telegram и всегда будьте в курсе интересных новостей и материалов из мира digital или закройте это окно.

Подписаться

Нажимая на кнопку подписаться на новости, вы даете согласие на обработку своих персональных данных