8 (499) 404-03-96
Пн — Пт: 10:00 — 19:00
8 (4832) 59-03-00
Пн — Пт: 10:00 — 19:00
8 (8442) 45-94-73
Пн — Пт: 10:00 — 19:00
8 (473) 200-61-83
Пн — Пт: 10:00 — 19:00
8 (343) 386-17-94
Пн — Пт: 10:00 — 19:00
8 (843) 216-97-33
Пн — Пт: 10:00 — 19:00
8 (861) 238-87-54
Пн — Пт: 10:00 — 19:00
8 (831) 219-98-17
Пн — Пт: 10:00 — 19:00
8 (383) 207-83-11
Пн — Пт: 10:00 — 19:00
8 (342) 299-43-52
Пн — Пт: 10:00 — 19:00
8 (863) 308-17-35
Пн — Пт: 10:00 — 19:00
8 (846) 215-01-73
Пн — Пт: 10:00 — 19:00
8 (812) 409-34-03
Пн — Пт: 10:00 — 19:00
8 (351) 220-53-59
Пн — Пт: 10:00 — 19:00
С первого взгляда, может показаться, что в этом нет ничего сложного. Настроили robots.txt, разместили sitemap и ждем обновления базы данных поисковой системы. А что делать, если у Вас появились дубли страниц или некоторые страницы веб-ресурса каким-то чудесным образом не проиндексировались роботом-поисковиком? Как можно несколько сайтов объединить в один без потери трафика? Почему могут возникнуть сложности с перенаправлением и для реализации какого вида целей, какие редиректы подходят? Почему на сайт заходит часто робот-поисковик, а при отображении страницы выдается 404-ая или 503-я ошибка?
Все это и многое другое Вы узнаете из этой статьи.
Давайте вспомним для начала определение. Индексирование – это процесс получения информации о страницах сайта/разделах/категориях и других составляющих с последующим добавлением данных в базу данных поисковой системы.
Чтобы правильно настроить индексирование сайта, следует пройти по каждому этапу данного процесса, так как, зная каждый из них и на основе возникшей проблемы, можно будет понять, каким образом решить проблему (иными словами, это принцип причинно-следственной связи).
Индексация состоит из нескольких последовательных действий:
1. Робот-поисковик узнает о новой странице или сайте. Это может происходить различными способами, но основные из них два:внешние ссылки на других сторонних источниках (например, добавили сайт и данные о вашей организации в «2GIS», «Яндекс. Справочник» и т. д.);
алгоритм поиска нашел и проанализировал файл sitemap.
2. Затем роботом планируется обход страницы.
3. На третьем шаге происходит анализ новой страницы. Каким образом? Этот процесс следует рассмотреть детальнее:
сначала бот-поисковик запрашивает данные новой страницы со стороны сервера. Уже тут могут возникнуть сложности, связанные, например, с малой мощностью серверного оборудования хостинг-провайдера. Если это так, то система сервера просто не даст пройти роботу далее и на этом индексирование закончится, информация в базу данных поисковой системы не поступит.
Чтобы просмотреть, все ли в порядке на этом этапе, достаточно воспользоваться сервисом «Яндекс. Вебмастер». Для этого, авторизовываемся, попадаем на главную панель, ищем вкладку «инструменты», в которой есть подпункт «Проверка ответа от сервера».
Прописываем интересующий нас URL, выбираем необходимую разновидность поискового индексирующего робота, при необходимости указываем дату в поле «If-Modified-Since» (нажав справку, можете ознакомиться с тем, зачем нужен данный пункт). Далее «Проверить».
Видим следующий результат:
Основное, что нас интересует, находится в первой строчке «код статуса http: 200 ОК». Что он означает? «ОК» соответственно говорит о том, что индексация прошла успешно, робот проанализировал всю необходимую информацию. «200» - это код, который дает информацию роботу-поисковику о том, что нужно сделать со страницей (также, часто встречается такой термин, как «перенаправление», напрямую относящееся к этому кодовому обозначению).
Рассмотрим наиболее популярные статусы страниц:
В нашем случае, код «200» означает, что страница доступна и ее необходимо проиндексировать, потом внести в базу данных поисковой системы;
«404» дает понять, как роботу, так и серверу, что страница удалена и анализировать нечего;
«301» или наиболее часто встречающееся определение «301-ый редирект». Говорит роботу-анализатору о том, что страница и ее содержимое перенесены и находятся на другой страницы;
Код «304» означает, что страница не менялась с момента последнего обращения, индексировать ее нет необходимости;
Статус «503» - сервер временно недоступен. Может возникать, например, в случаях, когда проводятся технические или регламентные работы на сайте. Если поисковой робот придет в это время для анализа веб-ресурса, то он видит данный статус и придет позже, спустя некоторое время.
После того, как алгоритм, анализирующий сайт узнал о статусе страницы, он решает, что с ней делать дальше. Если у него есть возможность произвести его индексирование именно сейчас, он к этому приступает. На данном этапе происходит занесение данных в свою память о содержимом страницы (мета-теги, описание, тайтл, контент, картинки и другие элементы);
Затем информация передается в БД поисковой системы, которая через некоторое время обновляется и выдает, определенную на основе многих параметров, позицию странице.
Какие могут быть проблемы с ответом сервера
Разобравшись с тем, как происходит индексирование сайта, мы коснулись редиректов и статусов индексирования. Продолжим эту тему развивать и рассмотрим, как серверная сторона может влиять на поискового робота.
Система сервера, на котором расположен ваш веб-ресурс, может, в некоторых случаях, не дать пройти поисковому роботу на страницу. Какие могут быть на это причины?
Непосредственная блокировка робота-индексатора может быть связана в связи с:
возросшей нагрузкой на сервер от частого обращения поисковика. Решение об этом принимает система мониторинга состояния серверного оборудования. Например, на хостинге компании «TimeWeb», информацию о состоянии можно увидеть в главной панели личного кабинета, перейдя во вкладку «Нагрузка».
различным контентом. Многие до сих пор пытаются поступить следующим образом: для поискового робота прописывают параметры (мета-теги, ключи, описание и т. д.) той тематики, которую необходимо продвинуть, а контент для посетителей совершенно этому не соответствует. Следовательно, бот не принимает такую страницу, потому что такой метод продвижения давным-давно «не прокатывает»;
временной недоступностью сайта. К примеру, Вы забыли оплатить домен. Логично предположить, что если в это время будет происходить индексирование, то может ничего не произойти при анализе роботом веб-источника. Если это продлилось 2-3 дня, то ничего страшного. 503-ий редирект сообщает о том, что вернуться боту к индексации можно позже. Но, при более долгом периоде, страница может перестать «опознаваться», так как у нее нет даже «прописки» (домена);
некорректной настройкой CMS сайта. Связано в подавляющем большинстве случаев с появлением новой версии и ее последующим обновлением и/или неправильным оформлением атрибутов.
Настоятельно рекомендуем проверять настройки после каждого момента обновления на соответствия тем параметрам, которые Вам необходимы!
Проблемы, не зависящие от сервера. Причины, варианты решений.
После того, как мы разобрались с возможными решениями, которые помогут правильно проиндексировать сайт со стороны сервера, приступим к рассмотрению тех параметров, которые больше зависят непосредственно от нас, то есть со стороны самого веб-ресурса.
Это файл, который можно отредактировать в любом текстовом редакторе. Преимущество и одновременно необходимость состоим в том, что он прописывает строгие инструкции для роботов поиска различных поисковых систем. Располагают роботс.тхт в корневой папке сайта.
Наиболее популярные ошибки, возникающие при работе с данным файлом:
закрытие действительно нужных страниц сайта. Чаще всего эта ошибка связана с незнанием всех аспектов и нюансов правильного заполнения;
использование кириллических символов в файле не допускается;
одни и те же правила для разных роботов. Нюанс, о котором часто забывают. Согласитесь, что даже на вид «Яндекс» и «Google» сильно отличаются друг от друга. Что тогда говорить о внутренних алгоритмах ранжирования и поисковых роботах?! Соответственно, и правила надо прописывать разные, так как один бот их примет, а другой даже не обратит внимания, а может и сразу уйдет, не завершив процесс индексирования.
использование директивы «crawl-delay» (определяет частоту запросов поискового бота и часто используется в тех случаях, когда сервер подвержен сильной нагрузке) без необходимости. Реальный пример: был сайт-визитка на самом дешевом хостинге. В него добавили каталог, содержащий около 10 000 товаров. Робот-поисковик начал скачивать и анализировать информацию и из-за ее объема стал не успевать ее обрабатывать. Многие страницы стали недоступны, выдавая 404-ую ошибку. Логичное решение – выставить директиву «crawl-delay». Поставили, все начало работать. Затем, в связи с разрастанием сайта, было решено перенести веб-ресурс на другой хостинг-провайдер, учтя при этом заранее параметры нагрузки сервера. Вроде все замечательно, а директиву «кроул» убрать забыли!!! В результате нагрузка на сервер минимальная, робот «не спешит» все обрабатывать и на выходе – очень долгое время индексации сайта.
Проверить файл с инструкциями для роботов можно, используя сервисы вебмастера от «Яндекс» или «Гугл». В «Yandex.Webmaster» достаточно зайти в раздел «Инструменты», затем в «анализ robots.txt». Загрузить файл и его вставить непосредственно в поле, посмотреть рекомендации или ошибки, которые необходимо будет исправить.
Подразумевает наличие нескольких идентичных страниц одного сайта, в которых содержится одинаковый контент.
Виды дублей:
страницы, адрес которых различается знаком «/». Например, «www.primer_saita.ru/Tovar/cart/GM928» и абсолютно аналогичный «…/GM928/». Часто встречается такая ситуация с карточкой одного и того же товара, которая относится к разным категориям (коньки, подходящие, как для девочек, так и для мальчиков);
дубли-страницы с незначащими параметрами, которые не воспринимает робот-поисковик. Примеры некоторых незначащих элементов для робота-поисковика, можно увидеть ниже:
Неприятности, которые могут возникнуть из-за дублей:
бот поисковой системы, вместо индексации необходимого и корректного адреса может посещать и анализировать множество ненужных страниц;
в базу данных поиска робот-анализатор может включить только одну страницу из всех возможных дублей, опираясь на свое усмотрение.
Как бороться с дублированными страницами:
Прописать атрибут rel= «canonical» тега <link> со своим значением, то есть «выделить» страницу, расставив «приоритеты» цепочкой. Например, есть две страницы:
Допустим, что предпочитаемый адрес, который нам нужен – это вторая ссылка. Тогда, в первой странице необходимо прописать в ее html-коде следующую строчку:
Важно! Алгоритм анализа поисковым роботом устроен таким образом, что не считает данную директиву строгой, поэтому бот рассматривает ее, как предполагаемый вариант, который может быть проигнорирован!
«редирект 301», о котором мы уже говорили ранее. Особенно актуален в случаях дублей страниц с «/» и без него;
В файле robots.txt прописать параметры «disallow» (запрет доступа) и «clean-param» (учитывание динамических параметров (id сессий и др.), не влияющие на содержимое страницы). Пример таких дублей мы рассмотрели чуть ранее.
Где можно выявить дубли? Все в том же Вебмастере. В сервисе от «Яндекса» заходим в раздел «Индексирование», затем «Проверить статус URL», вводим ссылку, анализируем результат.
Это абсолютно идентичные копии друг друга. Самый яркий пример – главная страница сайта отображается, как по адресу «www.какой-то_сайт.рф», так и под доменным адресом с совпадающим именем без «www».
Наиболее распространенные ошибки, связанные с неправильной настройкой зеркал:
отсутствие указаний и директивы host в robots.txt или противоречащие друг другу указания;
перенаправление при переезде в уже имеющейся группе зеркал;
недоступность одного из зеркал, которая может возникнуть по различным причинам;
различающийся между собой контент на зеркальных страницах.
Как правильно сделать настройку зеркал при осуществлении переезда сайта на новое доменное имя:
1. следует сделать сайты с полными зеркалами, не забыв при этом прописать директиву host в файле роботс.тхт;
2. не забываем про вебмастер. Если рассматривать продукт от «Яндекса», то заходим все в тот же раздел «Индексирование», затем в «Переезд сайта», оповещая заранее поисковую систему о предстоящей процедуре;
3. Устанавливаем редирект на главное зеркало.
Для тех, кому интересно узнать, каким образом можно осуществить переезд/перезапуск сайта без потери поисковых позиций, рекомендуем прочитать соответствующую статью в нашем блоге, где более подробно расписаны все нюансы, этапы работ и возможные результаты. Ссылка на материал.
Как Вы успели заметить, в некоторых примерах, мы обращались к сервису, где можно пронаблюдать за различными моментами, касающимися динамики индексирования сайта в поиске. Так как мы делали обзор каждого из них в других статьях нашего блога, то не будем повторяться, а просто укажем источники для ознакомления:
краткий обзор возможностей «Google. Webmaster» рассмотрен в статье «Как перезапустить сайт и не потерять результаты в поиске»;
а вот в материале, который называется «Как избежать типичных ошибок при поисковой оптимизации. Мифы, советы, инструменты» рассмотрен сервис «Яндекс. Вебмастер».
Уверены, что там Вы найдете и много других полезных и интересных «фишек» и фактов.
Так сказать, от теории перейдем плавно к практике. Для наибольшей наглядности, чтобы понять, каким образом правильно настроить индексирование сайта в поисковых системах, мы оформили маленькую табличку, которую Вы видите ниже. В ней описаны различные реальные проблемы, с которой сталкивался в свое время тот или иной владелец сайта и правильные пути решения.
Проблема, задача: |
Возможные пути решения: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Как видите, правильно настроить индексирование сайта в поисковых системах не так уж и просто. Постоянно могут возникнуть проблемы, связанные, как с человеческим фактором, так и техническим. Также следует учесть и время, необходимое для индексации, которое может длиться от 2 недель до трех месяцев, в зависимости от сложности ситуации.
Во избежание неправильной настройки индексирования (особенно, если Вы мало разбираетесь в технических аспектах и нюансах), рекомендуем обратиться напрямую к специалистам в данной области или в специализированное веб-агентство, в штате которого такие профессионалы присутствуют.
Оставьте заявку назапуск рекламыи получите welcome-скидку! |