Руководство: как закрыть сайт от индексации в поисковых системах? работа с файлом robots.txt

Содержание
  1. Что будет если закрыть индексацию
  2. Зачем это необходимо?
  3. Эксперты рекомендуют скрывать от индексации:
  4. Как можно закрыть внешние ссылки от индексации
  5. 1. Закрываем ссылки вручную
  6. 2. Закрываем внешние ссылки от индексации при помощи плагина
  7. Давайте посмотрим, что может этот плагин
  8. Нетематические и тематические статьи на блоге
  9. Блокировка индексации сайта robots.txt
  10. Зачем закрывать ссылки от индексации
  11. Как искать страницы, которые необходимо закрыть от индексации?
  12. ComparseR
  13. Яндекс.Вебмастер
  14. Как закрыть ссылки от индексации
  15. Способ №1
  16. Способ №2
  17. Как закрыть сайт от индексации в robots.txt?
  18. Сокрытие информации при помощи мета-тегов
  19. Закрыть сайт от индексации в файле .htaccess
  20. Способ первый
  21. Способ второй и третий
  22. Способ четвертый
  23. Как понимать «Попросить поисковые системы не индексировать сайт»
  24. Зачем сайт закрывают для индекса?
  25. Проверить, что случайно не был заблокирован полезный контент
  26. Search Console (проверка полезных заблокированных ресурсов)
  27. Как закрыть от индексации отдельные страницы
  28. Robots.txt
  29. Meta name robots
  30. Атрибут Rel=canonical
  31. Если страница по-прежнему в индексе
  32. Как скрыть сайт от индексации через robots.txt?

Что будет если закрыть индексацию

Несмотря на обилие подробных инструкций по
производству выборочной индексации, многие пользователи и начинающие веб
дизайнеры производят скрытие контента неправильно. Это понятно, ведь гораздо
легче одним действием защитить от поисковых ботов весь сайт, чем по одиночке
защищать конкретный файл или внешнюю ссылку. Но, давайте посмотрим, к чему
может привести подобная ситуация:

  • если поисковой системе закрыт доступ абсолютно ко всему контенту, то бот попросту туда не попадет. При повторяющихся эпизодах траст сайта постепенно сходит на убыль;
  • снижается скорость загрузки страниц. Причина – та же самая, что и в примере, рассмотренном ранее;
  • если при защите ссылок или контента, пользователь случайно закрыл ключи, впоследствии сайт может быть исключен из поиска. Причиной станет наложение фильтров поисковыми ботами;
  • скрытие контента – это меньший поток информации, а соответственно, редкие посещения поисковых систем.

Защита от индексации может быть полезна для
верстальщиков html-страниц на начальных этапах работы, когда
вмешательство поискового бота может нарушить процесс создания сайта. Однако,
чрезмерное увлечение защитными механизмами может резко снизить эффективную
деятельность ресурса.

Зачем это необходимо?

Отвечая на вопрос о том, как скрыть сайт от индексации, необходимо рассмотреть основные причины, из-за которых может потребоваться выполнение этой работы:

  • ресурс находится на стадии доработки или разработки. В этом случае целесообразно скрыть его от поисковых ботов, чтобы «сырой» проект с ошибками не принимал участие в ранжировании и не портил общую статистику. К индексу рекомендуется подключать завершенные ресурсы, которые готовы принимать посетителей и корректно обрабатывать запросы;
  • целесообразное распределение краулингового бюджета. Такой бюджет – это лимит страниц, которые проверяют поисковые боты. Речь идет о том, чтобы в индекс как можно быстрее попали самые важные и конверсионные страницы;
  • ресурс должен быть недоступен для посторонних глаз. Например, вы создали сайт для узкого круга сотрудников или клиентов, ведете личный блог или используете площадку для решения других задач. В этом случае целесообразно скрыть страницы от индексации;
  • переезд. Если вы решили осуществить переезд сайта или изменяете формат на аффилированный, то старый домен стоит скрыть от индекса, исправив главное зеркало.

Эксперты рекомендуют скрывать от индексации:

  • ресурсы на стадии разработки;
  • версии для печати;
  • копии (с предварительной настройкой редиректа 301);
  • полезные, но малоинформативные документы (прайс-листы, меню, карты напитков, другие файлы в формате PDF, DOC и т. д.);
  • страницы пагинации и сортировки;
  • клиентские страницы: корзины, личные кабинеты, формы регистрации, иные;
  • технические элементы, представляющие интерес для вебмастера, но не для посетителя.

Как проверить, снять и предупредить санкции поисковых систем Яндекс и Google

Мы рассмотрели распространенные причины, однако их больше. В некоторых случаях требуется скрытие определенной страницы от индексации, например, она не несет в себе важную смысловую нагрузку и не предназначена для глаз пользователей/клиентов.

Как можно закрыть внешние ссылки от индексации

1. Закрываем ссылки вручную

Это достаточно трудоемкий метод, так, как нам нужно поработать отдельно с каждой ссылкой или блоком кода. Но его стоит рассмотреть, хотя бы для понимания того, как это делается.

Для закрытия ссылки от индексации поисковой системой яндекс, мы должны заключить код ссылки в тэги <noindex></noindex> , ниже я покажу это на примере.

Для аналогичного результата с поисковиком гугл, мы должны добавить специальный атрибут в код ссылки — rel=”nofollow”

Смотрите как будет выглядеть ссылка закрытая от индексации и для гугла и для яндекса:

<noindex>

</noindex>

Вручную можно закрыть ссылки или коды в темплейтах темы Вашего блога.

К примеру код счетчика liveinternet размещается на каждой страничке блога. В темплейтах он обычно прописывается в header.php.

Закрыв этот код от индексирования один раз в темплейте, мы одним махом закрыли его индексацию на всех страничках блога.

2. Закрываем внешние ссылки от индексации при помощи плагина

Для автоматизации процесса в вордпресс есть отличный плагин, который называется wp no external links. Установив и настроив его, мы можем одним махом закрыть нужные ссылки от индексации автоматически.

Как им пользваться, я скоро покажу в своем новом видео, не забудьте подписаться на  обновления блога, чтобы не пропустить этого.

Давайте посмотрим, что может этот плагин

· Маскировать ссылки в постах

Вам не нужно делать этого вручную при написании нового поста на свой блог, закрываются также внешние ссылки на давно опублинованных постах

· Маскировать ссылки комментаторов

Только имейте в виду, что этот параметр может сократить количество комментариев на Вашем блоге. Не секрет, что многие комментируют блоги с открытыми для индексации комментариями лишь для увеличения ссылочной массы своего ресурса.

С другой стороны у Вас наверняка уменьшится количество ручного спама

· Добавлять rel=nofollow в маскируемые ссылки (для google)

· Добавлять target=»blank» для всех ссылок на другие сайты (ссылки будут открываться в новом окне)

Это очень важный параметр и я советую его использовать, если говорить грубо, то в конечном итоге он увеличивает время пребывания посетителей на Вашей страничке. Ваш сайт не будет закрываться в браузере при клике посетителем на внешнюю ссылку.

· Окружать маскируемые ссылки тегом <noindex>link</noindex> (для яндекса)

· Маскировать ссылки при помощи редиректов

Вообще удаляет прямые внешние ссылки, переход на внешнюю ссылку осуществляется при помощи редиректа.

Пока не думал о выгодах использования этой опции, но вполне возможно, что она есть.

· Вести статистику кликов по внешним ссылкам

· Прописать адреса сайтов для которых не нужно закрывать ссылки от индексирования

Если Вы сознательно хотите открыть внешние ссылки для каких либо сайтов, например при обмене ссылками, нужно просто прописать их адреса в соответствующем поле настройки плагина.

Эти два способа вполне справляются с задачей по закрытию ссылок от индексации, так что на них и остановимся.

И последний вопрос, который я хотел бы затронуть в этой статье

Нетематические и тематические статьи на блоге

Давно не писал статей на тему блогосферы, на тему продвижения блога, немного соскучился. К тому же на блоге есть подписчики, которым интересны статьи именно на тему продвижения блога. Сегодня мы поговорим о том, можно ли писать на блоге нетематические статьи. А если можно, то, как сделать так, чтобы для блога была польза. Поговорим о том, как закрыть страницу от индексации, если она будет приносить блогу вред.

Итак, всем блоггерам известно, что блог должен быть на определенную тематику, отражать вопросы заранее выбранной ниши. Казалось бы, на нём должны постоянно публиковаться именно тематические статьи. Вместе с тем, согласно Википедии, блог это веб-сайт, на котором регулярно публикуются статьи и он больше похож на дневник ведущего его блоггера.

Естественно, блоггер пишет не только тематические статьи, но и рассказывает о своей жизни, о своих путешествиях, об интересных новостях и это правильно. Когда я обучался в Тренинг Центре «Твой Старт» на тему создания и продвижения блога, то нам говорили, что на блоге допустимо писать до 15% нетематических статей. Поэтому впоследствии на моём блоге тоже публиковались нетематические статьи примерно в указанном объёме.

Конечно, нетематические статьи, отчеты несут в себе много положительных моментов:

читателям блога интересно читать и узнавать, как живет автор, какие у него есть увлечения, где он бывает на отдыхе;
такие статьи разряжают обстановку, ведь читатели иногда устают от однообразия деловых статей, кроме того, можно узнать много интересного о природе России, много интересного о зарубежных странах;
нетематические статьи часто привлекают большой трафик на блог, и хоть он нецелевой, но многим читателям становится интересна тематика блога и они становятся постоянными его читателями и подписчиками, согласитесь это еще и полезно;
исходя из практики замечено, что нецелевые читатели ждут новых статей, например, на тему путешествий и снова приходят на блог, увеличивается число кликов по рекламным баннерам на блоге, соответственно растет доход от рекламы;
эти статьи задерживают внимание посетителей блога, соответственно, увеличивается количество просмотренных страниц и время просмотра, то есть улучшается поведенческий фактор на блоге;
такое общение с читателями блога поднимает авторитет владельца блога, к нему растет доверие со стороны читателей и подписчиков, как результат, владелец блога больше зарабатывает.

Вместе с тем, нетематические статьи приносят и вред блогу, поисковые запросы становятся более размытыми. Поисковые системы не всегда понимают, так какая же ниша у блога? Особенно это ярко проявляется, когда блог еще молодой, в глазах поисковика не понятно семантическое ядро блога и ниша. В этом случае блог просто не продвигается, естественно не растет посещаемость.

Не секрет, что требования поисковых систем к блогам и сайтам от года к году ужесточаются и то, что работало пару лет назад, сегодня не работает. Например, мой блог год назад имел суточную посещаемость более 700 посетителей в сутки, а иногда и более 800, сегодня посещаемость снизилась в несколько раз. Сейчас посещаемость составляет в среднем 180 посетителей за сутки, а выходные снижается до 120, а ведь на блоге более 500 статей. И это притом, что на блоге за год добавилось больше сотни статей.

Проведя аудит блога со специалистом, проведя анализ с помощью нового Яндекс вебмастера, мы пришли к выводу, что нужно нетематические статьи закрыть от индексации. Этим самым почти до нуля снизить нецелевые поисковые запросы по моему блогу.

Блокировка индексации сайта robots.txt

К данному ресурсу обращаются чаще всего на
стадии разработки сайта, когда вмешательство поисковых систем крайне
нежелательно. Далее представлена подробная инструкция, как блокировать
индексацию сайта при помощи robots.txt:

  • в корне сайта необходимо создать текстовый файл robots.txt и прописать в нем строки, позволяющие скрыть все ссылки от любого поискового бота (защита предназначена для всех видов браузеров);
  • форма записи для проведения операции скрытия информации: «Users-agens:*\ Disallow»;
  • в последнем разделе после двоеточия вы указываете тип скрываемой информации: папка, отдельный файл в Яндекс, картинку или второй домен.

Для каждой поисковой системы задано свое имя,
к которому вы обращаетесь, вводя его наименование в разделе Disallow.

Зачем закрывать ссылки от индексации

Одну причину скрытия внешних ссылок мы уже
рассмотрели ранее. Однако, на практике можно столкнуться и еще с одной задачей
защиты контента. Наличие ссылок на внешние ресурсы значительно увеличивает вес html-страницы за счет дополнительного контента стороннего сайта, а это означает
низкую скорость загрузки и медленную работу веб ресурса. Принцип защиты от индексации заключается в сокрытии
истинного веса html-страницы различными путями (запрет перехода по
ссылкам, отведение информации на отдельные файлы).

Как искать страницы, которые необходимо закрыть от индексации?

ComparseR

Просканировать сайт Компарсером и справа во вкладке «Структура» построить дерево сайта:

Просмотреть все вложенные «ветви» дерева.

Получить во вкладках «Яндекс» и «Google» страницы в индексе поисковых систем. Затем в статистике сканирования просмотреть адреса страниц в «Найдено в Яндекс, не обнаружено на сайте» и «Найдено в Google не обнаружено на сайте».

Яндекс.Вебмастер

В разделе «Индексирование» — «Структура сайта» просмотреть все «ветви» структуры.

В разделе «Поисковые запросы» — «Статистика страниц» выгрузить все страницы и просмотреть список. Таким способом можно обнаружить страницы, которые никак больше нельзя найти. 

Как закрыть ссылки от индексации

Способ №1

Шаг 1.

Первое, что нужно сделать это в файл Подвал (footer.php) нужно добавить код вызова функции скрипта. Для этого открываем административную панель WordPress. Далее «Внешний вид» > «Редактор» > «Подвал»


Вставка кода в подвал

И перед закрытием тега боди </body> вставляем код

<script type= "text/javascript">function GoTo(link){window.open(link.replace("_","http://"));}</script>

Шаг 2.

Для того чтобы ссылки не отличались о остальных ссылок на вашем сайте, я имею ввиду внешний вид. В таблицу стилей style.css следует добавить стили ваших основных ссылок, при этом класс должен быть spanlink.

.spanlink {
color: #267DB3; /*цвет ссылки*/
cursor:pointer; /*курсор при наведении на ссылку*/
}

.spanlink:hover {
color: #5588AA; /*цвет ссылки при наведении*/
text-decoration: none; /*отсутствие подчёркивания при наведении*/
}


Добавление стилей

Разумеется, вы подставляете свои цвета и стили.

Шаг 3.

Теперь любую ссылку можно закрыть использую следующий код:

<span class="spanlink" onclick="GoTo('http://Ваша ссылка')">текст ссылки</span>

Следующие два шага можно и не делать это по желанию.

Шаг 4.

Для того чтобы облегчить закрытие ссылок в статьях можно внести дополнительный код в файл функции темы (functions.php):

function replaсe_link($content) {

$pattern = '/\(.*?)<a (.*?)href=(+:\/\/)?(.*?)(.*?)>(.*?)<\/a>(.*?)\[\/urlspan\]/i';

$content = preg_replace($pattern, "$1<span class='spanlink' onclick=\"GoTo('_$4')\"><span>$6</span></span>$7", $content);

return $content;

}

add_filter('the_content', 'replaсe_link');

Этот код позволит вашу обычную ссылку заключать в теги и при этом закрывать её от индексации.

Шаг 5.

Теперь для закрытия ссылки нужно будет заключить ссылку в теги :

<a href="http://ВАША ССЫЛКА">Текст ссылки</a>

На мой взгляд, — это самый удобный способ.

Способ №2

Данный способ отличается от первого, только исполнением с помощью jQuery. Но принцип работы у них одинаков.

Шаг 1.

Также открываем «Внешний вид» > «Редактор» и файл footer.php, как показано в первом способе и перед закрытием тега боди </body> вставляем код:

<script type="text/javascript"> jQuery(document).ready(function($) {     $('.spanlink').click(function(){         window.open( $(this).attr('rel') );    }); });</script>

Шаг 2.

Так как и в первом и во втором способе используется одинаковый класс (.spanlink). То стили, которые мы рассматривали для вставки в файл style.css, будут работать и для этого способа.

Поэтому если Вы экспериментировали с первым способом и сохранили стили, здесь можно пропустить это шаг. Если же Вы не применяли стили, следует это сделать в файле style.css, как показано в первом способе.

Шаг 3.

Закрытие ссылки через тег СПАН:

<span class="spanlink" rel="http://ВАША ССЫЛКА" title="Подсказка">текст ссылки</span>

Закрытие ссылки с использование тега А (при этом способе не нужны дополнительные стили, т.е не нужен шаг 2 вообще):

<a href="#" class="spanlink" rel="http://ВАША ССЫЛКА" title="Подсказка">текст ссылки</a>

То есть вместо настоящей ссылки указываем #, а адрес ссылки пишем через атрибут rel.

Вот такие вот два способа позволяющие 100% закрыть ссылки от индексирования. И ни в коем случае не стоить путать эти способы с обманом или подменой ссылок. Да, вы закрываете ссылки от индексации, но перенаправляете посетителя именно туда, куда указывает анкор ссылки или изображение. Так как, обманув своих посетителей, вы теряете доверие своих посетителей.

Итак, друзья пробуйте, и смотрите на динамику изменения исходящей ссылочной массы. Теперь вы контролируете все исходящие ссылки и их появление в посковиках. А те ссылки, которые уже проиндексирована, они уйдут из выдачи со временем.

Так же смотрите видеоурок, в котором наглядно показал применение данных способов на практике.

httpv://www.youtube.com/watch?v=embed/rrudWyBJLH8

На этом у меня сегодня всё, желаю удачи друзья! Жду ваших комментариев.

С уважение, Максим Зайцев.

Как закрыть сайт от индексации в robots.txt?

Показанные выше варианты закрытия сайта от индексации работают для всех поисковиков, а это бывает не всегда нужно. Так же, предыдущий способ достаточно неудобен в случае, если ваш ресурс состоит из большого количества страниц, и каждую из них нужно закрыть от индексации.

В этом случае лучше воспользоваться еще одним способом закрытия сайта от индексации. Данный вариант дает нам возможность более гибко закрывать от индексации не только сайт в целом, но и отдельные страницы, медиафайлы и папки.

Для полного закрытия от индексации вам нужно создать в редакторе кода NotePad++ файл с названием robots.txt и разместить в нем такую запись:

PHP

User-agent: *
Disallow: /

1
2

User-agent*

Disallow

User-agent со значением * означает, что данное правило предназначено для всех поисковых роботов. Так же вы можете запретить индексацию для какой-то поисковой системы в отдельности. Для этого в User-agent указываем имя конкретного поискового робота. Например:

PHP

User-agent: Yandex

1 User-agentYandex

В этом случае запись будет работать только для Яндекса.

Обратите внимание. В строке User-agent может быть указан только один поисковый робот, и соответственно директивы Disallow, указанные ниже будут работать только для него

Если вам нужно запретить от индексацию в нескольких ПС, то вам нужно это сделать по отдельность для каждой. Например:

PHP

User-agent: Googlebot
Disallow: /
User-agent: Yandex
Disallow: /

1
2
3
4
5

User-agentGooglebot

Disallow

User-agentYandex

Disallow

Так же, директива Disallow позволяет закрывать отдельные элементы. Данная директива указывается отдельно для каждого закрываемого элемента. Например:

PHP

User-agent: Yandex
Disallow: *.jpg
Disallow: /about-us.php

1
2
3

User-agentYandex

Disallow*.jpg

Disallowabout-us.php

Здесь для поискового робота Yandex закрыты для индексации все изображение с расширением .jpg и страница /about-us.php.

Желаю вам успехов в создании сайтов. До встречи в следующих статьях!

С уважением Юлия Гусарь

Сокрытие информации при помощи мета-тегов

В качестве замены вышеописанного robots.txt можно воспользоваться похожим мета-тегом под названием «robots». Его необходимо вставить в изначальный код страницы, содержащийся в файле «index.html». Помещать его необходимо в контейнер. Также потребуется ввести краулеров, для которых индексация сайта будет недоступна. Если ресурс будет скрыт полностью, необходимо вставить «robots», если для конкретного поисковика – наименование его бота (Googlebot для Гугла и Yandex, соответственно, – для Яндекса). Мета-тег можно указать сразу в двух вариантах (они показаны на картинке снизу).

В обоих вариантах следует уделить особое внимание переменной «content», так как она обладает сразу несколькими значениями:

  1. «none» – полный запрет индексации;
  2. «noindex» – запрет только на индексацию контента;
  3. «nofollow» – запрет на индексацию различных адресов и ссылок;
  4. «follow» – разрешение на индексацию различных адресов и ссылок;
  5. «all» – разрешение на полную индексацию;
  6. «index» – разрешение только на индексацию контента.

То есть, вы можете наложить запрет на индексацию контента, но всё же оставить различные ссылки. В таком случае потребуется просто вести следующую строку: content= «noindex, follow». В итоге будет происходить индексация ссылок, в то время как текст обрабатываться не будет.

Закрыть сайт от индексации в файле .htaccess

Способ первый

В файл .htaccess вписываем следующий код:

SetEnvIfNoCase User-Agent "^Googlebot" search_bot
SetEnvIfNoCase User-Agent "^Yandex" search_bot
SetEnvIfNoCase User-Agent "^Yahoo" search_bot
SetEnvIfNoCase User-Agent "^Aport" search_bot
SetEnvIfNoCase User-Agent "^msnbot" search_bot
SetEnvIfNoCase User-Agent "^spider" search_bot
SetEnvIfNoCase User-Agent "^Robot" search_bot
SetEnvIfNoCase User-Agent "^php" search_bot
SetEnvIfNoCase User-Agent "^Mail" search_bot
SetEnvIfNoCase User-Agent "^bot" search_bot
SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot
SetEnvIfNoCase User-Agent "^Snapbot" search_bot
SetEnvIfNoCase User-Agent "^WordPress" search_bot
SetEnvIfNoCase User-Agent "^BlogPulseLive" search_bot
SetEnvIfNoCase User-Agent "^Parser" search_bot

Каждая строчка для отдельной поисковой системы

Способ второй и третий

Для всех страниц на сайте подойдет любой из вариантов — в файле .htaccess прописываем любой из ответов сервера для страницы, которую нужно закрыть.

  • Ответ сервера — 403 Доступ к ресурсу запрещен -код 403 Forbidden
  • Ответ сервера — 410 Ресурс недоступен — окончательно удален

Способ четвертый

Запретить индексацию с помощью доступа к сайту только по паролю

В файл .htaccess, добавляем такой код:

AuthType Basic
AuthName "Password Protected Area"
AuthUserFile /home/user/www-auth/.htpasswd
Require valid-user
home/user/www-auth/.htpasswd - файл с паролем - пароль задаете Вы сами.

Авторизацию уже увидите, но она пока еще не работает

Теперь необходимо добавить пользователя в файл паролей:

htpasswd -c /home/user/www-auth/.htpasswd USERNAME

USERNAME это имя пользователя для авторизации. Укажите свой вариант.

Как понимать «Попросить поисковые системы не индексировать сайт»

Вы задумывались, как поисковые системы индексируют сайт и оценивают его SEO? Они делают это с помощью автоматизированной программы, называемой пауком, также известной как робот или краулер. Пауки «ползают» по сети, посещая веб-сайты и регистрируя их контент. Google использует их, чтобы ранжировать и размещать веб-сайты в результатах поиска, извлекать фрагменты текста из статей для страницы результатов поиска и вставлять изображения в Картинки Google.

Когда устанавливается флажок «Попросить поисковые системы не индексировать сайт», WordPress изменяет файл robots.txt (файл, дающий паукам инструкции о том, как сканировать сайт). А еще может добавить метатег в заголовок сайта, который сообщает Google и другим поисковым системам, что сайт или какой-либо контент закрыт от индексации.

Ключевое слово здесь – «попросить»: поисковые системы не обязаны выполнять этот запрос, особенно поисковые системы, не использующие стандартный синтаксис robots.txt, который использует Google.

Сканеры по-прежнему смогут найти ваш сайт. Но правильно настроенные сканеры прочитают файл robots.txt и уйдут, не индексируя контент и не показывая его в результатах поиска.

В прошлом эта опция в WordPress не мешала Google показывать веб-сайт в результатах поиска, просто индексируя его контент. Вы по-прежнему можете видеть, что ваши страницы отображаются в результатах поиска с ошибкой типа «Информация для этой страницы недоступна» или «Описание этого результата недоступно из-за файла robots.txt сайта».

Хотя Google не индексировал страницу, он также и не скрывал ее полностью. Эта аномалия привела к тому, что люди могли посещать страницы, которые им не предназначались. Благодаря WordPress 5.3 теперь он работает правильно, блокируя как индексацию, так и листинг сайта.

Представляете, как это разрушит SEO сайта, если случайно будет включен этот флажок? Критически важно использовать эту опцию только в том случае, если вы действительно не хотите, чтобы кто-либо видел контент – и даже в этом случае это не единственная мера, которую нужно предпринять

Зачем сайт закрывают для индекса?

Есть несколько причин, которые заставляют вебмастеров скрывать свои проекты от поисковых роботов. Зачастую к такой процедуре они прибегают в двух случаях:

    1. Когда только создали блог и меняют на нем интерфейс, навигацию и прочие параметры, наполняют его различными материалами. Разумеется, веб-ресурс и контент, содержащийся на нем, будет не таким, каким бы вы хотели его видеть в конечном итоге. Естественно, пока сайт не доработан, разумно будет закрыть его от индексации Яндекса и Google, чтобы эти мусорные страницы не попадали в индекс.

      Не думайте, что если ваш ресурс только появился на свет и вы не отправили поисковикам ссылки для его индексации, то они его не заметят. Роботы помимо ссылок учитывают еще и ваши посещения через браузер.

    2. Иногда разработчикам требуется поставить вторую версию сайта, аналог основной на которой они тестируют доработки, эту версию с дубликатом сайта лучше тоже закрывать от индексации, чтобы она не смогла навредить основному проекту и не ввести поисковые системы в заблуждение.

Проверить, что случайно не был заблокирован полезный контент

Перечисленные далее методы дополняют друг друга.

В настройках Компарсера перед сканированием снять галочку:

Проанализировать результаты сканирования справа:

Search Console (проверка полезных заблокированных ресурсов)

Важно убедиться, что робот Google имеет доступ к файлам стилей и изображениям, используемым при отображении страниц. Для этого нужно выборочно просканировать страницы инструментом «Посмотреть, как Googlebot», нажав на кнопку «Получить и отобразить»

Полученные в результате два изображения «Так увидел эту страницу робот Googlebot» и «Так увидит эту страницу посетитель сайта» должны выглядеть практически одинаково. Пример страницы с проблемами:

Увидеть заблокированные части страницы можно в таблице ниже:

Подробнее о результатах сканирования в справке консоли. Все заблокированные ресурсы нужно разблокировать в файле robots.txt при помощи директивы Allow (не получится разблокировать только внешние ресурсы). При этом нужно точечно разблокировать только нужные ресурсы. В приведённом примере боту Гугла запрещён доступ к папке /templates/, но открыт некоторым типам файлов внутри этой папки:

User-agent: GooglebotAllow: /templates/*.cssAllow: /templates/*.jsAllow: /templates/*.pngAllow: /templates/*.jpgAllow: /templates/*.woffAllow: /templates/*.ttfAllow: /templates/*.svgDisallow: /templates/

Как закрыть от индексации отдельные страницы

У открытого для поисковиков сайта не все страницы должны быть открыты для поисковиков. Некоторые разделы нужно закрыть от индексации.

Как правило, от индексации скрывают следующее:

  • Страницы пагинации
  • всевозможные дубли
  • файлы темы
  • Другое

Способы реализации:

  1. Файл robots.txt
  2. Meta name robots
  3. Rel canonical

Как правило, эти три способа используются параллельно.

Robots.txt

На своем блоге я уже рассказывал вам, как создать robots txt. В нем можно задать рекомендации и для яндекса, и для гугла: что индексировать (allow), а что нет (disallow).

Таким образом скрывают от индексации целые разделы сайта (которые представляют из себя мусор для поиска или дубли).

Meta name robots

С помощью следующего кода можно скрывать отдельные страницы, например, пагинации:

<meta name ="robots" content ="noindex, follow"/>.
  • Noindex даёт указание поисковикам не индексировать
  • Follow разрешает переходить по ссылкам. Лучше не запрещать ходить по ссылкам, роботы должны хорошо понимать структуру интернет-ресурса.

Но добавить этот код в header.php уже не получится, т.к. этот код должен быть только у отдельных страниц. Сделать это получится либо с помощью спец плагинов, либо верстальщиков.

Атрибут Rel=canonical

А теперь поговорим про атрибут Rel canonical.

Страницы бывают канонические и неканонические. Канонические — это главные исходные, которые должны быть в поиске. А неканонические — это дубли, контент которых почти такой же, как у главной.

Такое часто встречается в интернет магазинах. Например, в каталоге представлены товары. Для поиска товаров используется множество фильтров.

Когда пользователь пользуется фильтром, получается как бы новая страница. Но она не должна попасть в поиск. Она должна весь свой вес, поведенческие факторы передавать на каноническую исходную.

Атрибут rel = canonical позволяют сказать поисковикам, что эта ссылка является дублем, её не нужно добавлять в поиск, а весь её вес, все поведенческие факторы должны давать плюс в карму канонической. Формат записи следующий:

<link rel="canonical" href="http://site.ru/glavnaya-str" />

Прописывается на страницах-дублях с указанием главной канонической. Но как это сделать самому, я не знаю. Можно воспользоваться специальными плагинами. Тот же SEO by yoast расставляет эти атрибуты автоматически, например, когда статья находится одновременно в двух рубриках.

Если страница по-прежнему в индексе

Бывает случается так. Вы сделали всё от вас зависящее, а некоторые ссылки-дубли по-прежнему находятся в индексе Яндекса и/или Гугла.

В этом случае удалите ее вручную в панели вебмастера яндекса и гугла соотвестственно.

Вот ссылки:

  • Для Яндекса — https://webmaster.yandex.ru/tools/del-url/
  • Для Гугла — https://search.google.com/search-console/removals

Таким образом нельзя удалить любую ссылку. А только те, которые запрещены к индексации или не существуют.

Как скрыть сайт от индексации через robots.txt?

Это самый простой и распространенный инструмент, который позволяет скрыть весь ресурс или отдельные страницы. Работа выполняется так:

  • найдите или создайте файл robots.txt, который должен быть размещен в корне сайта;
  • пропишите в нем код, предупреждающий индекс.
  • User-agent: * Google. Можно использовать название любой поисковой системы
  • Disallow: /

Если вы хотите скрыть отдельную страницу, то код будет выглядеть так:

  • User-agent: * Google
  • Disallow: /catalog/URL-страницы

Если нужно полностью закрыть ресурс для всех ПС, то в первой строке напишите User-agent: *. Для скрытия картинок используется комбинация:

  • User-Agent: *
  • Disallow: *.jpg (или любой другой необходимый формат)

Для скрытия папки первую строку оставьте неизменной, во вторую добавьте Disallow: /folder/. С помощью этих рекомендаций вы сможете быстро скрыть сайт от индексации в robots.txt, возвращение в индекс выполняется в обратном порядке.

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Знай и умей
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: