Как ускорить индексацию сайта

Содержание
  1. Индексация сайта простыми словами
  2. Что такое индексация
  3. Шаг No1. Добавьте ваш блог в сервисы для вебмастеров
  4. Шаг No2.  Создание файла Sitemap.xml
  5. Шаг No3.   Добавление файла Sitemap в сервисы для вебмастеров
  6. Шаг No4.   Делаем ссылку в меню блога «Архив статей»
  7. Шаг No6. Поставьте везде в соц.аккаунтах ссылку на ваш блог
  8. Как происходит сканирование сайта
  9. Индексация сайта в поиске
  10. Как ускорить индексацию?
  11. Советы по ускорению индексации
  12. Как запретить индексацию?
  13. 3 основных способа запретить индексацию:
  14. Ранжирование
  15. Клики из поиска
  16. «Свежий» ключевой запрос
  17. Структура URL
  18. Способы быстрой индексации сайта
  19. Запрет индексации страниц
  20. Как проверить разрешена индексация/сканирование страницы в Robots.txt
  21. Индексирование
  22. 1. URL Inspection Tool для проверки URL (бывший Fetch & Render)
  23. 2. Sitemap
  24. 3. Google Indexing API
  25. Удаление страниц из индекса
  26. Индексация сайта в Google и Яндекс
  27. Индексация в Google
  28. Индексация в Яндексе
  29. Как проверить индексацию?
  30. Как проверить индексацию:
  31. Как сделать проверку индексации сайта
  32. Этапы индексации сайта
  33. Используйте сервисы пингования
  34. Индексация Bing.com
  35. Заключение

Индексация сайта простыми словами

Так что же такое индексация: если кратко, то индексация (или индексирование, indexing) — один из процессов работы поисковых систем по построению поисковой базы в результате которого содержимое страниц попадает в индекс поисковой системы.

Для большей ясности приведу терминологию, а потом опишу все процессы.

Терминология

Планировщик (Scheduler) — программа, которая выстраивает маршрут обхода интернета роботами исходя из характеристик страниц, таких как частота обновления документов, востребованность этих страниц, цитируемость.

Crawler, Spider (Паук) Googlebot, YandexBot. Робот, ответственный за обход и скачивание страниц из интернета в порядке очередности, который задается планировщиком. Подразделяются на:

Основной робот, обходящий контент в порядке общей очереди.
Быстрый робот (быстроробот или быстробот).  Робот, который использует свежий индекс, на основе группы заданных хабовых страниц с важной, часто обновляемой информацией, например, с новостями популярных СМИ.

Сканирование (Crawling) — процесс загрузки страниц краулером в результате чего они попадают в хранилище, в виде сохраненных копий.

Краулинговый спрос: это то, как часто и в каком объеме робот бы хотел сканировать конкретные страницы.

Краулинговый лимит: ограничения скорости сканирования на стороне сайта, связанные с производительностью сайта или заданным вручную ограничением.

Краулинговый бюджет — это совокупность краулингового спроса и доступной скорости сканирования сайта (краулингового лимита). Простыми словами — это то сколько робот хочет и может скачать страниц.

Сохраненная копия — необработанная копия документа на момент последнего сканирования.

Поисковый индекс — информация со страниц, приведенная в удобный для работы поисковых алгоритмов формат. Список всех терминов и словопозиций где и на каких страницах они упоминаются. Информация хранится в базе в виде инвертированного индекса. Схематический пример:

Индексация — процесс загрузки, анализа содержимого документа документа с последующим включением в поисковый индекс.

Поисковая база — это совокупность поискового индекса, сохраненных страниц и служебной информации о документах, таких как заголовки, типы и кодировка документов, коды ответов страниц, мета теги и др.

Что такое индексация

Индексация — попадание страниц сайта в базу данных поисковых систем с последующим участием в результатах поисковых выдач. Индексация осуществляется с помощью специальных поисковых ботов — это программное средство, специальный скрипт поисковой системы, который опрашивать интернет ресурсы с определенной целью. У каждой поисковой системы свои боты. При этом каждый поисковый бот выполняет определенные, возложенные на него функции. Например, у яндекса есть бот, который индексирует только файл favicon.ico. Нас же, конечно, интересует в первую очередь поисковый бот, предназначенный для индексации станиц интернет ресурса.

Зайдя на сервер, бот прежде всего ищет файл robots.txt, в котором задаются параметры индексации. Созданию и настройке файла Robots.txt посвящена отдельная статья на моем блоге, там подробно описывается, как разрешить или запретить индексировать ресурс целиком или какие-то определенные его части.

Скорость индексации сайта напрямую зависит от того, как быстро боты поисковых систем заходят на ваш интернет ресурс после появления на нем нового материала. Конечно, чем быстрее, тем лучше. К сожалению, нет какой-то универсальной кнопки, нажав на которую, поисковики тут же слетятся. Данная проблема особенно остро стоит перед молодыми интернет ресурсами. Вопрос осложняется еще и тем, что по логике поисковики считают оригиналом ту статью, которую первой проиндексировали. То есть, если кто-то подсуетился и украл ваш контент, и на его интернет ресурсе он проиндексировался раньше, то его автором в глазах поисковиков будете вовсе не вы, а гадкий воришка

Вот почему так важно с самого начала следить за его индексацией и стремиться ее ускорить

Шаг No1. Добавьте ваш блог в сервисы для вебмастеров

Для Яндекса это сервис «Яндекс.Вебмастер». Вам нужно либо зарегистрироваться, либо зайти под своим логином и паролем, если у вас есть уже аккаунт на Яндексе.

Далее нужно добавить в этот сервис свой сайт через специальную форму.

После добавления адреса вам нужно будет подтвердить права на его владение, а именно скачав специальный файл от сервиса и разместив его в папке с вашим сайтом на хостинге. В самом сервисе приводится подробное объяснение, думаю, разберетесь.

Для Google это сервис «Инструменты для Вебмастеров». Почти все то же самое. Регистрируетесь или входите через аккаунт Google, если он у вас есть, добавляете сайт и подтверждаете права на него.

Добавление блога в эти сервисы сообщает поисковикам, что у вас есть сайт и пора обратить на него внимание

Шаг No2.  Создание файла Sitemap.xml

Так называемая карта сайта. Для этого существуют специальные плагины, которые автоматически такую карту генерируют. Например, если блог на MaxSite CMS, обычно используют стандартный плагин «xml_sitemap».

Если у вас блог на каком-то другом движке, то набираете в поисковики «плагин для генерации sitemap для X», где вместо X поставить название вашего движка. Уверен, что-то обязательно найдете.

Если вы все установите правильно, то по адресу вашсайт.ru/sitemap.xml появится карта сайта. Ну бывают исключения, в зависимости от движка, что адрес карты сайта другой, но, в основном, так.

Шаг No3.   Добавление файла Sitemap в сервисы для вебмастеров

В сервисах, о которых мы говорили выше, есть возможность добавить адрес карты Sitemap вашего сайта.

В сервисе Яндекса нужно выбрать в левом меню «Настройки индексирования» — «Файлы Sitemap» — «Добавить».

В сервисе от Google выбрать в левом меню «Сканирование» — «Файлы Sitemap» — «Добавить».

В файле Sitemap приведены все (или почти все) страницы вашего блога, поэтому, когда поисковики загрузят данный файл к себе, то ваш сайт проиндексируется довольно быстро.

Шаг No4.   Делаем ссылку в меню блога «Архив статей»

По умолчанию, такая ссылка есть на любом блоге, поэтому просто её не убирайте. По сути, это та же карта сайта, только в привычном для нашего глаза формате

Это тоже позволит поисковикам довольно быстро индексировать ваш блог.

Для создания RSS с возможностью подписки на новости рекомендую воспользоваться сервисом FeedBurner от Google.

После настройки RSS ленты желательно добавить её адрес в каталоги RSS. Где искать эти каталоги? Да очень просто, вбиваете в поисковике «добавить RSS» или «RSS каталог» и добавляете туда свою ленту.

Еще один вам плюс к быстрой индексации сайта, так как на RSS каталоги частенько посещают поисковые роботы.

Шаг No6. Поставьте везде в соц.аккаунтах ссылку на ваш блог

По любому, вы где-то зарегистрированы: Вконтакте, Facebook, Google+, Twitter, Одноклассники и т.п. Так вот, везде есть поле «Сайт», куда нужно добавить свой сайт.

Если у вас несколько аккаунтов в разных соц.сетях, то нужно написать адрес вашего сайта в каждый из них. На сайтах соц.сетей поисковые роботы буквально живут. Поэтому, все что туда попадает, довольно быстро индексируется.

Шаг No7. Добавляйте адрес вашего блога везде, где только можно

Я не имею в виду специально спамить все попавшие под руку каталоги и сайты. Но возьмите за правило: если вы где-то регистрируетесь и видите поле «Сайт», которое можно заполнить, то это поле не должно остаться пустым.

Регистрируетесь где-то – укажите сайт, оставляете комментарий на каком-то блоге – там тоже это поле есть. Чем больше адрес вашего сайта светится по Интернету, тем лучше индексация вашего сайта.

Но это еще не все… Здесь я рассказал вам, по сути, разовые способы, которые один раз настроил и они работают. Данные способы помогают заявить о вашем сайте поисковым системам, чтобы они начали его индексировать ну и ускорить индексацию вашего блога в целом в несколько раз.

Но, чтобы добиться действительно быстрой индексации ваших статей, нужно выполнять определенные ритуалы при добавлении каждой статьи.

Например, данные ритуалы помогают загнать страницу в индекс Яндекса и Google в течение 1 дня после её выпуска, порой даже быстрее.

Как происходит сканирование сайта

Так как ресурсы поисковых систем не безграничны, планировщик составляет очередь обхода страниц, исходя критериев их полезности, востребованности, популярности и др. Каждый сайт получает свой краулинговый бюджет исходя из скоростных характеристик сайта и таких критериев как:

  1. Доля полезных/мусорных страниц на сайте, дубликаты
  2. Спамные и малополезные страницы
  3. Наличие бесконечной генерации страниц, например, некорректной фасетной навигации
  4. Популярность страниц
  5. Насколько актуальные версии страниц сайта, содержащиеся в поисковой базе

Робот в постоянном режиме скачивает страницы и помещает их в хранилище, заменяя старые версии. Мы можем увидеть их в виде сохраненных копий. Далее уже происходит индексация страниц.

Индексация сайта в поиске

Теперь, когда мы рассказали, что такое индексация, почему она так важна и как её проверить, приступим к практике.

Как ускорить индексацию?

Мы писали выше, что управлять индексацией, что бы кто не говорил, вы не можете. Но повлиять на процесс или даже ускорить возможно. 

Советы по ускорению индексации

  • Обязательно добавьте сайт во все сервисы Яндекса и Google, особенно в Яндекс Вебмастер и Google Search Console.
  • Создайте sitemap.xml, поместите карту в корень сайта и постоянно обновляйте.
  • Следите за robots.txt и исключайте ненужные страницы (об этом ниже).
  • Выберите надёжный и быстрый хостинг, чтобы робот мог беспрепятственно индексировать содержимое сайта.
  • Используйте инструменты Яндекс Вебмастера (Индексирование → Переобход страниц) и Google Search Console (Проверка URL → Запросить индексирование). Способ идеально подходит для работы с отдельными страницами. 
  • Если ваша CMS любит создавать дубли (например, Битрикс), то используйте атрибут rel=canonical.
  • Автоматизируйте создание новых ссылок со старых страниц. Как вариант, можно сделать блок на главной с новыми товарами или статьями.
  • Ведите соцсети и анонсируйте новые товары, услуги, страницы. Замечено, что ссылки с соцсетей могут ускорить процесс.
  • Создавайте качественный контент на каждой странице. Под качественным контентом мы понимаем актуальную, релевантную и уникальную информацию для пользователей.
  • Работайте над структурой сайта и делайте её удобной и понятной пользователю. Помните о правиле 3 кликов: это оптимальное количество действий для пользователя.
  • Проверяйте периодически сайт на вирусы и санкции поисковых систем. В Яндекс Вебмастере раздел Диагностика → Безопасность и нарушения, в Google Search Console — раздел Проблемы безопасности и меры, принятые вручную.
  • Улучшайте свой ссылочный профиль и пишите анонсы на других сайтах (в рамках правил поисковых систем).
  • Используйте родные браузеры (Chrome, Яндекс Браузер) и заходите на новые страницы с них.

Как запретить индексацию?

Выше мы рассмотрели основные способы, как ускорить индексацию, и рассказали, что такое краулинговый бюджет и почему он ограничен для каждого сайта. Поэтому чтобы его не тратить зря, советуем закрывать от индексации служебные и технические страницы, кабинеты пользователей и конфиденциальную информацию, а также страницы в разработке и дубли. 

3 основных способа запретить индексацию:

  1. Директива Disallow в файле robots. Мы писали, что такой запрет может не сработать в отдельных случаях. Тем не менее это основной способ запрета индексации.
  2. В коде страницы указать метатег robots с директивой noindex (для текста) и/или nofollow (для ссылок). Хорошо подходит для запрета индексации отдельных страниц.
  3. Настроить HTTP-заголовок X-Robots-Tag с директивой noindex и/или nofollow. Лучше всего подходит для закрытия индексации не HTML-файлов (PDF, изображения, видео и другие).

Используйте все наши советы по улучшению индексации на полную мощь.
Максимальное внимание уделите улучшению структуры и навигации и обновлению карты сайта.
Структура сайта должна быть проста и понятна, охватывать весь спектр ключевых запросов, а каждая страница сайта в идеале должна быть доступна в 3–4 клика

Для этого используйте дополнительные блоки на главной странице и в разделах.
Хорошо работает облако тегов: с помощью него часто получается продвигать категории, улучшать навигацию и полно охватывать семантику.
Для многостраничных сайтов действительно важно постоянно обновлять sitemap.xml
Зачастую в таких случаях карту делят на несколько частей, чтобы охватить весь список страниц. 
Настройте маски (автоматические шаблоны) метатегов для новых страниц в категориях и каталогах. 
Скорее всего, вам не обойтись без команды профессионалов, которые смогут обеспечить техподдержку, производство контента и SEO-продвижение.

Ранжирование

Предположим, что мы добились своего и контент проиндексирован. Как же теперь ускорить ранжирование?

Клики из поиска

Генерировать стоит не только трафик, но и переходы из поиска.

На Западе подобная тактика распространена для ТВ-рекламы. Например, в рекламе Суперкубка говорилось: «Идите в Google и введите в поиске ».

Стратегия позволяет увеличить CTR и лучше ранжироваться по предлагаемым запросам. Чем чаще запрос вводится в поиск, тем больше у него шансов попасть в автозаполнение.

«Свежий» ключевой запрос

Новый контент лучше ранжируется по «свежим» ключевым словам, тем, по которым поиску выгоднее показывать самые последние публикации.

Например, по запросу «кафе открытые в рождество 2019» будут отображаться более новые страницы, так как пользователям интересно получить актуальную информацию. Статьи и подборки подобными ключевиками будут быстрее подниматься в поисковой выдаче.

Сравните с запросом «История второй мировой войны». Введите этот запрос в Google прямо сейчас и вы, скорее всего, увидите много старых материалов. Такие результаты обновляются редко, попасть в ТОП по подобным запросам удастся не сразу.

Введите Google ключевики, по которым вы хотите ранжироваться, и посмотрите, насколько старые материалы попадают в ТОП. Выберите «свежие» ключевые слова и добавьте их в свой материал.

Структура URL

В прошлом в Google говорили, что позиция URL в структуре сайта влияет на ранжирование.

Когда Google видит новую страницу, ему не хватает сигналов, чтобы ранжировать ее. Существует много алгоритмов, которые «пытаются понять», какой позиции заслуживает сайт.

Например, The New York Times размещает все обзоры на книги в одном разделе newyorktimes.com/book-reviews. Все страницы в нем высоко ранжируются. Из-за этого новый URL, появившийся в том же разделе, может временно получить сигналы ранжирования раздела, что поможет быстрее начать хорошо ранжироваться.

У нового контента, опубликованного в «авторитетных» разделах временно будет преимущество в ранжировании перед остальными страницами, пока алгоритмы Google не проанализируют саму страницу.

Артур Латыпов, руководитель SEO Интеллект: Ранжирование материала также можно ускорить, размещая ссылки на тематических сайтах.

Способы быстрой индексации сайта

Если добавить ваш новый веб-ресурс в поисковые системы, которые вы знаете, индексация сайта произойдет гораздо быстрей. Добавить в Yandex — https://webmaster.yandex.ru/addurl.xml, в Google — https://www.google.ru/intl/ru/addurl.html.

Нужно создать карту сайта. Зарегистрироваться в сервисах webmaster.yandex.ru и www.google.com/webmasters. Указать там ваш файл sitemap.xml.

Для ускорения индексации сайта вам поможет регистрация в социальных закладках и сетях (bobrdobr.ru, memori.ru, twitter.com, vkontakte.ru и др.). Там можно добавлять разные страницы вашего сайта.

Заведите свои блоги на my.ya.ru, blogspot.com, blogs.mail.ru, livejournal.com и др. Добавьте в них записи со ссылками на страницы вашего сайта. По мере возникновения новых страниц на сайте, для их быстрой индексации поисковиками, добавляйте ссылки в ваших блогах на эти страницы.

Стоит зарегистрироваться в нескольких популярных каталогах и рейтингах. К примеру, регистрация на LiveInternet и Рамблер ТОП100 способна ускорить индексацию сайта из-за того, что роботы довольно часто заглядывают в ТОПы.

Поисковые боты очень любят посещать популярные блоги с их комментариями. При этом роботы тщательно отслеживают все ссылки в блогах. Попробуйте посещать такие блоги и оставлять там ненавязчивые комментарии со ссылками. Старайтесь соблюдать правила блога и ссылки вставлять в специально отведенные для этого места во избежание удаления вашего комментария как спама.

Еще один похожий совет для ускорения индексации сайта — это комментарии на форумах с большой посещаемостью. Как раз на форумах, кстати, абсолютно не запрещено вставлять ссылки, если они имеют отношение к вашему ресурсу. Форумы посещаются ботами не хуже чем блоги.

Довольно трудоемкими, но популярными считаются способы быстрой индексации веб-ресурсов при помощи размещения на сторонних ресурсах большого количества статей со ссылками на ваш сайт. Трудоемкость заключается в написании огромного количества статей с интересным и актуальным содержанием. Эти статьи выполняют функцию, подобную каталогу ссылок.

Необходимо построить четкую и грамотную структуру сайта. Ее построение должно быть легким и удобным для работы поисковых роботов со страницами сайта. Достичь этого вовсе не трудно. Принцип заключается в том, чтобы ссылки на всех страницах сайта направляли посетителя с одной страницы на другую.

Если ваш проект содержит огромное количество страниц, то для быстрой индексации сайта следует обратить внимание на следующий метод. Робот поисковика считывает и анализирует информацию, постепенно передвигаясь по страницам сайта

При довольно значительном количестве страниц он может просто не добраться до части последних страниц, которые значительно удалены от главной. При этом индексация сайта в поисковых системах ухудшается.
Идеальной в таком случае является древообразная четкая структура карты вашего сайта, в которой каждому ответвлению будет соответствовать некоторый подраздел с меньшим количеством страниц. Каждая страница сайта, желательно, должна быть в удалении не более трех кликов от главной.

В случае, если отдельные страницы сайта поисковые роботы не проиндексировали, следует ссылки на эти страницы разбросать по сторонним ресурсам. При индексации сайтов с вашими ссылками робот обязательно посетит и ваши страницы.

Чтобы индексация сайта происходила быстрей, необходимо обеспечить более частое посещение роботами его страниц. Для достижения этого вам придется довольно часто обновлять страницы сайта и пополнять новой информацией

И самое важное при этом наполнять сайт статьями и текстами со стопроцентной уникальностью

Запрет индексации страниц

Запрет индексации с помощью Meta Noindex/X-Robots-Tag

Для гарантированного исключения попадания страниц в индекс можно использовать атрибут Noindex Мета Тега Robots или HTTP-заголовка X-Robots-Tag. Подробнее про этот атрибут можно прочитать тут.

Важно: Использование запрета индексации в через Meta/X-Robots-Tag Noindex вместе с запретом в Robots.txt

При добавлении директивы Noindex в мета-тег Robots и http-заголовок X-Robots-Tag, чтобы ее прочитать, робот должен просканировать страницу, поэтому она должна быть разрешена в файле Robots.txt. Следовательно для точечного запрета индексации страниц иногда требуется снять запрет в robots.txt или добавить директиву Allow, чтобы робот смог переобойти эти страницы.

Несмотря на вышеописанное, запрет в robots.txt в большинстве случаев все таки приведет к тому, что страницы не будут индексироваться, но его нельзя использовать для закрытия персональных данных или страниц с конфиденциальной информацией.

Как запретить индексацию страницы в robots.txt

Стоит сразу упомянуть что запрет в robots.txt не является надежным методом закрытия страниц от индексации.

В файле robots.txt  указываются основные директивы для запрета или разрешения обхода/индексации отдельных страниц или разделов сайта.

Важно: Многие ошибочно считают что директива Disallow в Robots.txt служит для запрета индексации страниц, это не совсем так. Основная цель файла Robots.txt — управление трафиком поисковых роботов на сайте, а не индексацией / переиндексацией и разные поисковые системы по разному интерпретируют запрет

Многие вебмастера не понимают почему после запрета страницы в robots.txt она продолжает находиться в индексе и приносить трафик. Запрет посещения и обновления страницы роботом не означает, что он обязан удалить уже присутствующую в индексе страницу. К тому же для индексации не всегда обязательно физически сканировать страницу, информацию о ней можно собирать из различных источников, например, из анкоров входящих ссылок.

Почему заблокированные в robots.txt страницы отображаются в выдаче?

В Яндексе и Google различается механизм обработки директив файла Robots.txt.  Для Google директива Disallow в robots.txt запрещает лишь обход страниц, но не их индексацию из-за чего часто появляются страницы со статусом:

Для запрета индексации в Google через файл Robots.txt ранее использовалась незадокументированная директива Noindex в Robots.txt, но с сентября 2019 года Google перестал поддерживать ее.

На данный момент для надежного запрета индексации страниц в Google рекомендуется использовать атрибут Noindex Мета Тега Robots и HTTP-заголовка X-Robots-Tag.Яндекс же, наоборот, воспринимает запрет в Robots.txt Disallow: как сигнал к запрету и сканирования и индексирования сайта и после добавления директивы Disallow: страницы будут удалены из индекса.

Использование атрибута canonical для запрета индексации дубликатов

Для консолидации дубликатов или похожих страниц страниц используется атрибут canonical, который указывает поисковикам по какому адресу рекомендуется индексировать страницу. Носит рекомендательный нестрогий  характер.

Два типа использования:

  1. Тег <link> с атрибутом rel=»canonical»
  2. HTTP-заголовок rel=canonical

Использование директивы clean-param для удаления из индекса

Директива clean-param файла Robot.txt используется только Яндексом. Указывает незначащие параметры, которые будут по возможности вырезаться из URL-адресов при обходе сайта. Страницы, запрещенные в Clean-Param будут исключены из индекса.

Инструмент Параметры URL в Google Search Console

Похож на Clean-Param Яндекса в Robots.txt, но управляет только сканированием, а не индексацией.

Запрет индексации через файл .htaccess

Можно заблокировать сайт для посещения роботами с помощью директив в файле .htaccess:

SetEnvIfNoCase User-Agent «^Googlebot» search_bot

SetEnvIfNoCase User-Agent «^Yandex» search_bot

Запрет сканирования, индексации с помощью кодов ответа сервера 3хх/4хх

Чтобы гарантированно запретить роботам скачивать страницы, можно отдавать ботам при сканировании страниц коды:

  1. 301 редирект: особенно подходит для запрета дубликатов и склейки их с основными страницами;
  2. 403 Forbidden: доступ запрещен;
  3. 404 Not Found: не найдено;
  4. 410 Gone: удалено;

Как проверить разрешена индексация/сканирование страницы в Robots.txt

В ЯндексеПроверить доступна ли роботам страница или содержит запрет можно через. Инструменты -> Анализ robots.txt

В GoogleИнструмент проверки файла robots.txt

Важно: если файл robots.txt отдает 404 ошибку, боты считают что разрешено сканирование всего сайта без ограничений. Если файл отдает ошибку 5хх, то Googlebot считает это полным запретом на сканирование сайта, но если ошибка отдается более 30 дней — считает что разрешено сканировать весь сайт без ограничений

Яндекс любые серверные ошибки считает отсутствием файла robots.txt и отсутствием ограничений на обход и индексацию сайта.

Индексирование

1. URL Inspection Tool для проверки URL (бывший Fetch & Render)

Google совершенно не против ускорить индексацию. Для этого у него даже есть специальный инструмент для проверки URL. Он находится в Search Console и знаком оптимизаторам по старому Fetch&Render. Принцип действия URL Inspection Tool прост: вносите ссылку, и инструмент делает ее приоритетной при очередном сканировании ботом Google.

2. Sitemap

С помощью Sitemap можно быстро и просто проиндексировать контент в Google. Первое, что нужно сделать — указать в robots.txt путь к файлам Sitemap, прописав в конце команду Sitemap: с указанием списка файлов.

Второй вариант — внести Sitemap в Search Console. Для этого указываем относительный адрес на отчетной странице по файлам Sitemap и отправляем его. Файл обрабатывается быстро, но на сканирование всех адресов понадобится чуть больше времени. 

Есть еще один, правда, не очень распространенный способ — уведомить поисковик о файле Sitemap с помощью пинга. Для этого подходит любой браузер, в котором в строку поиска можно ввести google.com/ping? с URL-ом файла Sitemap. Выглядит это следующим образом:

Как только закончите, Google мгновенно поставит карту сайта в очередь для гуглбота, что значительно ускорит индексирование. Но сразу оговоримся — эти методы работают, если индексируемые страницы соответствуют стандартам качества Гугл.

3. Google Indexing API

Рассказать Google об удалении, изменении или добавлении новой страницы можно и с помощью инструмента Indexing API. Это относительно новый инструмент, позволяющий быстро обрабатывать тысячи адресов. 

В нижеследующем списке будут инструменты, которые работают сразу в двух направлениях: ускоряют индексирование и ранжирование.

Удаление страниц из индекса

Удаление страниц или каталогов через Search Console

Инструмент не запрещает страницы к индексации или сканированию — он лишь временно скрывает страницы из поисковой выдачи. Рекомендуется использовать только для экстренного удаления страниц, случайно попавших в выдачу, после этого уже физически удалить их или запретить сканирование/индексацию.

Ускоренное удаление из индекса страниц в Яндексе

На сайт должны быть подтверждены права. Можно удалить только страницы, которые недоступны для робота: запрещенные в robots.txt или отдавать код 3хх, 4хх.

Для удаления из индекса Яндекса страниц чужого сайта можно воспользоваться формой — https://webmaster.yandex.ru/tools/del-url/.

Требования к URL-адресам такие же: запрет в robots.txt или коды ответа 301, 403, 404, 410 и т.п.

Индексация сайта в Google и Яндекс

Принципы индексации у этих поисковых систем преимущественно одинаковые: краулинг → очистка → индексация → ранжирование. Но различия можно найти, поэтому расскажем о тех, которые известны.

Индексация в Google

Самое главное отличие — Google лучше ориентируется в англоязычном сегменте, то есть лучше воспринимает текст и запрос пользователя на английском. Разница на момент 2020, думается, незначительная, но учитывать стоит.

У Гугла 2 основных типа роботов: для мобильных сайтов и для десктопных. Новые сайты индексируются мобильными роботами и приоритет отдан мобильным версиям сайта, согласно алгоритму mobile-first индекс. 

Скорость индексации обычно выше, чем у Яндекса: на 1 страницу уходит неделя или меньше. Индекс обновляется постоянно, а некачественные страницы не удаляются из него, но при этом и не показываются пользователям.

Индексация в Яндексе

У Яндекса тоже 2 типа роботов: основной и быстрый (Orange). Основной робот занимается индексацией всего интернета, а быстрый отвечает за поиск самых свежих документов, чтобы информация была доступна как можно быстрее (от нескольких минут до пары секунд).

Обновление индекса происходит раз в несколько дней ночью, когда нагрузки на серверы меньше. Процесс индексирования сайта обычно занимает от недели до месяца, а некачественные страницы удаляются из индекса.

Как проверить индексацию?

Уточним сразу пару моментов. Индексацию нужно проверять как в Google, так и в Яндексе. Более того, вы должны знать изначальное количество страниц на сайте. Это можно сделать с помощью краулеров типа Xenu, Screaming Frog, Netpeak Spider и других.

Как проверить индексацию:

  1. Инструменты Яндекс Вебмастер и Google Search Console. В Вебмастере это Индексирование → Страницы поиска (отдельные страницы смотрите в инструменте «Проверить статус URL»). В Search Console откройте отчёт Покрытие → Страницы без ошибок (индексацию отдельных страниц ищите в Проверке URL).  
  2. Используйте оператор site. В поисковой строке Яндекса и Google введите site:name.com, где name — домен сайта. Под строкой поиска справа будет указано количество проиндексированных страниц. Если разница в количестве больше 10%, у вас проблемы с индексацией.
  3. RDS Bar и другие сервисы. RDS Bar — это бесплатный плагин для браузера. В нём вы узнаете не только количество проиндексированных страниц, но и получите другую полезную информацию. Также автор статьи советует воспользоваться сервисом a.pr-cy. Он позволяет провести хороший первичный аудит сайта и уже в самом начале выявить основные проблемы.

Как сделать проверку индексации сайта

Теперь поговорим о том, как провести проверку индексации вашего интернет ресурса и узнать, сколько именно страниц проиндексировано.

1. Прежде всего, попробуйте вбить URL адрес интересуемой страницы в простой поиск того же Google или Яндекса. В полученных результатах должна быть данная страница. Если страницы нет, то значит она не проиндексирована.

2. Чтобы проверить индексацию всех станиц сайта в Яндексе достаточно в поисковую строку вставить host:ваш-сайт.ru | host:www.ваш-сайт.ru и произвести поиск. Для Google достаточно вставить в поисковую форму site:ваш-сайт.ru

3. Также можно проверить свой сайт при помощи такого сервиса, как pr-cy.ru. Тут все просто и понятно устроено. Нужно просто вбить адрес вашего ресурса в поле, находящееся по центру, а затем нажать кнопку «Анализировать». После анализа вы получите результаты проверки и узнаете, сколько страниц проиндексировано в том или ином поисковике (сделать это можно в соответствующем разделе под названием «Основные показатели сайта»).

4. Если ваш сайт добавлен в сервис Яндекс Веб-мастер, то там тоже можно отслеживать индексацию страниц  веб-сайта данным поисковиком.

Материалы связанные с индексацией:

Подробности

Опубликовано: 24 Сентябрь 2013

Обновлено: 30 Декабрь 2015

Просмотров: 22134

Этапы индексации сайта

У поисковиков есть специальные роботы, с помощью которых поисковые системы проводят индексацию.

У Яндекса есть основной робот, который скачивает документы для их последующей индексации, его еще могут называть «спайдер» (от spider — паук), есть отдельный робот для индексации изображений, робот-зеркальщик, который определяет зеркала сайтов, быстроробот (посещает часто обновляемые сайты и практически мгновенно помещает новые страницы в индекс, при этом на их ранжирование влияют не все факторы, и после захода основного бота позиции могут измениться).

Полный список роботов Яндекса можно найти (однако, там есть боты сервисов, которые уже закрыты, например, Яндекс.Каталог).

У Google тоже множество ботов: робот для сканирования новостей, изображений и видео, мобильных сайтов и т.д. Полный список поисковых роботов Google можно найти в справке.

Рассматривать работу всех ботов мы не будем, достаточно понять принцип:

  1. Поисковая система узнает о новом сайте,
  2. Основной бот заходит на сайт и скачивает основные страницы для дальнейшего анализа, вся информация помещается в отдельную промежуточную базу.
  3. Дальше в дело вступает робот «краулер» (от crawl — ползать). Он сканирует документы из временной базы и обрабатывает контент:
    • Текст. Обработка текстового контента происходит в первую очередь. После изучения данные о нем передаются в очередь на добавление в основную базу поисковика.
    • Скрипты. Если на странице таковые есть, то при первом посещении страницы они игнорируются. Если краулер сканирует данную страницу не первый раз, и основная информация уже была проиндексирована, то в этом случае поисковик может попытаться определить содержимое скриптов. Грубый пример: если текстовый контент транслируется на страницу через скрипты и поисковик сумел их извлечь, то эти тексты будут добавлены в базу.
    • Ссылки. Если на страницах были найдены ссылки, еще не известные поиску, то информация о них передается основному боту и, как вы понимаете, процесс повторяется.

Это сильно упрощенная модель, но ее достаточно, чтобы понять, как все устроено.

Используйте сервисы пингования

Пингование — еще один способ оповещения поисковых систем о новом контенте. Когда вы отправляете пинг (сигнал), вы как будто «призываете» поисковых роботов прийти и проверить новый контент на вашем сайте.

Специальные пинг-сервисы, например Pingomatic, Pingler, Pingoat, встраиваются в движок вашего сайта и автоматически отправляют пинги поисковым системам, ускоряя процесс индексации.

В админке WordPress предусмотрена такая функция — в настройках нужно выбрать Написание → Сервисы обновления — и там указать список пинг-сервисов.

При использовании таких инструментов обязательно добавляйте только свежий контент и важные обновления, а также не переусердствуйте с отправлением пингов, чтобы поисковики не решили, что вы их спамите. Если планируете использовать автоматическое оповещение, вам пригодятся специальные WP-плагины для кастомной настройки пингования ― как часто отправлять пинги, после каких правок и т.д.

Индексация Bing.com

Если вы регулярно обновляете свой сайт, тогда рекомендую настроить время и скорость обхода вашего сайта Bing. Да, да.. такая возможность есть!

Управление обходом Bingbot — эта функция позволяет напрямую контролировать скорость, с которой робот Bingbot обходит ваш веб-сайт. Можно выбрать более быстрый или медленный обход, а также режим обхода Bingbot для каждого времени дня. Это позволяет ограничить деятельность Bingbot, пока на сайте много посетителей, что поможет эффективнее использовать пропускную способность. Ваш файл robots.txt имеет приоритет над заданными здесь параметрами. Вы можете настроить собственный путь обхода для Bingbot с помощью перетаскивания по схеме.

Заключение

Для того, чтобы ваш сайт хорошо индексировался, вы должны соблюдать совсем несложные требования. Нужно просто добавить его в Яндекс Вебмастер и Search Console, следить за регулярным выходом качественных материалов, своевременно исправлять ошибки и не нарушать правил.

Все это гарант того, что ваш проект будет на хорошем счету у роботов. А это, в свою очередь, будет иметь материальное значение. Ваши статьи будут выше в выдаче, дохода будет больше.

Некоторым новичкам бывает очень сложно разобраться со всеми тонкостями SEO-оптимизации. Очень много разной информации и не всегда она правильная. Если вы один из таких новичков, то я рекомендую вам пройти курс Василия Блинова “Как создать сайт”.

Из материалов с этого курса вы сможете узнать о том, как создать собственный информационный проект под монетизацию. Там рассмотрены наиболее важные нюансы, которые должен учитывать каждый вебмастер.

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Знай и умей
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: