Реклама в ПромоСтраницах – запустим быстро!

Заказать звонок
Телефон отдела продаж:
8 (800) 775-16-41
Наш e-mail:
mail@texterra.ru
Заказать услугу
Как скрыть сайт от поисковых роботов: 2 безотказных способа Редакция «Текстерры»
Редакция «Текстерры»

Что такое индексация, или индексирование сайта

Индексация сайта – процесс обработки его страниц поисковыми роботами. Он нужен, чтобы информация о странице и ее содержимом попала в базы данных поисковых систем. 

Сводка по сайту в Google Search Console

Отчеты по индексации – «Покрытие», «Файлы Sitemap» и «Удаления»

Индексирование состоит из трех этапов: сбор, валидация и запись полученных данных. 

Схема индексации Google

Так Google индексирует новые страницы сайтов

Качественные сайты индексируются быстро и в автоматическом режиме. Иногда это не идет ресурсам на пользу – страницы могут попадать в индекс преждевременно.

Продвинем ваш бизнес
Подробнее

Чем плоха преждевременная индексация

Вред преждевременной индексации может проявляться в разных ситуациях.

  • Изменение вида URL. Экспериментируя с разными вариантами внешнего вида ссылок, вы рискуете: краулер может проиндексировать тестовый вариант. Придется долго ждать, пока он покинет индекс, и в результатах поиска появятся ссылки на корректно настроенные URL страниц.

  • Изменение дизайна сайта или другие глобальные «перестановки». Аналогично: в индекс вместо финальной версии страницы может попасть тест.

  • Страница еще не оптимизирована под SEO. Например, не заполнены метатеги, не выделено семантическое ядро или ключевые фразы, по которым страница будет продвигаться в дальнейшем. 

  • Тестирование мобильной версии сайта на адаптивном шаблоне или на самостоятельном поддомене. Поисковые системы могут преждевременно проиндексировать несколько версий сайта, что приведет к ошибкам в индексе.

Последствия индексации в этих случаях будут серьезными. Если вы захотите, например, откатиться к предыдущей версии сайта, придется запастись терпением: поисковые системы уже проиндексировали изменения, и в индекс попадет некорректная версия сайта.

Читайте также
1 228 079
Продвижение сайта: 66 шагов, которые позволят вам выйти в топ

Если будете делать их самостоятельно, вам придется качественно выполнять работу девяти специалистов!

694 487
Что такое семантическое ядро и как его составлять

С него начинается продвижение сайта – пропускать нельзя.

339 323
96 причин не хоронить SEO – чек-лист по оптимизации сайта

Список можно скачать в конце статьи и сверяться с ним, проставляя «галочки».

Как закрыть страницу от индексации

В случае тестирования глобальных изменений можно закрыть сайт от индексации целиком. Если изменения будут вводиться только на одной странице, нужно закрыть от индексации только ее.

Как закрыть сайт от индексации с помощью robots

Метатег robots позволяет задать отображение страницы в результатах поиска + повлиять на ее индексацию.

Метатег можно добавлять как в код страницы, так и в HTTP-заголовок.

Чтобы запретить показ страницы в результатах поиска, добавьте следующий фрагмент в head-раздел страницы:

<!DOCTYPE html> <html><head> <meta name="robots" content="noindex" /> (***) </head> <body>(***)</body> </html>

Часто требуется запретить сканирование только определенному краулеру. Для этого необходимо указать его user-agent. Например, чтобы запретить сканирование только поисковому роботу Google, добавьте следующую строку: 

<meta name="googlebot" content="noindex" />

Если добавить код в HTTP-заголовок не удается, можно добавить этот же метатег в код страницы.

<meta name="robots" content="noindex, nofollow">

Так вы запрещаете индексировать страницу всем краулерам, которые понимают директивы в стандарте исключения для роботов.

Также вы можете запретить индексацию:

  1. Всех опубликованных на странице изображений:

  2. <meta name="robots" content="noimageindex">

  3. Страницы целиком – только поисковому роботу Google Новостей:

<meta name="Googlebot-News" content="noindex, nofollow">

Теперь страница не будет появляться в ленте Google Новостей.

Как закрыть сайт / папку / файл от индексации с помощью robots.txt

В стандарте исключения для роботов (он же robots.txt) вы можете ограничить индексацию не только отдельных страниц, но и целых разделов сайта.

Предупреждение о файлах robots.txt в «Центре Google Поиска»

Заблокировать показ страницы, отредактировав файл robots.txt – можно, но страница все равно может быть проиндексирована

Все директивы в стандарте исключения для роботов носят рекомендательный характер. Краулеры могут их не исполнять.

Даже если указана запрещающая директива, страница или раздел все равно могут быть проиндексированы. Кроме этого, краулеры поисковых систем могут по-разному интерпретировать синтаксис директив, а сами поисковые системы иногда вообще не поддерживают запрещающие директивы. 

Google и «Яндекс» работают с robots.txt корректно.

Чтобы запретить преждевременную индексацию краулерам всех поисковых систем, добавьте в стандарт исключения для роботов такую строку:

User-agent: * Disallow: /

Формально вы покажете поисковым роботам, что индексировать ваш сайт не нужно.

Чтобы запретить индексацию сайта только поисковому роботу «Яндекс», добавьте в стандарт исключения эту строку:

User-agent: Yandex Disallow: /

Иногда защитить от преждевременной индексации требуется определенную папку сайта. Для решения этой задачи добавьте в стандарт исключения следующую строку:

User-agent: *

Disallow: /vasha_papka/

(не забудьте заменить vasha_papka на закрываемую от индексации папку)

Закрыть от индексации можно и отдельный файл. Для этого пропишите поискового робота и укажите запрещающую директиву (disallow) в robots.txt:

User-agent: Yandex Disallow: /papka/vash_file.php

(не забудьте заменить vash_file.php на закрываемый от индексации файла)

Если вы хотите закрыть от преждевременной индексации какой-либо фрагмент текста, добавьте следующую директиву в код страницы:

<noindex>текст, индексирование которого нужно запретить</noindex>

Тег <noindex> понимают только поисковые роботы «Яндекса». 

Не путайте тег noindex с директивой noindex – директиву понимают и краулеры Google. Чтобы запретить появление страницы в результатах поиска Google – добавьте директиву noindex в HTTP-заголовок страницы или метатегом в код страницы.

Повторим

Преждевременная проверка страниц краулерам может навредить сайту, если в индекс попадают дубли страниц или тесты. Чтобы этого избежать, используйте один из трех лайфхаков:

  • укажите краулерам инструкцию в HTTP-заголовке;

  • пропишите директиву в стандарте исключения для роботов (robots.txt);

  • пропишите специальный тег в коде страницы.

Продвинем ваш сайт

в поиске «Яндекса» и Google

Подробнее
Поделиться статьей:

Новое на сайте

24 дек 2024
3 722
Что подарить проджекту на Новый год — 18 идей

Специалисты из разных компаний поделились своими вариантами.

24 дек 2024
23 932
Подборка лучших статей за 2024 год из блога «‎Текстерры»

Выбрали полезные материалы из нашего блога за уходящий год, которые посетители охотно читали.

24 дек 2024
5 683
Знаю, как заработать, но не буду: из дневника интернет-лузера

Вот и еще один год проведен без денег и славы.

Смотреть все статьи

У вас есть деловой запрос? Давайте обсудим!

Оставьте свои контакты, мы свяжемся с вами в ближайшее время.

Нажимая на кнопку «Оставить заявку», вы подтверждаете свое согласие на обработку пользовательских данных

Спасибо!

Ваша заявка принята. Мы свяжемся с вами в ближайшее время.