Как блокировать поисковые системы

Поисковые системы оснащены роботами (веб-пауками или ботами), которые сканируют и индексируют веб-страницы. Если ваш сайт или страница находится в стадии разработки или содержит нежелательный контент, роботам можно запретить сканировать и индексировать ваш сайт. Узнайте, как блокировать целые сайты, страницы и ссылки с помощью файла robots.txt или конкретные страницы и ссылки с помощью html-тегов <meta> </meta>. Читайте дальше, чтобы узнать, как запретить доступ к контенту определенным ботам.

Метод 1

Метод 1 из 2:

Блокировка поисковых систем с помощью файла robots.txt

Загрузить PDF

1
Ознакомьтесь с файлом robots.txt. Файл robots.txt представляет собой простой текстовый файл или файл ASCII, который сообщает веб-паукам поисковых систем, к каким частям сайта они могут получить доступ. Файлы и папки, перечисленные в файле robots.txt, не могут быть сканированы и индексированы поисковыми роботами. Используйте файл robots.txt, если:
- вы хотите скрыть определенный контент от поисковых систем;
- вы находитесь в процессе разработки сайта и не готовы к сканированию и индексации сайта пауками поисковых систем;
- вы хотите ограничить доступ авторитетным ботам.^{[1]XИсточник информации}
2
Создайте и сохраните файл robots.txt. Чтобы создать файл, откройте обычный текстовый редактор или редактор кода. Сохраните файл как robots.txt. Имя файла должно быть написано строчными буквами.^{[2]XИсточник информации}
- Не забудьте добавить «s» на конце.
- При сохранении файла выберите расширение «.txt». Если вы используете Word, выберите опцию «Обычный текст».
3
Создайте файл robots.txt с безусловной директивой disallow. Безусловная директива disallow позволит заблокировать поисковых роботов всех основных поисковых систем, тем самым избежав сканирования и индексации сайта. Добавьте следующие строки в текстовый файл:
- Использовать безусловную директиву «disallow» в файле robots.txt настоятельно не рекомендуется. Когда бот, такой как Bingbot, считает этот файл, он не проиндексирует ваш сайт, а поисковая система его не отобразит.
- User-agents (Агенты пользователя) — это еще одно название веб-пауков, или поисковых роботов.
- *: звездочка означает, что код применяется ко всем агентам пользователя.
- Disallow: /: косая черта указывает, что весь сайт закрыт для ботов.^{[3]XИсточник информации}
4
Создайте файл robots.txt с условной директивой allow. Вместо блокирования всех ботов, рассмотрите возможность блокировки доступа конкретных пауков к определенным частям сайта.^{[4]XИсточник информации} Основные команды условной директивы allow включают::
- Блокирование конкретного бота: замените звездочку рядом с User-agent на googlebot, googlebot-news, googlebot-image, bingbot или teoma.^{[5]XИсточник информации}
- Блокирование каталога или его содержимого:
  User-agent: *Disallow: /sample-directory/
- Блокирование веб-страницы:
  User-agent: *Disallow: /private_file.html
- Блокирование изображения:
  User-agent: googlebot-imageDisallow: /images_mypicture.jpg
- Блокирование всех изображений:
  User-agent: googlebot-imageDisallow: /
- Блокирование отдельного формата файла:
  User-agent: *Disallow: /p*.gif$
5
Подстегните ботов к индексации и сканированию вашего сайта. Многие люди не только не блокируют, а наоборот, приветствуют внимание пауков поисковых систем к своему сайту, чтобы он был полностью проиндексирован. Добиться этого можно тремя способами. Во-первых, можно отказаться от создания файла robots.txt. Если робот не найдет файл robots.txt, то продолжит сканировать и индексировать весь ваш сайт. Во-вторых, вы можете создать пустой файл robots.txt. Робот найдет файл robots.txt, увидит, что тот пуст, и продолжит сканировать и индексировать сайт. Наконец, можно создать файл robots.txt с директивой безусловного разрешения, используя код:^{[6]XИсточник информации}
- Когда бот, такой как googlebot, считает этот файл, то сможет беспрепятственно посещать весь ваш сайт.
- User-agents (Агенты пользователя) — это еще одно название веб-пауков, или поисковых роботов.
- *: звездочка означает, что код применяется ко всем агентам пользователя.
- Disallow: пустая команда disallow означает, что все файлы и папки являются доступными.
После редактирования файла robots.txt сохраните изменения. Вставьте файл в корневой каталог сайта. Например, если у вас домен www.yourdomain.com, поместите файл robots.txt по адресу www.yourdomain.com/robots.txt.
Реклама

Метод 2

Метод 2 из 2:

Блокировка поисковых систем метатегами

Загрузить PDF

1
Ознакомьтесь с HTML-метатегом robots. Метатег robots позволяет программистам устанавливать параметры для ботов или пауков поисковых систем. С помощью этих тегов ботам запрещают индексировать и сканировать весь сайт или отдельные его части. Также их можно использовать, чтобы заблокировать определенного паука поисковой системы от индексации контента. Эти теги указываются в заголовке HTML-файла.^{[7]XИсточник информации}
- Этот метод обычно используется программистами, которые не имеют доступа к корневому каталогу сайта.
2
Запретите доступ ботам к одной странице. Индексацию страницы и/или переход по ссылкам на странице можно запретить для всех ботов. Этот тег обычно используется, когда сайт находится на стадии разработки. После завершения работы сайта настоятельно рекомендуется удалить этот тег. Если вы не уберете тег, страница не будет проиндексирована или доступна для поиска через поисковые системы.^{[8]XИсточник информации}
- Запретите ботам индексировать страницу и переходить по любой из ссылок:
  <meta name=”robots” content=“noindex, nofollow”>
- Запретите всем ботам индексировать страницу:
  <meta name=”robots” content=“noindex”>
- Запретите всем ботам переходить по ссылкам на странице:
  <meta name=”robots” content=“nofollow”>
3
Разрешите ботам индексировать страницу, но не переходить по ее ссылкам. Если вы позволите ботам проиндексировать страницу, она будет проиндексирована. Если вы запретите паукам переходить по ссылкам, путь ссылки с этой страницы на другие будет заблокирован.^{[9]XИсточник информации} Вставьте в заголовок следующую строку кода:
4
Разрешите паукам поисковой системы переходить по ссылкам, но не индексировать страницу. Если вы позволите ботам переходить по ссылкам, путь ссылки с этой страницы на другие останется открытым. Если вы запретите ботам индексировать страницу, она не появится в индексе.^{[10]XИсточник информации} Вставьте в заголовок следующую строку кода:
5
Заблокируйте исходящую ссылку. Чтобы скрыть одну ссылку на странице, поместите тег rel внутри тега ссылки <a href> </a>. Используйте этот тег для блокировки ссылок на других страницах, которые ведут на конкретную страницу, которую вы хотите заблокировать.^{[11]XИсточник информации}
6
Заблокируйте конкретного поискового паука. Вместо блокирования доступа к странице для всех ботов, установите запрет на сканирование и индексирование страницы лишь для одного бота. Для этого замените слово «robots» в метатеге именем определенного бота.^{[12]XИсточник информации} Примеры: googlebot, googlebot-news, googlebot-image, bingbot и teoma.^{[13]XИсточник информации}
7
Подстегните ботов к сканированию и индексации страницы. Если вы хотите убедиться, что страница будет проиндексирована, а по ссылкам будут переходить, добавьте разрешающий мета-тег «robots» в свой заголовок.^{[14]XИсточник информации} Используйте следующий код:
Реклама