Что такое robots.txt: как настроить, где разместить и обязателен ли он

Файл robots.txt — это специальный текстовый файл, который подсказывает поисковым роботам, какие страницы сайта можно индексировать, а какие — нет. Его используют поисковые системы вроде Google, Yandex и других.

Проще говоря, robots.txt помогает управлять тем, что попадёт в поиск, а что останется скрытым от индексации.

robots.txt

Для чего нужен robots.txt

Основные задачи файла:

  • запрет индексации служебных разделов;
  • снижение нагрузки от роботов;
  • скрытие дублей страниц;
  • указание адреса sitemap.xml;
  • управление обходом сайта поисковиками.

Например, через robots.txt обычно закрывают:

  • админ-панель;
  • страницы корзины;
  • личный кабинет;
  • временные файлы;
  • кэш;
  • технические разделы CMS.

Обязателен ли robots.txt

Нет, файл не является обязательным.

Сайт будет работать и без него. Однако поисковые системы тогда будут самостоятельно решать, какие страницы индексировать.

На практике robots.txt рекомендуется почти для любого сайта:

  • блога;
  • интернет-магазина;
  • корпоративного сайта;
  • форума;
  • лендинга;
  • веб-приложения.

Где должен находиться robots.txt

Файл размещается строго в корне сайта.

Пример:

https://example.com/robots.txt

Именно по этому адресу поисковые роботы пытаются найти файл автоматически.

Нельзя размещать его в папках вроде:

/site/robots.txt
/public/robots.txt
/files/robots.txt

Поисковики их просто проигнорируют.


Как создать robots.txt

Это обычный текстовый файл.

Создать его можно:

  • в Блокноте Windows;
  • через VS Code;
  • через Nano/Vim на сервере;
  • через файловый менеджер хостинга.

Главное:

  • имя файла должно быть строго robots.txt;
  • кодировка — UTF-8;
  • расширение — .txt.

Базовая структура robots.txt

Простейший пример:

User-agent: *
Disallow:

Что это означает:

  • User-agent: * — правило для всех роботов;
  • Disallow: пустой — ничего не запрещено.

То есть сайт полностью открыт для индексации.


Как запретить разделы сайта

Пример:

User-agent: *
Disallow: /admin/
Disallow: /private/

Теперь роботы не будут индексировать:

https://example.com/admin/
https://example.com/private/

Как полностью закрыть сайт от индексации

Иногда нужно скрыть сайт на этапе разработки.

Для этого используют:

User-agent: *
Disallow: /

Символ / означает полный запрет.

Важно: перед запуском сайта этот запрет нужно убрать, иначе страницы не попадут в поиск.


Как разрешить доступ к отдельным файлам

Можно комбинировать правила:

User-agent: *
Disallow: /images/
Allow: /images/logo.png

Здесь папка закрыта, но конкретный файл разрешён.


Что такое User-agent

User-agent указывает, для какого робота действует правило.

Примеры:

User-agent: Googlebot
User-agent: Yandex
User-agent: Bingbot

Либо:

User-agent: *

для всех роботов сразу.


Как добавить sitemap.xml

Очень полезная настройка:

Sitemap: https://example.com/sitemap.xml

Это помогает поисковикам быстрее находить страницы сайта.

Полный пример:

User-agent: *
Disallow: /admin/
Disallow: /tmp/

Sitemap: https://example.com/sitemap.xml

robots.txt не защищает данные

Это очень важный момент.

robots.txt:

  • НЕ ставит пароль;
  • НЕ скрывает файлы от людей;
  • НЕ является системой безопасности.

Любой человек может открыть:

https://example.com/robots.txt

и увидеть закрытые пути.

Поэтому нельзя хранить там:

  • пароли;
  • приватные файлы;
  • секретные URL.

Для защиты используются:

  • авторизация;
  • пароли;
  • firewall;
  • настройки сервера.

Чем robots.txt отличается от noindex

Многие путают эти механизмы.

robots.txt

Запрещает роботу заходить на страницу.

noindex

Разрешает заходить, но запрещает добавлять страницу в поиск.

Пример meta-тега:

<meta name="robots" content="noindex">

Часто лучше использовать именно noindex, если страницу нужно скрыть из поиска, но оставить доступной для обхода.


Проверка robots.txt

Проверить файл можно:

  • вручную через браузер;
  • через инструменты вебмастера;
  • через консоль.

Полезные сервисы:


Пример robots.txt для WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://example.com/sitemap.xml

Пример robots.txt для интернет-магазина

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /search/

Sitemap: https://example.com/sitemap.xml

Частые ошибки

Неправильное расположение файла

robots.txt должен лежать только в корне сайта.


Случайный полный запрет

Очень распространённая проблема:

Disallow: /

После запуска сайта его забывают удалить.


Закрытие CSS и JS

Если закрыть стили и скрипты, поисковики могут неправильно анализировать сайт.


Использование robots.txt как защиты

Этот файл не предназначен для безопасности.


Итоги

robots.txt — это простой, но важный файл для SEO и управления индексацией сайта.

Он помогает:

  • направлять поисковых роботов;
  • скрывать технические разделы;
  • уменьшать количество мусорных страниц в поиске;
  • указывать sitemap.xml.

Для большинства сайтов robots.txt желательно настроить сразу после запуска проекта.

Leave a Reply

Your email address will not be published. Required fields are marked *