Написала: Карпова Ксения
Проверил: Орлов Андрей
Дата публикации: 01.09.2023
Дата обновления: 31.01.2024
Содержание:
1. Что такое robots.txt
2. Зачем Robots.txt нужен для SEO
3. Где находится и как создать
4. Настройка и редактирование
5. Как проверить Robots.txt
6. Правильный robots для WordPress
7. Правильный robots для Joomla
8. Правильный robots для Tilda
9. Правильный robots для Bitrix
10. Заключение
11. Вопросы и ответы
Видеообзор:
Robots.txt - это текстовый файл, который сообщает поисковым роботам (краулерам), какие страницы вашего сайта они могут индексировать, а какие нет. Он позволяет вебмастерам контролировать процесс индексации веб-сайта, чтобы поисковые системы не индексировали конфиденциальную информацию или страницы с техническим содержимым.
Корректный robots.txt может оказать значительное влияние на продвижение сайта и его позиции в поисковых системах. В этой статье мы подробно разберем, что такое robots.txt, зачем он нужен для SEO, где находится и как создавать такой файл. Рассмотрим основные директивы - User-Agent, Disallow, Allow, Crawl-delay и другие. Узнаете, как правильно проверить файл на ошибки и настроить для популярных CMS - WordPress, Joomla, Bitrix и Tilda.
Robots.txt - это текстовый файл, который сообщает поисковым роботам (краулерам), какие страницы вашего сайта они могут индексировать, а какие нет. Он позволяет вебмастерам контролировать процесс индексации веб-сайта, чтобы поисковые системы не индексировали конфиденциальную информацию или страницы с техническим содержимым.
В нем Web-мастер указывает правила для краулеров при индексации страниц сайта. Этот файл должен быть размещен в корневой директории сайта. Все краулеры, которые придерживаются стандартов (в частности, Googlebot и Яндекс), обращаются к данному файлу при попытке проиндексировать страницы ресурса.
Robots содержит специальные директивы, с помощью которых можно:
Используя robots.txt правильно, вебмастера могут улучшить восприятие ресурса поисковыми системами, повысить релевантность индексируемых страниц, оптимизировать нагрузку на сервер.
Он играет важную роль в продвижении сайта и оптимизации для поисковых систем.
Грамотное составление этого файла позволяет решить сразу несколько задач:
Грамотно настроенный Robots.txt - это первый шаг в технической оптимизации. Он позволяет существенно улучшить восприятие и индексацию сайта в Google и Яндекс.
Он должен располагаться в корневой директории сайта. Это может быть:
Поисковые роботы ищут его именно по этим адресам.
Чтобы его создать, достаточно сделать простой текстовый документ без форматирования. Можно воспользоваться почти любым текстовым редактором, например, блокнотом на Windows или аналогичными приложениями. Созданный файл также можно редактировать стандартными приложениями для работы с текстом, главное - сохранять последовательность директив.
Рекомендуется сохранять в кодировке UTF-8 с расширением txt. Кодировку можно указать в начале документа:
<?xml version="1.0" encoding="UTF-8"?>
Также файл можно создать через FTP, разместив простой текстовик в корне сайта:
Готово! Теперь этот файл будут учитывать все поисковые роботы при сканировании ресурса.
Для изменения или добавления новых директив достаточно открыть файл роботов, например, через FTP в программах FileZilla, Total Commander, WinSCP или аналогичных. Затем вносим нужные правки обычным copy-paste или вручную.
После редактирования нужна загрузка на сервер для применения изменений. Либо можно воспользоваться функцией "FTP-синхронизации", которая автоматически заменит старую версию при сохранении отредактированного документа. Также учитывайте, что максимальный размер файла роботс не должен превышать 32 кб. Ниже рассмотрим некоторые параметры.
Директива User-agent позволяет применять правила отдельно для разных поисковых роботов. Как правило, все файлы роботов начинаются с этой настройки.
Например, с помощью User-Agent можно задать одни ограничения для Googlebot, другие - для Яндексбот. Синтаксис:
User-agent: Googlebot
Disallow: /tmp/
User-agent: Yandex
Disallow: /texts/
В примере для Google закрыта папка /tmp/, а для Яндекс - каталог /texts/.
Также есть возможность указать через User-Agent общее правило для всех ботов сразу:
User-agent: *
Disallow: /private.php
Звездочка означает, что запрет распространяется на любых поисковых роботов без исключения.
Таким образом с помощью User-agent реализуется гибкое управление доступом к разным частям сайта.
Директива Disallow закрывает краулерам доступ к указанным страницам и каталогам на сайте.
Disallow позволяет исключить и закрыть к индексированию:
Прописывайте Dissalow после директивы User-agent для привязки правил к конкретному боту.
Формат записи:
Disallow: /folder1/
Disallow: /texts/tmp.html
Disallow: /texts/tmp2.html
Disallow: /texts/tmp3.html
Disallow: /texts/tmp4.html
Disallow: /texts/tmp5.html
Disallow: /texts/tmp6.html
С помощью Disallow можно значительно оптимизировать роботизированный доступ, повысить релевантность индексируемых страниц и снизить нагрузку на сервер.
Директива Allow, наоборот, разрешает индексацию для поисковых роботов.
Формат:
Disallow: /images/
Allow: /images/preview.jpg
Сначала мы запретили индексировать директорию /images/. Но с помощью Allow мы указали, что preview.jpg нужно включить в индекс.
Другой пример:
User-agent: *
Disallow: /texts/
Allow: /texts/arrivals.html
Здесь мы запрещаем индексировать каталог /texts/, но страницу /arrivals.html нужно проиндексировать.
При указании путей директив Allow и Disallow можно использовать символы * и $, чтобы задавать определенные регулярные выражения. Таким образом используя Disallow и Allow можно точно настроить доступ для роботов на сайте, разрешив индексацию только нужных страниц.
Тут указывается интервал между запросами робота к серверу в секундах.
Синтаксис:
User-agent: *
Crawl-delay: 10
В данном случае между запросами будет пауза в 10 секунд.
Использование этого параметра необходимо, чтобы:
Оптимальное значение паузы - 5-15 секунд. Ставить слишком большую задержку не рекомендуется, поскольку это замедлит индексацию.
Также можно указать разный интервал для разных ботов. Например, если Яндекс сильно нагружает сервер, добавим для него ограничение:
User-agent: Yandex
Crawl-delay: 60
К сожаления, Яндекс прекратил поддержку этого параметра, теперь задержка настраивается только в Вебмастере.
Директива Clean-param указывает поисковому краулеру проигнорировать всё после знака ? в URL страниц сайта.
Например, есть адрес:
http://site.ru/page.php?utm_source=email
С помощью Clean-param он будет обработан так:
http://site.ru/page.php
То есть робот проиндексирует только основной адрес страницы, игнорируя GET-параметры.
Это бывает полезно, чтобы избежать дублирования в индексе и сэкономить квоту за счет страниц с параметрами.
Применяется для всего сайта:
User-agent: *
Clean-param: on
По умолчанию параметр выключен, поэтому его нужно явно указывать.
Директива Host, к сожалению, уже не используется и устарела. Давайте просто вспомним, что она делала. Она нужна, чтобы указать канонический домен сайта. Это помогает избежать дублирования контента с разных зеркал.
Например, у сайта есть несколько доменов: site.ru, site.com, m.site.ru
Чтобы все индексировались как один сайт, укажем главный домен:
Host: https://site.ru
Теперь поисковые системы будут использовать site.ru как основной, канонический домен. Контент с других зеркал может попасть под фильтры как дубликат.
Директива Host обязательна, если:
Указывать следует только один канонический URL. Это позволит правильно индексировать сайт.
Robots.txt поддерживает комментарии, которые игнорируются роботами, но читаются человеком. Комментарии удобно добавлять для пояснения назначения директив. Вот пример кода:
# Запрет индексации папки с изображениями
User-agent: *
Disallow: /images/
#Ограничение скорости для Яндекс
User-agent: Yandex
Crawl-delay: 10
Так структура и назначение разных правил становится понятна при визуальном осмотре.
Комментарии полезны в работе особенно при коллективной разработке сайта - веб-мастер сразу видит пояснения к тем или иным ограничениям для роботов.
Чтобы указать поисковым роботам путь к XML-карте сайта со всеми ссылками, используется следующий код:
Sitemap: http://site.ru/sitemap.xml
или:
Sitemap: sitemap.xml
Это нужно для того, чтобы роботы могли быстрее обнаруживать и индексировать новые и обновленные страницы.
Преимущества указания XML-карты:
Поэтому на больших сайтах настоятельно рекомендуется добавлять путь к sitemap.xml в robots.txt как для Яндекс, так и для Google.
Правильное составление и проверка robots.txt - важная часть оптимизации сайта. От функционирования этого файла напрямую зависит процесс индексации страниц поисковыми роботами. Поэтому вебмастеру нужно сделать этот файл правильно и проверить его.
Один из простых способов провести анализ - загрузить файл robots.txt со своего сайта и визуально осмотреть его содержимое.
Вот краткая инструкция:
Этот способ подходит для быстрой визуальной проверки файла прямо на работающем сайте.
Для более глубокой автоматизированной проверки корректности robots.txt следует воспользоваться специальными инструментами в панелях вебмастера. Существует два варианта.
Google Search Console
Google предоставляет инструмент "Проверка robots.txt" в Search Console. Чтобы им воспользоваться нужно зайти по адресу https://www.google.com/webmasters/tools/robots-testing-tool
Это позволит увидеть список доступных и заблокированных страниц, а также получить предупреждения о потенциальных ошибках.
Яндекс Вебмастер
Аналогичный по назначению сервис есть в Яндекс Вебмастере - https://webmaster.yandex.ru/tools/robotstxt/. После проверки будет виден статус файла, список заблокированных страниц и ошибок при их наличии.
Рекомендуем пользоваться этими сервисами, чтобы посмотреть, какие неточности есть в файле.
Одна из распространенных ошибок - блокировка целого домена или корневой папки. Например:
User-agent: *
Disallow: /
В этом случае роботам запрещен доступ ко всему сайту!
Поисковые системы перестанут индексировать страницы, позиции упадут. А через некоторое время возможно полное исключение ресурса из поиска, если он перестанет отдавать ответы.
Поэтому вместо полной блокировки лучше указать конкретные разделы:
Disallow: /admin/
Disallow: /tmp/
Также частая ошибка - дублирование домена с www и без:
Disallow: http://site.ru/
Disallow: http://www.site.ru/
В такой ситуации лучше использовать директиву Host.
Еще одна частая ошибка - написание названий директив в верхнем регистре букв, например, DISALLOW вместо Disallow. Писать нужно с соблюдением регистра. Важно следить за правильностью robots.txt и своевременно исправлять возможные недочеты.
WordPress - одна из самых популярных CMS для создания сайтов. У нее есть некоторые особенности при работе с robots.txt.
Рассмотрим оптимальную конфигурацию для WordPress:
Грамотная настройка robots.txt ускорит индексацию именно уникального контента и позволит WordPress-сайту занимать высокие позиции в выдаче.
Joomla - популярный инструмент для создания сайтов средней сложности.
Эта CMS также имеет свои нюансы в настройке robots.txt:
Следуя этим рекомендациям, вы настроите корректную индексацию сайта на Joomla. Это улучшит видимость именно уникального качественного контента в поисковой выдаче Google и Яндекса.
Конструктор Tilda автоматически генерирует этот файл при создании сайта. В нем автоматом закрываются служебные разделы, не предназначенные для индексации. Поэтому вручную отредактировать или добавить какие-то правила скорее всего не потребуется.
В системе управления сайтами Bitrix также изначально есть этот файл. Но в нем закрываются только основные служебные разделы.
Для полноценной настройки под SEO придется внести дополнения вручную:
После этих доработок robots будет полностью готов для корректного сканирования страниц сайта на Bitrix.
Настройка robots.txt является важным этапом технической оптимизации сайта для поисковиков. Грамотный подход позволяет улучшить индексацию, снизить нагрузку на сервер и избежать других проблем, ускорить обнаружение нового контента. В зависимости от платформы и CMS могут быть свои нюансы. Но следуя основным принципам и рекомендациям, можно добиться эффективной работы этого важного SEO-файла.
Настраивать файл роботов и другие параметры сайта самостоятельно - довольно трудная задача, требующая знаний, поэтому стоит обратиться к нам. Мы можем оптимизировать ваш сайт. Также предлагаем разработку сайтов с нуля. Делаем семантическое ядро и пишем под него контент. Поможем владельцам бизнеса продвинуть свой магазин в сети с помощью контекстной рекламы.
Если вы хотите попасть в топ и получать постоянный поток трафика и новых клиентов, обновить свой сайт, свяжитесь с нами через форму обратной связи. Введите свои данные (номер телефона и имя). Можете оставить заявку или написать нам на электронную почту (email). Наш специалист ответит в течение дня, проведет бесплатную консультацию, подробнее ознакомит с нашими услугами, условиями и ценами. Продвигаем сайты в Москве и других городах.
Можете подписаться на наши соцсети - VK, Telegram, Facebook. Подписывайтесь на наш канал YouTube. Там вы найдете полезные видео, как работать с Google Search Console, Analitycs, Яндекс. Метрикой.
Можно ли временно закрыть сайт на реконструкцию через robots.txt?
Да, при крупных обновлениях или переносе на новую платформу так поступают. Главное потом не забыть удалить временные ограничения в robots.txt, иначе сайт так и останется "закрытым" для поисковиков.
Как быстро изменения в robots.txt вступят в силу?
Обычно роботы перечитывают этот файл каждые несколько часов. Но если загрузить свежую версию через инструменты для вебмастеров Яндекс или Google, изменения применят почти мгновенно - за считанные минуты, максимум 1-2 часа.
Можно ли поломать сайт неправильным robots.txt?
Сломать" технически - вряд ли. Но неправильные настройки этого файла могут привести к падению позиций, удалению сайта из поиска или другим негативным последствиям. Поэтому при редактировании нужна аккуратность и проверка. Лучше обратиться к опытному специалисту, если вы не уверены в своих силах.
Что будет если оставить файл робота пустым?
Пустой файл роботов - полная свобода для поисковых систем. На вашем сайте будет индексироваться всё, что сможет найти и увидеть бот. Это негативно влияет на сайт.
Статья написана экспертом Карпова Ксения
Копирайтер Skilful Web Developers
Контент проверил эксперт Орлов Андрей
Руководитель проектов по продвижению
Для получения дополнительной информации и консультации отправьте заявку и мы свяжемся с вами.