ЗАЧЕМ НУЖЕН ФАЙЛ ROBOTS.TXT?
Здравствуйте дорогие читатели блога myborder.ru.
Каждый, кто создал хоть один сайт и хочет заняться его SEO продвижением просто ОБЯЗАН знать об этом файле, хотя бы иметь представление о его содержимом, а так же как создать файл roobots и как настроить этот файл в wordpress или где-либо ещё, ведь в любой системе управления контентом (CMS) robots настраивается одинаково. Из статьи вы узнаете как настроить файл robots и конечно же его проверить.
ЧТО ИЗ СЕБЯ ПРЕДСТАВЛЯЕТ ФАЙЛ ROBOTS txt?
ROBOTS txt — это обычный текстовый файл, который содержит некие правила, указывающие какие разделы или страницы необходимо показать для индексации поисковых систем, а какие наоборот скрыть. Можно показать или запретить доступ для индексации как всего сайта, так и его части страниц.
Содержимое файла robots состоит в основном из так называемых ДИРЕКТИВ, иначе говоря команд. К примеру директива Allow — разрешает, а директива Disallow — наоборот запрещает индексирование.
Если к этой директиве добавить путь к файлу, странице, папке или целому разделу, то это уже будет целое правило. Приведем пример:
директива Disallow: */comment — запрещает индексировать комментарий на сайте, а директива
Allow: */uploads — разрешает индексировать файлы для загрузки.
Но кроме этих директив файл роботс может содержать и другие команды.
А зачем скрывать содержимое сайта от поисковых роботов?
Дело все в том, что поисковые сервера могут проиндексировать содержимое с паролями, файлы со скриптами, плагины и остальную информацию, которая не нужна поисковым роботам и такое положение дел, может навредить Вашему сайту. Более того поисковые системы (ПС) индексируют лишние страницы и в итоге у вас образуются дублирующие страницы, за которые поисковые роботы могут наказать ваш сайт, поэтому так важно знать как настроить файл txt robots.
А ГДЕ НАХОДИТСЯ ФАЙЛ ROBOTS или где найти этот файл?
ROBOTS.TXT обязательно должен лежать в корне вашего сайта и ни в коем случае в другом месте. Если у Вашего сайта есть поддомены, то для них нужно составить свой файл, причем для каждого отдельно.
То есть для домена свой и для каждого поддомена свой.
Зная о том, что этот файл robots находится в открытом доступе, то им могут воспользоваться хакеры и прочий сброд, с целью взлома Вашего сайта. И дабы не давать им для этого повода, старайтесь не указывать в нем явное расположение административных ресурсов. Так что если у Вас есть страница, на которую нет ссылок, то Вы её просто не прописывайте.
Присутствие файла крайне важно для сайта, особенно при SEO продвижении. Как только поисковый робот заходит на сайт, он тут же сканирует файл роботс.тхт и руководствуется им. А если такового нет, то поисковый робот не поймет что можно индексировать, а что нежелательно и в итоге проиндексирует всё подряд, а это скажется на вашем ресурсе впоследствии.
Но исходя из опыта, не все поисковые роботы одинаково реагируют на содержание этого файла. Вообще, Google прочитав файл роботс, принимает его к сведению, а вот Yandex наоборот прочитав его, обязательно исключает указанные страницы из индексирования, но никто не гарантирует, что в будущем эта политика останется в том же виде.
А сие означает, что Google может выдать запрещенные url файлом robots txt для индексирования, пренебрегая директивами в robots.txt файла. Гугл просто думает, что если на страницу ссылаются, то значит нужно её выдать в поисковой выдаче. Ведь суть данного файла — это явно указать файлы для индексирования или вычеркнуть страницы из индексации, а если вы их там перечислили, то понятное дело, на них есть ссылки…
Более того, robots.txt необходимо использовать .htaccess, с мета-тегом noindex (не путайте с тегом
Если же запрещенные страницы таки были проиндексированы, то тут появляется необходимость воспользоваться панелью инструментов для вебмастеров и живущим в его составе инструментом удаления страниц. Это говорит о том, что мало создать robots файл, но и обязательно уметь настроить robots txt.
В Yandex и Google есть панель вебмастера, где вы сможете просканировать страницы своего веб сайта и если в списке увидите, что есть ссылки, которые бы хотелось удалить, то там же есть инструмент для их удаления, с помощью которого можно удалить устаревшие или ненужные ссылки или страницы.
Как создать файл robots тхт?
Если вы еще не создали его, то создайте пустой файл, назовите его robots.txt и впишите туда следующие строки:
User-agent: *
Disallow: /cgi-bin
Host: вашсайтик.ru
Не забудьте в этом файле заменить вашсайтик.ru на название Вашего сайта. Эти строчки говорят о следующем:
User-agent: * — для какого поискового робота применять правила, в данном случае стоит знак *, значит эти правила для всех поисковых роботов. Роботы различных поисковиков и анализаторов (которых может быть сотни и тысячи) периодически сканируют интернет и читают txt robots файл и записывают анализ. Которые используют собранную информацию о сайтах тем или иным образом и тут важно создать и заполнить его правильно. Таким образом можно создавать правила сканирования для каждого поискового робота отдельно в одном файле:
User-agent: Google — правила для гугла
Disallow: /cgi-bin
.
Disallow: /tag
User-agent: Yandex — правила для яндекса
Disallow: /cgi-bin
.
Disallow: /tag
Disallow: /cgi-bin — запрещает индексировать скрипты находящиеся по этому пути.
Директива Disallow запрещает индексировать роботу поисковику одну или несколько страниц по указанному относительному пути. Конечно не все поисковые роботы учитывают этот параметр, но правила как обычно пишут для конечного потребителя, царям достаточно придумать указ. ))) Запрещают все административные файлы, файлы движка, настроек, вообщем всю техническую часть или можно запретить информацию, которую не желаете индексировать в сети как часто повторяющуюся в интернете, чтобы ваш ресурс не был пессимизирован(наложение санкции) ПС за плагиат.
Host: вашсайтик.ru — эта строка должна быть единственной в robots файле и обязательно находится последней строчкой внизу. Здесь нужно указать ваш основной сайт, если у вас основной www.вашсайтик.ru, то значит строчка должна быть директива Host в файле robots txt: www.вашсайтик.ru или вашсайтик.ru . Это очень важно для SEO продвижения.
Впоследствии вы будете корректировать файл роботс, добавляя например путь к странице, которая была удалена, а если этого не сделать, то SEO продвижение будет затруднено в будущем. В этом случае в вебмастере будут накапливаться ошибки, которые окажут отрицательное воздействие на ваш сайт. Исправлять которые просто необходимо.
Кстати, чтобы посмотреть файл robots какого-либо домена, можно набрать в адресной строке браузера свойсайт/robots.txt и просмотреть содержимое.
Как проверить файл robots?
Если вы создали файл роботс txt, но не знаете как проверить, то зайдите в вебмастер Яндекса, слева в меню раздел Инструменты и выберите строчку Анализ robots.txt, где справа нужно только ввести сайт, который вы хотите проверить и после нажатия кнопки Загрузить и анализировать, вам выдаст результат проверки содержимого файла. Если содержимое имеет ошибки, то вам сразу выдаст строчку с ошибкой, ну а если таковых нет, то УРА, вы всё сделали правильно.
Аналогично можно проверить роботс в гугл вебмастере, но здесь нужно слева выбрать раздел СКАНИРОВАНИЕ и чуть ниже выбрать строчку Инструмент проверки файла Robots, в правой части нужно указать путь к файлу и нажать проверить. Таким образом будет осуществлена проверка и так же здесь можно увидеть результаты проверки.
Еще хочу сказать про то, что содержимое robots txt будет немного отличаться в разных CMS или движках, то есть файл на Джумле будет отличаться от файла в Вордпресс. Потому, что файловая структура разная, как и пути и названия папок и файлов.
Если кому-то интересно взять уже готовый пример файла robots для WordPress(как пример), то можно скачать файл robots txt, только нужно иметь в виду, что этот файл robots настроен на движок WordPress.
Для желающих можно посмотреть правила
Удачи в создании и настройка правильного robots txt файла!