Прежде чем регистрировать сайт в поисковых системах и
различных тематических каталогах необходимо грамотно составить и
закачать в корень сайта файл robots.txt. Как раз этому файлу и
посвящена данная статья.
Robots.txt – это первый файл, на который обратят внимание поисковые роботы,
при посещении вашего сайта, поэтому и внимание этому файлу нужно
уделить соответствующее, чтобы ничего не перепутать. Данный файл не
является обязательной составляющей сайта, и его можно вообще не делать,
если ваш сайт состоит из нескольких страниц и служит визиткой Вашей
фирмы или компании. Но если же на Вашем сайте хранятся какие-то скрытые
страницы или файлы и Вы хотите закрыть их от индексации поисковыми
системами, тогда файл robots.txt Вам просто необходим. В данном файле
Вы как бы даете команды роботам определенных поисковых систем. А
выглядят эти команды следующим образом:
-
User-agent: - после двоеточия
Вы указываете название поискового бота определенной поисковой
системы для которой будут прописываться все последующие команды.
Обычно после двоеточия прописывается просто звездочка:
User-agent:*. Это обозначает, что последующие команды будут
касаться всех поисковых систем.
Ниже приведен список роботов самых популярных поисковиков:
Google http://www.google.com Googlebot
Yahoo! http://www.yahoo.com Slurp (или Yahoo! Slurp)
AOL http://www.aol.com Slurp
MSN http://www.msn.com MSNBot
Live http://www.live.com MSNBot
Ask http://www.ask.com Teoma
AltaVista http://www.altavista.com Scooter
Alexa http://www.alexa.com ia_archiver
Lycos http://www.lycos.com Lycos
Яндекс http://www.ya.ru Yandex
Рамблер http://www.rambler.ru StackRambler
Мэйл.ру http://mail.ru Mail.Ru
Aport http://www.aport.ru Aport
Вебальта http://www.webalta.ru WebAlta (WebAlta Crawler/2.0)
-
Disallow: - после двоеточия
прописывается файл или папка, доступ к которой вы хотите
запретить. Например, Disallow: /img/ - это означает, что все файлы
или папки, находящиеся в папке img индексироваться не будут.
Стоит отметить, что нет команды разрешающей индексацию, поэтому
если Вы хотите сделать доступной для поиска всего одну страницу
сайта, а остальные запретить, то придется все их прописать.
-
Host: - это очень важная и
специфическая команда. Вы на верное уже знаете, что url одного и
того же сайта можно прописать как с www так и без. Но это для нас
он один и тот же, а для поисковых машин - это вполне может
оказаться два разных ресурса. Поэтому Яндекс без проблем может поделить
тИЦ Вашего сайта на два: первая половина достанется домену без
www, вторая с www. Это называется двуличность домена и для того,
чтобы ее избежать и существует команда Host:, где после двоеточия
прописывается желаемый Вами домен с www или без, например: Host:
sites-builder.ru. Следует отметить, что это все нужно прописывать
до того, как Ваш сайт проиндексируют поисковые системы, иначе
сайту можно навредить. Если же сайт уже проиндексировали поисковики,
тогда посмотрите, как они это сделали с www так или без и
пропишите соответственно в команде Host:.
-
В данном файле указывается путь к карте сайта в формате xml, например:
Sitemap: http://vash_site.ru/sitemap.xml
-
Можно также использовать команду allow, например:
Disallow:/img/
Allow:/img/miniimg/
Такая запись будет означать, что в закрытой для индексации папке img будет доступна к индексации папка miniimg
Создается файл robots.txt в обычном текстовом блокноте. И
закачивается исключительно в корень сайта, причем название сайта должно
быть прописано только буквами с нижним индексом. Ниже представлен
пример содержания такого файла:
User-agent:*
Disallow: /img/
Allow:/img/miniimg/
Disallow: /oplata.php
Host: mysite.ru
Sitemap: http://mysite.ru/sitemap.xml
Расшифровка данного файла простым русским языком
звучит следующим образом: «Поисковым роботам всех поисковых систем
запрещается индексировать файл oplata.php, а также все файлы и папки,
находящиеся в папке img, кроме miniimg, а основным доменом считать домен
mysite.ru». |