Попробуем разобраться с основными моментами.
1. Что такое файл robots.txt
Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле веб-мастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.
Каждый по своему понимает это определение, однако важно вынести для себя всего одну мысль — это набор правил по которым поисковый робот не будет индексировать указанный раздел или страницу сайта. Не нужно писать в нем лишнего, достаточно ограничится именно тем набором правил который нужен именно для вашего сайта.
2. Указываем User-agent
С помощью директивы User-agent мы указываем к какому именно поисковому роботу мы обращаемся своим набором правил. Эта директива позволяет создать уникальные правила под робота Яндекса, Гугла и прочих поисковиков.
Данная директива обязательна, без нее ваш robots.txt будет считаться некорректным и все правила в нем будут проигнорированы.
В качестве примера будем писать универсальный robots.txt для всех поисковиков.
User-agent: *
User-agent: Yandex
User-agent: Googlebot
Для более плотной работы с конкретным поисковиком, нужно изучить полный список роботов представленных в справке поисковика. Например Яндекс дает следующий список роботов:
'YandexBot' — основной индексирующий робот;
'YandexMedia' — робот, индексирующий мультимедийные данные;
'YandexImages' — индексатор Яндекс.Картинок;
'YandexCatalog' — "простукивалка" Яндекс.Каталога;
'YandexDirect' — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса;
'YandexBlogs' — робот поиска по блогам, индексирующий комментарии постов;
'YandexNews' — робот Яндекс.Новостей;
'YandexPagechecker' — робот, обращающийся к странице при валидации микроразметки через форму «Валидатор микроразметки»;
Важно: Персональное обращение к роботу имеет больший приоритет чем общее и оно будет проигнорированно:
Правила указанные для
User-agent: *
User-agent: Yandex
Таким образом мы можем составлять правила для игнорирования отдельных разделов сайта, но позволяющие индексировать внутри них определенную часть контента.
Пример:
User-agent: * Disallow: /gallery User-agent: YandexImages Allow: /gallery
3. Указываем главное зеркало сайта. Директива Host
Мы разобрали что писать в начале файла robots.txt, теперь посмотрим что написать в конце. Директива Host нужна для указания главного зеркала сайта. Каждый сайт доступен как минимум по двум адресам с www и без www.
Определимся какой из урлов у нас будет главным (допустим с www) и запишем его:
User-agent: * Host: instantcms.ru
Директива Host работает только для Яндекса. Гугл сам вполне корректно определяет главное зеркало сайта. Удачным решением будет добавить сайт в панель вебмастера в Гугле и в Яндексе и продублировать там эту информацию.
Когда мы указали главное зеркало сайта, мы подразумеваем что все ссылки на сайте формируются в соответствии с главным зеркалом сайта, однако пользователи на сторонних ресурсах могут ссылаться на ваш домен без www. В результате мы теряем часть ссылочной массы: это и ТИЦ, и ПР, и ссылочное.
самый простой способ — это 301 редирект через htaccess
RewriteCond %{HTTP_HOST} ^instantcms\.ru$ [NC] RewriteRule ^(.*)$ http://instantcms.ru/$1 [R=301,L]
4. Запрещаем и Разрешаем индексацию. Директивы Allow и Disallow
Основные ошибки происходят в этой части, центральной, файла robots.txt
Запретить то что не нужно запрещать😊Прежде чем приступать к написанию правил — важно четко понять одну простую вещь, робот видит сайт глазами незарегистрированного посетителя. Проанализируйте (разлогинившись) ваш сайт на предмет ссылок на системные папки и страницы генерируемые под залогиненого пользователя. Очевидно же что бот не может знать структуру системных папок на вашем сервере без доступа к фтп, поэтому запрещать ему доступ к системным папкам незачем. На них нет ссылок с сайта, а если есть, то лучше их убрать :)
Таким образом мы исключаем из запрета к индексации ссылки на добавление статьи, записи в блог, объявления, добавления фото и тд. То есть все те ссылки которые может увидеть только авторизованный человек.
Пример плохого файла:
User-Agent: * -Обозначили что правила распространяются на всех роботов
Disallow: /admin -Зачем то показали где у нас админка. ссылок на нее нет, где она знает только админ
Disallow: /actions — системная папка, ссылок прямых на нее нет
Disallow: /cache — системная папка, ссылок прямых на нее нет
Disallow: /backups — системная папка, ссылок прямых на нее нет
Disallow: /core — системная папка, ссылок прямых на нее нет
Disallow: /dump — системная папка, ссылок прямых на нее нет, при этом мы указали где искать дампы базы данных нашего сайта :(
Disallow: /wysiwyg — системная папка, ссылок прямых на нее нет
Disallow: /includes — системная папка, ссылок прямых на нее нет
Disallow: /modules — системная папка, ссылок прямых на нее нет
Disallow: /filters — системная папка, ссылок прямых на нее нет
Disallow: /languages — системная папка, ссылок прямых на нее нет
Disallow: /install — системная папка, нужно её вообще сразу удалять после установки
Disallow: /users — Список пользователей и Профили пользователей. Смысла закрывать от индексации нет. Если у вас спам в профилях — спам убирается другими способами, а вот так мы лишили себя большого количества страниц которые могут пригодится и в ссылочных биржах и в выдаче. В профилях кроме спама есть и контент по которому может быть траффик из поисковиков.
Disallow: /registration -Страница регистрации. Смысла в этой странице для поисковика нет. Стоит ли запретить её? Если посмотреть анализатором ПР страницы сайта, то мы увидим что это одна из внутренних страниц которая имеет больший ПР на сайте чем остальные(как разделы сайта), поскольку практически каждая страница сайта на нее ссылается. Убрать ли страницу или оставить и использовать для поднятия низкочастотных запросов за счет внутреннеё перелинковки? — на выбор.
Disallow: /login -Страница логина. Как и выше.
Disallow: /search — Страница поиска. Эта строка говорит поисковым роботам, что искать в результатах поиска не нужно. Однако если у вас нет ссылок на результат поиска — можно не закрывать эту страницу.
Disallow: /search/tag — Теги следует закрывать от индексации. Какими они не были бы красивыми😊но по ним отдается дублированный контент. Хотя есть случаи когда теги используют для группировки контента и оставляют открытыми.
Disallow: /go/ — Страница редиректа внешних ссылок. Запрещаем.
Итого из этого длинного списка, по делу оказалось лишь 3 строчки, остальное бесполезно и местами даже опасно (раскрытие путей к дампам базы данных, к админке и системным каталогам)
Пока закончим на основах, что бы было понимание того что делаем и почему так. В следующий раз будем разбирать дубликаты страниц и как их удалить из выдачи.
Реклама #
soxom 12 лет назад #
2) Про профили... Ну это пусть уж сам вебмастер решает.
3) Гнать вес на Логин и регистрацию - это извращение
4) Про то, зачем закрывать поиск, тэги и индексный файл:
http://www.google.ru/search?q=site:http://instantcms.ru/search&hl=ru&lr=&newwindow=1&prmd=imvns&ei=HbAiT__ZBKeB4gSc_NW8CA&start=110&sa=N&biw=1280&bih=909
instantcms.ru%2Findex.php&hl=ru&newwindow=1&biw=1280&bih=909&num=10&lr=&ft=i&cr=&safe=images" target="_blank">http://www.google.ru/search?q=site%3Ahttp%3A%2F%2Finstantcms.ru%2Findex.php&hl=ru&newwindow=1&biw=1280&bih=909&num=10&lr=&ft=i&cr=&safe=images
picaboo 12 лет назад #
3 не извращение, кому надо закроет, но и от открытого вреда нет и пользу можно извлечь
Это вообще был разбор роботса одного из форумчан, яркий пример когда закрыто все. У большинства так.
nedoriko 12 лет назад #
soxom 12 лет назад #
Моделист 12 лет назад #
Насколько я помню спецификации, такой директивы не было и нет. Можно только запретить.
Если проще то: что не запрещено, то разрешено.
nedoriko 12 лет назад #
вот мой робот.тхт
User-Agent: *
Disallow: /login/
Disallow: /admin/
Disallow: /registration/
Disallow: /search/tag/
Host: www.svoi-vzglyad.ru
Sitemap: http://www.svoi-vzglyad.ru/sitemap.xml
picaboo 12 лет назад #
nedoriko 12 лет назад #
soxom 12 лет назад #
soxom 12 лет назад #
Disallow: /index.php
picaboo 12 лет назад #
При включеном чпу - дублей всегда куча убирается
reload 12 лет назад #
Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву 'Allow'.
Директивы Allow-Disallow без параметров:
User-agent: Yandex
Disallow:
# то же, что и Allow: /
User-agent: Yandex
Allow:
# то же, что и Disallow: /
Алфей 12 лет назад #
picaboo 12 лет назад #
reload 12 лет назад #
Disallow: /upload/userfiles/
на это ссылки есть?
просто заметил когда-то в выдаче файлы пользователей)
решил закрыть - правильно ли решил, или без разницы?)
soxom 12 лет назад #
reload 12 лет назад #
а скрыть возможно "конфиденциальную" информацию от попадания в массы)
picaboo 12 лет назад #
reload 12 лет назад #
или так и писать
Disallow: *.php
нужны для каждой директории слеши?
сенкс.
picaboo 12 лет назад #
скроет все урлы в которых будет встречаться ".php"
счас дописываю вторую часть - там с примерами расскажу.
TheSteek 12 лет назад #
посмотрите))), а у vk.com робота.тхт нет))
TheSteek 12 лет назад #
nedoriko 12 лет назад #
reload 12 лет назад #
Disallow: /search/tag/
У меня на одном сайте теги закрыты с самого запуска и гугл их не индексирует
а вот яша мало того что индексирует так еще и в выдаче выдает
может яша имел наши роботсы?
RSN 12 лет назад #
Вот мой файл:
Мой сайт в топе...
так вот, чтобы не флудить у меня с таким
picaboo 12 лет назад #
nedoriko 12 лет назад #
Host:
Sitemap:
ну так может голосование сделаем))) как всетаки правильней?
Lana 12 лет назад #
Специально поменяла местами и проверила - http://webmaster.yandex.ua/robots.xml
написало что Яндескс использует все мои строки вмеспоте с
Host: ***
Sitemap: ***
Так что хотя я тоже думала что host последняя директива - видимо возможен и такой вариант.
soxom 12 лет назад #
Евгений Фоменко 12 лет назад #
RSN 12 лет назад #
А насчет не рабочий извини уже проверен временем, ....
picaboo 12 лет назад #
RSN 12 лет назад #
А насчет не рабочий извини уже проверен временем, ....
soxom 12 лет назад #
Алфей 12 лет назад #
RSN 12 лет назад #
Вообще общие правила ( и я согласен с замечаниями) можно найти в поиске Яши "robots.txt" вот скрин об ошибках
Но... по моим запросам и ключевым он вылез в топ (может можно улучшить, но пока устраивает), поэтому мнения здесь наверно не очень уж важны,
Но у меня только уникальный контент
reload 12 лет назад #
просто с правильным роботсом вы показываете что именно важно для индексирования и что индексировать не нужно
этим вы как минимум уменьшите нагрузку на сервер при постоянных сканированиях вашего сайта.
Попадание в топ зависит по большей степени от правильного написания статей ну и поведенчиского фактора и часто от частоты добавляемого материала + конечно внутренняя и внешняя оптимизация - здесь роботс играет не значитильную роль)
В роботсе нет смысла вначале открывать полный доступ гоше, потом яше а потом вообще всем после чего скрывать не нужные разделы - достаточно указать какие разделы вы закрываете для всех роботов через директиву User-agent: *
все остальное разрешено по умолчанию.
Если робот в директиве находит свое имя - остальные правила он игнорирует!!!
От сюда вывод - у вас сайт не имеет скрытых от индексации разделов для яши и гоши!!! все остальные роботы подчиняются условиям общей директивы!!!
Яша директиву Host: понимает в любом месте, но возможно ее непонимание другими робатами - поэтому другие дойдя до Host: и не прочитав ее просто проигнорируют все остальные правила!!! так что Host: лучьше писать последним иначе вашу карту не все роботы увидят (если конечно вы сами не скармливали ее))
вот как то так)
soxom 12 лет назад #
Евгений Фоменко 12 лет назад #
SJen 12 лет назад #
RSN 12 лет назад #
Проанализировав Ваш пост, начал искать истину на сайтах по рекомендациям по созданию роботс пришел к выводу, что Вы правы ... большой плюс и Вам и Особенно soxom за поднятую тему.
Nivil 11 лет назад #
User-agent: Yandex
Disallow: /login/
Disallow: /admin/
Disallow: /registration/
Disallow: /search/tag/
Host: www.promanual.ru
User-Agent: *
Disallow: /login/
Disallow: /admin/
Disallow: /registration/
Disallow: /search/tag/
Sitemap: http://www.promanual.ru/sitemap.xml
picaboo 11 лет назад #
Disallow: /login/
Disallow: /admin/
Disallow: /registration/
Disallow: /search/tag/
Sitemap: http://www.promanual.ru/sitemap.xml
Host: www.promanual.ru
можно укоротить, смысл не изменится
Clear 11 лет назад #
А ну и еще /passremind.html итого получили дополнительные три строчки
Disallow: /price/cart.html
Disallow: /catalog/viewcart.html
Disallow: /passremind.html
Может еще что то есть ?
nedoriko 11 лет назад #
вот и решил по новой их сосдать. но при этом задумался о моих поддоменах.
вопрос: как роботов в поддомен отправить? и надо ли прописывать www и http?
dChirkis 9 лет назад #
AS31 8 лет назад #
У меня такой robots.txt
User-agent: *
Disallow: /
Disallow: /index.php$
Allow: /board
Allow: /sitemap.xml
Allow: /sitemap_content_board.xml
Allow: /sitemap_content_pages.xml
Sitemap: http://сайт.ru/sitemap.xml
Host: http://сайт.ru/
AS31 8 лет назад #
И он получился такой, мой сайт на тематику объявления:
User-agent: *
Disallow: /backup*
Disallow: /components/
Disallow: /search/
Disallow: /search/tag/
Disallow: /rss/
Disallow: /go/
Disallow: /index.php$
Sitemap: http://САЙТ.ru/sitemap.xml
Sitemap: http://САЙТ.ru/sitemap_content_board.xml
Sitemap: http://САЙТ.ru/sitemap_content_pages.xml
Host: http://САЙТ.ru/
Проверил в Яндексе и никаких ошибок и все 4 http адреса пометил зеленой галочкой.
Если что то не так поправьте...
Murrkin 5 лет назад #
Антон 5 лет назад #