--------------------
ниже файл роботс:
User-agent: *
Disallow: /admin/
Disallow: /backups/
Disallow: /core/
Disallow: /components/
Disallow: /wysiwyg/
Disallow: /includes/
Disallow: /modules/
Disallow: /filters/
Disallow: /languages/
Disallow: /install/
Disallow: /ruskarta/
--------------------------
куда вписать и как?
Если ваш сайт имеет зеркала, специальный робот зеркальщик определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его у всех зеркал при помощи robots.txt, используя директиву ’Host’, определив в качестве ее параметра имя главного зеркала. Директива ’Host’ не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом. Пример:
#Если www.glavnoye-zerkalo.ru главное зеркало сайта, то robots.txt
#для всех сайтов из группы зеркал выглядит так
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru
Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву ’Host’ необходимо добавлять в группе, начинающейся с записи ’User-Agent’, непосредственно после директив ’Disallow’(’Allow’). Аргументом директивы ’Host’ является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием.
#Пример корректно составленного robots.txt, при обработке которого директива Host учитывается
User-Agent: *
Disallow:
Host: www.myhost.ru
#Примеры некорректно составленных robots.txt, при обработке которых директива Host может не учитываться
#1.
User-Agent: *
Host: www.myhost.ru
#2.
Host: www.myhost.ru
#3.
User-Agent: *
Host: www.myhost.ru
Disallow:
#4.
Host: www.myhost.ru
User-Agent: *
Disallow:
Важно: параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Некорректно составленные строчки ’Host:’ игнорируются.
# Примеры игнорируемых директив Host
Host: www.myhost-.ru
Host: www.-myhost.ru
Host: www.myhost.ru:100000
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my..host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: www.myhost.ru
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru
Примеры использования директивы Host:
# domen.myhost.ru является главным зеркалом www.domen.myhost.ru,
# тогда корректное использование директивы Host такое
User-Agent: *
Disallow:
Host: domen.myhost.ru
# domen.myhost.ru является главным зеркалом www.domen.myhost.ru,
# тогда некорректное использование директивы Host такое
User-Agent: *
Disallow:
Host: myhost.ru
Disallow: /admin/
Disallow: /backups/
Disallow: /core/
Disallow: /components/
Disallow: /wysiwyg/
Disallow: /includes/
Disallow: /modules/
Disallow: /filters/
Disallow: /languages/
Disallow: /install/
Disallow: /ruskarta/
Host: lezginka.ru
до определенного времени — файл robots.txt присутствовал в архиве, а потом в один прекрасный момент его не стало. Администратор сказал — все что не должно индексироваться и так индексироваться не будет…
Попробую некоторые указать.
1 Хост
2 Ограничить некоторых ботов, есть очень наглые. Например яху может сканить в 800 потоков. Некоторым полезно просто запретить сканить.
3 На редирект гуглу наплевать, он прекрасно переходит по ссылкам из редиректа. Соответственно нужно добавить в роботс запрет на переход ботов
Disallow: /*go.php # если редирект идёт через go.php
4 Убрать из индекса не нужные урлы и разделы. Например зачем в индексе аккаунты пользователей?
Продолжать можно долго, на самом деле это достаточно гибкий инструмент и можно добиться великолепной индексации и отсутствия мусора в выдаче.
Достаточно долго я в делал, тестировал роботс для форума SMF и теперь он стоит не на десятках даже сайтов и дает прекрасную индексацию( можно глянуть на оф сайте русской поддержки).
Если заняться этим вопросом в купе возможно с некоторыми изменениями можно и на инстанте сделать великолепную штуку.
К сожалению я сейчас ограничен во времени, но если кто задастся целью сделать вменяемый файл, помогу чем смогу.
------------------------------
изложи более подробно на эту тему: как для инстант составить robots.txt, конкретно написать команды для примера.
для ящи и гугла
я воспользуюсь твоими рекомендациями.
zayac, отвечая на твой вопрос...
до определенного времени — файл robots.txt присутствовал в архиве, а потом в один прекрасный момент его не стало. Администратор сказал — все что не должно индексироваться и так индексироваться не будет...
как данный вопрос решился.
какие папки закрыть( т.к. это положительно сказывается на имидже сайта в глазах ПС ботов)?
Достаточно долго я в делал, тестировал роботс для форума SMF и теперь он стоит не на десятках даже сайтов и дает прекрасную индексацию( можно глянуть на оф сайте русской поддержки).
Ну, вот он, этот файл:
User-agent: * Allow: /*sitemap Allow: /*rss Allow: /*forum Disallow: /attachments/ Disallow: /attachments1/ Disallow: /avatars/ Disallow: /avatars_users/ Disallow: /cache/ Disallow: /Packages/ Disallow: /Smileys/ Disallow: /Sources/ Disallow: /Themes/ Disallow: /*.msg Disallow: /*.new Disallow: /*sort Disallow: /*topicseen Disallow: /*wap Disallow: /*imode Disallow: /*action Disallow: /*all Disallow: /*go.php Disallow: /*prev_next Disallow: /*all User-agent: Slurp Crawl-delay: 100
По миру ходило огромное количество всяких вариаций файла. И если вы читали темку с начала, то там тоже видно с чего я начинал и как проходила работа. По дефолту стоит тег ноиндекс, а он в том контексте не нравился яндексу.
Потом всё ужалось до этих размеров, проверилось в работе и тд.
Была задача получить управляемость и убрать дубли. Теперь индексация отличная, все темки сразу в индексе.
Но на самом деле это не все, там в темке указан комплекс действий и некоторых изменений и дополнений которые способствуют улучшению индексации данного скрипта.
И поверьте на слово, это не так просто как кажется, сделать нормальный и правильный роботс. В темке за 300 постов, так что всё там перетёрто.
Вообще он выглядит в аттаче вот так, для примера оставлено и прокомментировано как открывать, закрывать и тд.
И подчеркну, этот файл оттестирован и работает для всех нужных ботов. Остальное по всевозможным аспектам раскрутки и другим вопросам оптимизации, в разделе.
User-agent: * Allow: /forum/*sitemap Allow: /forum/*arcade # если не стоит мод игр, удалить без пропуска строки Allow: /forum/*rss Allow: /forum/*type=rss Disallow: /forum/attachments/ Disallow: /forum/avatars/ Disallow: /forum/Packages/ Disallow: /forum/Smileys/ Disallow: /forum/Sources/ Disallow: /forum/Themes/ Disallow: /forum/Games/ Disallow: /forum/*.msg Disallow: /forum/*.new Disallow: /forum/*sort Disallow: /forum/*topicseen Disallow: /forum/*wap Disallow: /forum/*imode Disallow: /forum/*action Disallow: /forum/*prev_next Disallow: /forum/*all Disallow: /forum/*go.php # либо тот редирект что стоит у вас Host: www.мой сайт.ru # указать ваше главное зеркало User-agent: Slurp Crawl-delay: 100
как "выкупаются"(находят) свободные ниши рунета?