составленных robots.txt, при обработке которых директива Host

#1 28 апреля 2009 в 04:39
как правильно указать директиву Host. главное зеркало(сайт) lezginka.ru
--------------------
ниже файл роботс:
User-agent: *
Disallow: /admin/
Disallow: /backups/
Disallow: /core/
Disallow: /components/
Disallow: /wysiwyg/
Disallow: /includes/
Disallow: /modules/
Disallow: /filters/
Disallow: /languages/
Disallow: /install/
Disallow: /ruskarta/
--------------------------
куда вписать и как?
#2 28 апреля 2009 в 08:38
Директива Host.

Если ваш сайт имеет зеркала, специальный робот зеркальщик определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его у всех зеркал при помощи robots.txt, используя директиву ’Host’, определив в качестве ее параметра имя главного зеркала. Директива ’Host’ не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом. Пример:

#Если www.glavnoye-zerkalo.ru главное зеркало сайта, то robots.txt
#для всех сайтов из группы зеркал выглядит так
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru

Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву ’Host’ необходимо добавлять в группе, начинающейся с записи ’User-Agent’, непосредственно после директив ’Disallow’(’Allow’). Аргументом директивы ’Host’ является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием.

#Пример корректно составленного robots.txt, при обработке которого директива Host учитывается
User-Agent: *
Disallow:
Host: www.myhost.ru

#Примеры некорректно составленных robots.txt, при обработке которых директива Host может не учитываться
#1.
User-Agent: *
Host: www.myhost.ru

#2.
Host: www.myhost.ru

#3.
User-Agent: *
Host: www.myhost.ru
Disallow:

#4.
Host: www.myhost.ru
User-Agent: *
Disallow:


Важно: параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Некорректно составленные строчки ’Host:’ игнорируются.

# Примеры игнорируемых директив Host
Host: www.myhost-.ru
Host: www.-myhost.ru
Host: www.myhost.ru:100000
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my..host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: www.myhost.ru
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru

Примеры использования директивы Host:

# domen.myhost.ru является главным зеркалом www.domen.myhost.ru,
# тогда корректное использование директивы Host такое
User-Agent: *
Disallow:
Host: domen.myhost.ru

# domen.myhost.ru является главным зеркалом www.domen.myhost.ru,
# тогда некорректное использование директивы Host такое
User-Agent: *
Disallow:
Host: myhost.ru
#3 28 апреля 2009 в 10:46
этот текст мне знаком, вопрос -кто на практике это делал и как?
#4 28 апреля 2009 в 20:22
User-agent: *
Disallow: /admin/
Disallow: /backups/
Disallow: /core/
Disallow: /components/
Disallow: /wysiwyg/
Disallow: /includes/
Disallow: /modules/
Disallow: /filters/
Disallow: /languages/
Disallow: /install/
Disallow: /ruskarta/
Host: lezginka.ru
#5 27 сентября 2009 в 05:04
zayac, отвечая на твой вопрос...
до определенного времени — файл robots.txt присутствовал в архиве, а потом в один прекрасный момент его не стало. Администратор сказал — все что не должно индексироваться и так индексироваться не будет…
#6 27 сентября 2009 в 09:45
Без нормального файла robots.txt обойтись не удастся по многим причинам.
Попробую некоторые указать.
1 Хост
2 Ограничить некоторых ботов, есть очень наглые. Например яху может сканить в 800 потоков. Некоторым полезно просто запретить сканить.
3 На редирект гуглу наплевать, он прекрасно переходит по ссылкам из редиректа. Соответственно нужно добавить в роботс запрет на переход ботов
Disallow: /*go.php # если редирект идёт через go.php
4 Убрать из индекса не нужные урлы и разделы. Например зачем в индексе аккаунты пользователей?

Продолжать можно долго, на самом деле это достаточно гибкий инструмент и можно добиться великолепной индексации и отсутствия мусора в выдаче.
Достаточно долго я в делал, тестировал роботс для форума SMF и теперь он стоит не на десятках даже сайтов и дает прекрасную индексацию( можно глянуть на оф сайте русской поддержки).
Если заняться этим вопросом в купе возможно с некоторыми изменениями можно и на инстанте сделать великолепную штуку.
К сожалению я сейчас ограничен во времени, но если кто задастся целью сделать вменяемый файл, помогу чем смогу.
#7 28 сентября 2009 в 06:53
zayac, интересно излагает :)
------------------------------
изложи более подробно на эту тему: как для инстант составить robots.txt, конкретно написать команды для примера.

для ящи и гугла
#8 28 сентября 2009 в 10:06
zayac, для начала, скинь образец robots.txt, который ты сделал бы для сайта на инстан.
я воспользуюсь твоими рекомендациями.
#9 28 сентября 2009 в 17:56
zayac, я думаю в данной ситуации — точный ответ может дать только Администратор…
#10 28 сентября 2009 в 19:41
zayac, не путайте — АДМИНИСТРАТОРА (создателя сего движка) — и пользователя Madmax — с правами Администратора
#11 4 декабря 2009 в 11:24


zayac, отвечая на твой вопрос...
до определенного времени — файл robots.txt присутствовал в архиве, а потом в один прекрасный момент его не стало. Администратор сказал — все что не должно индексироваться и так индексироваться не будет...

Madmax

как данный вопрос решился.
какие папки закрыть( т.к. это положительно сказывается на имидже сайта в глазах ПС ботов)?
#12 4 декабря 2009 в 21:30
Axe, ты лучше почитай в сети про robots.тхт это нужно для сео
#13 4 февраля 2010 в 17:15

Достаточно долго я в делал, тестировал роботс для форума SMF и теперь он стоит не на десятках даже сайтов и дает прекрасную индексацию( можно глянуть на оф сайте русской поддержки).

garry

Ну, вот он, этот файл:

  1. User-agent: *
  2. Allow: /*sitemap
  3. Allow: /*rss
  4. Allow: /*forum
  5. Disallow: /attachments/
  6. Disallow: /attachments1/
  7. Disallow: /avatars/
  8. Disallow: /avatars_users/
  9. Disallow: /cache/
  10. Disallow: /Packages/
  11. Disallow: /Smileys/
  12. Disallow: /Sources/
  13. Disallow: /Themes/
  14. Disallow: /*.msg
  15. Disallow: /*.new
  16. Disallow: /*sort
  17. Disallow: /*topicseen
  18. Disallow: /*wap
  19. Disallow: /*imode
  20. Disallow: /*action
  21. Disallow: /*all
  22. Disallow: /*go.php
  23. Disallow: /*prev_next
  24. Disallow: /*all
  25.  
  26. User-agent: Slurp
  27. Crawl-delay: 100
Что в нём необычного? Объясните чайнику!
#14 4 февраля 2010 в 19:13
Олег, Необычного ни чего. Просто по дефолту его нет вообще в SMF. И были траблы с индексацией яндекса и не всегда ровно в гугле.
По миру ходило огромное количество всяких вариаций файла. И если вы читали темку с начала, то там тоже видно с чего я начинал и как проходила работа. По дефолту стоит тег ноиндекс, а он в том контексте не нравился яндексу.
Потом всё ужалось до этих размеров, проверилось в работе и тд.
Была задача получить управляемость и убрать дубли. Теперь индексация отличная, все темки сразу в индексе.

Но на самом деле это не все, там в темке указан комплекс действий и некоторых изменений и дополнений которые способствуют улучшению индексации данного скрипта.

И поверьте на слово, это не так просто как кажется, сделать нормальный и правильный роботс. В темке за 300 постов, так что всё там перетёрто.

Вообще он выглядит в аттаче вот так, для примера оставлено и прокомментировано как открывать, закрывать и тд.
И подчеркну, этот файл оттестирован и работает для всех нужных ботов. Остальное по всевозможным аспектам раскрутки и другим вопросам оптимизации, в разделе.
  1. User-agent: *
  2. Allow: /forum/*sitemap
  3. Allow: /forum/*arcade # если не стоит мод игр, удалить без пропуска строки
  4. Allow: /forum/*rss
  5. Allow: /forum/*type=rss
  6. Disallow: /forum/attachments/
  7. Disallow: /forum/avatars/
  8. Disallow: /forum/Packages/
  9. Disallow: /forum/Smileys/
  10. Disallow: /forum/Sources/
  11. Disallow: /forum/Themes/
  12. Disallow: /forum/Games/
  13. Disallow: /forum/*.msg
  14. Disallow: /forum/*.new
  15. Disallow: /forum/*sort
  16. Disallow: /forum/*topicseen
  17. Disallow: /forum/*wap
  18. Disallow: /forum/*imode
  19. Disallow: /forum/*action
  20. Disallow: /forum/*prev_next
  21. Disallow: /forum/*all
  22. Disallow: /forum/*go.php # либо тот редирект что стоит у вас
  23. Host: www.мой сайт.ru # указать ваше главное зеркало
  24.  
  25. User-agent: Slurp
  26. Crawl-delay: 100
В этот файл очень легко теперь добавить под свой проект всё что угодно. Причём можно использовать комбинированные правила разрешений частично и тд. И не будет конфликтов ни у одного из ботов ПС.
#15 4 февраля 2010 в 22:23
garry, привет.
как "выкупаются"(находят) свободные ниши рунета?
Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.