составленных robots.txt, при обработке которых директива Host

 
Посетитель
small user social cms
МедальПочетный донор проектаАвторитет форумаКубок зрительских симпатий
Сообщений: 4284
как правильно указать директиву Host. главное зеркало(сайт) http://lezginka.ru
--------------------
ниже файл роботс:
User-agent: *
Disallow: /admin/
Disallow: /backups/
Disallow: /core/
Disallow: /components/
Disallow: /wysiwyg/
Disallow: /includes/
Disallow: /modules/
Disallow: /filters/
Disallow: /languages/
Disallow: /install/
Disallow: /ruskarta/
--------------------------
куда вписать и как ?
Посетитель
small user social cms
Медаль
Сообщений: 359
Директива Host.

Если ваш сайт имеет зеркала, специальный робот зеркальщик определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его у всех зеркал при помощи robots.txt, используя директиву ’Host’, определив в качестве ее параметра имя главного зеркала. Директива ’Host’ не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом. Пример:

#Если www.glavnoye-zerkalo.ru главное зеркало сайта, то robots.txt
#для всех сайтов из группы зеркал выглядит так
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru

Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву ’Host’ необходимо добавлять в группе, начинающейся с записи ’User-Agent’, непосредственно после директив ’Disallow’(’Allow’). Аргументом директивы ’Host’ является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием.

#Пример корректно составленного robots.txt, при обработке которого директива Host учитывается
User-Agent: *
Disallow:
Host: www.myhost.ru

#Примеры некорректно составленных robots.txt, при обработке которых директива Host может не учитываться
#1.
User-Agent: *
Host: www.myhost.ru

#2.
Host: www.myhost.ru

#3.
User-Agent: *
Host: www.myhost.ru
Disallow:

#4.
Host: www.myhost.ru
User-Agent: *
Disallow:


Важно: параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Некорректно составленные строчки ’Host:’ игнорируются.

# Примеры игнорируемых директив Host
Host: www.myhost-.ru
Host: www.-myhost.ru
Host: www.myhost.ru:100000
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my..host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: http://www.myhost.ru
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru

Примеры использования директивы Host:

# domen.myhost.ru является главным зеркалом www.domen.myhost.ru,
# тогда корректное использование директивы Host такое
User-Agent: *
Disallow:
Host: domen.myhost.ru

# domen.myhost.ru является главным зеркалом www.domen.myhost.ru,
# тогда некорректное использование директивы Host такое
User-Agent: *
Disallow:
Host: myhost.ru
Реклама
cms
Посетитель
small user social cms
МедальПочетный донор проектаАвторитет форумаКубок зрительских симпатий
Сообщений: 4284
этот текст мне знаком , вопрос -кто на практике это делал и как ?
Посетитель
small user social cms
МедальКубок зрительских симпатийАвторитет форума
Сообщений: 1897
User-agent: *
Disallow: /admin/
Disallow: /backups/
Disallow: /core/
Disallow: /components/
Disallow: /wysiwyg/
Disallow: /includes/
Disallow: /modules/
Disallow: /filters/
Disallow: /languages/
Disallow: /install/
Disallow: /ruskarta/
Host: lezginka.ru
Контент для ваших проектов. Копирайт всех видов от профессионалов. Создание и продвижение сайтов, реклама.
Sometime CMS Community
Посетитель
no avatar
Сообщений: 62
Народ, а что насчет search/tag/, стоит ли закрывать его роботам? Я глянул проиндексированные сайты у многих, которые сделаны на instante, очень много роботов находит именно search/tag/%E1%E5%E7%EE%EF%E0% и тому подобное, подскажите именно правильный robots.txt который стоит сделать начинающему порталу. Я смотрел многие ответы, но, хотелось бы услышать такое мнение как стандарт. Это возможно?
InstantCMS Team
small user social cms
МедальКубок зрительских симпатийАвторитет форумаПатриот InstantCMS ;-)
Сообщений: 3129
zayac, отвечая на твой вопрос...
до определенного времени - файл robots.txt присутствовал в архиве, а потом в один прекрасный момент его не стало. Администратор сказал - все что не должно индексироваться и так индексироваться не будет...
Зарабатываю здесь - Хостинг здесь - Жить в обществе и быть свободным от общества нельзя!...
Посетитель
small user social cms
МедальКубок зрительских симпатийАвторитет форума
Сообщений: 1897
Без нормального файла robots.txt обойтись не удастся по многим причинам.
Попробую некоторые указать.
1 Хост
2 Ограничить некоторых ботов, есть очень наглые. Например яху может сканить в 800 потоков. Некоторым полезно просто запретить сканить.
3 На редирект гуглу наплевать, он прекрасно переходит по ссылкам из редиректа. Соответственно нужно добавить в роботс запрет на переход ботов
Disallow: /*go.php # если редирект идёт через go.php
4 Убрать из индекса не нужные урлы и разделы. Например зачем в индексе аккаунты пользователей?

Продолжать можно долго, на самом деле это достаточно гибкий инструмент и можно добиться великолепной индексации и отсутствия мусора в выдаче.
Достаточно долго я в делал, тестировал роботс для форума SMF и теперь он стоит не на десятках даже сайтов и дает прекрасную индексацию( можно глянуть на оф сайте русской поддержки).
Если заняться этим вопросом в купе возможно с некоторыми изменениями можно и на инстанте сделать великолепную штуку.
К сожалению я сейчас ограничен во времени, но если кто задастся целью сделать вменяемый файл, помогу чем смогу.
Контент для ваших проектов. Копирайт всех видов от профессионалов. Создание и продвижение сайтов, реклама.
Sometime CMS Community
Посетитель
no avatar
Сообщений: 62
Совсем недавно составленный robots.txt за более чем 4 месяца для DLE (я просто ставлю в пример эту систему из-за более чем 4 года бесприбойной работы) со старта дает очень многие перспективы, те же запреты индексации ненужных страниц, на которые робот не тратит свое время! Индекс идет только нужных страниц, и не search и не user файлов, во к примеру мои статьи до сих пор не индексируются, почему? Потому что из-за search роботы только доходят, т.к. каждый тег индексируется, и при этом выдает страницу с разным бредом, это правильно? НЕТ! Должны быть рекомендации по этому файлу! Это не просто файл, и очень многие SEOшники утверждают, он не обязательное - А ТУТ И НЕТ! Это как правило для ботов, причем основное, а что такое боты? Наши друзья! Если Вы позвоните другу он раскажет как проехать в определенное место? А если я Ваш недруг, я Вам посоветую совершенно другое, так вот, без правильного robots.txt тоже самое что недруг.

Не надо далеко идти, то что у Вас на этом сайте находиться по поиску, не находится в поисковых системах, почему спросите вы? Думаю нужно спросить у ВАС! Если мне нужно что-то найти не одна поисковая система не найдет ответ так как это сделает Ваш сайт, хотя темы старые, НО ОНИ НЕ ПОПАЛИ ДО СИХ ПОР В ИНДЕКС! ПОЧЕМУ? Потому что неправильно составленный robots.txt и не только, нету нормальной встроенной в систему карты сайта, она нужна первым делом! Первым, а не разные левые сервисы дяди Пети (без обид). Каждая система должны в первую очередь дружить с ботами. В общем я многословен, заканчиваю...
Посетитель
small user social cms
МедальПочетный донор проектаАвторитет форумаКубок зрительских симпатий
Сообщений: 4284
zayac, интересно излагает :)
------------------------------
изложи более подробно на эту тему: как для инстант составить robots.txt , конкретно написать команды для примера.

для ящи и гугла
Sometime CMS Community
Посетитель
no avatar
Сообщений: 62
lezginka.ru:
изложи более подробно на эту тему: как для инстант составить robots.txt , конкретно написать команды для примера.

Для меня данная система новая, поэтому я искал ответ на Ваш вопрос сам. Т.к. многие страницы которые попадают в индекс не дают и не несут никаких данных, нужных для пользователей которые попадут на Ваш сайт. Вот к примеру 36,400 проиндексированных страниц показывает данный сайт, как вы думаете, если сделать эксперимент, сколько из них действительно страницы (имеется ввиду нужные пользователям и соответствующие тематике сайта)?

Вот пример: http://www.google.com/search?hl=en&safe=off&q=site:instantcms.ru&start=450&sa=N

Это нужный индекс? Вот я и пытаюсь найти правильный (*такое понятие уже существует много лет) - правильный robots.txt для определенной CMS. Я не уверен что я прав на 100%, и я не твержу что я профессионал, но мысли полезные, умные и целенаправленные хочу найти по поводу данного "правила".
Редактировалось: 1 раз (Последний: 28 сентября 2009 в 07:56)
Посетитель
small user social cms
МедальПочетный донор проектаАвторитет форумаКубок зрительских симпатий
Сообщений: 4284
zayac, для начала, скинь образец robots.txt , который ты сделал бы для сайта на инстан.
я воспользуюсь твоими рекомендациями.
InstantCMS Team
small user social cms
МедальКубок зрительских симпатийАвторитет форумаПатриот InstantCMS ;-)
Сообщений: 3129
zayac, я думаю в данной ситуации - точный ответ может дать только Администратор...
Зарабатываю здесь - Хостинг здесь - Жить в обществе и быть свободным от общества нельзя!...
Sometime CMS Community
Посетитель
no avatar
Сообщений: 62
Madmax:
zayac, я думаю в данной ситуации - точный ответ может дать только Администратор...

Ваш профиль "Madmax - Администратор" hoho
InstantCMS Team
small user social cms
МедальКубок зрительских симпатийАвторитет форумаПатриот InstantCMS ;-)
Сообщений: 3129
zayac, не путайте - АДМИНИСТРАТОРА (создателя сего движка) - и пользователя Madmax - с правами Администратора
Зарабатываю здесь - Хостинг здесь - Жить в обществе и быть свободным от общества нельзя!...
Sometime CMS Community
Посетитель
no avatar
Медаль
Сообщений: 113
Напишите админу здесь, я думаю это лучше чем перебирать информацию
В начало страницы
Предыдущая темаСледующая тема Перейти на форум:
Быстрый ответ
Чтобы писать на форуме, зарегистрируйтесь или авторизуйтесь.