robots.txt

#1 28 октября 2020 в 11:02
Товарищи, дорогие пример можете дать facepalm
На сайте только блоги, всё остальное отключено.
#2 28 октября 2020 в 15:50
Вот простенький:

  1. User-agent: *
  2. Crawl-delay: 1
  3. Host: https://site.ru
  4. Disallow: /login/
  5. Disallow: /admin/
  6. Disallow: /registration/
  7. Disallow: /search/tag/
  8. Disallow: /redirect?url=*
  9. Sitemap: https://site.ru/sitemap.xml
#3 28 октября 2020 в 23:40
Я пока придерживаюсь правила что в роботс должно быть 2 строчки.
Указание на хост и на сайтмап.

Всё, к чему нужно ограничить доступ, ограничить другими средствами — права доступа в системе.
Если наличие каких то каталогов, разделов не очевидно при поверхностном осмотре сайта — зачем подсказывать о их расположении через роботс?)
#5 29 октября 2020 в 13:36


Host: site.ru

@alekgla

Деректива хост больше не используется...
webmaster.yandex.ru/blog/301-y-redirekt-polnostyu-zamenil-direktivu-host

Rainbow
Более того, ее наличие в robots.txt является ошибкой для поисковиков.
#6 29 октября 2020 в 13:45


Я пока придерживаюсь правила что в роботс должно быть 2 строчки.
Указание на хост и на сайтмап.

Нил™
Уже не должны быть!
host упразднен
а sitemap для Инстанта с версии 2.11 подставляется автоматически.
#7 30 августа 2021 в 12:06

Директива Crawl-delay — тоже уже устарела.

«С 22 февраля 2018 года Яндекс перестал учитывать директиву Crawl-delay.

Чтобы задать скорость, с которой роботы будут загружать страницы сайта, используйте Скорость обхода сайта в Яндекс.Вебмастере.»

Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.