Тема: Все о robots.txt - Как правильно его составить  (Прочитано 19225 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн moto

  • Выше солнца
  • *****
  • Сообщений: 16977
  • Поблагодарили: 140 раз(а)
  • Уважение: +126/-0
    • Просмотр профиля
Файл robots txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл robots.txt. (в большинстве CMS он уже идет в пакете установке и на выходе находится в корне сайта)

Частые ошибки robots.txt

Файл robots.txt лежит в поддиректории
Роботы будут учитывать только тот robots.txt, который находится в корне сайта. Все robots.txt из подкаталогов никакой роли для поисковых роботов играть не будут

Неправильное название файла
Файл robots.txt должен называться именно таки никак иначе. Все буквы должны быть нижнего регистра, иначе боты будут считать, что файл robots.txt отсутствует.
Например, следующие варианты написания будут ошибочны:
Robots.txt
robot.txt

Использование в файле robot.txt недопустимых символов
В robot.txt нельзя использовать символы национальных алфавитов, допустима только латиница. Сам файл должен быть набран в кодировке ANSI.

Синтаксические ошибки
Помните, что синтаксические ошибки в robot.txt могут привести к игнорированию всего файла robot.txt поисковым роботом.

Указание нескольких роботов в директиве User-agent
Частая ошибка, когда в директиве User-agent перечисляют все те роботы, к которым относится данная секция (блок). Например, следующая директива не допустима:
User-agent: StackRambler, Yandex, GooglebotДля каждого бота должна быть своя отдельная директива User-agent, исключение составляет директива
User-agent: *обращающаяся ко всем ботам

Пустой User-agent
В отличие от директив Disallow и Allow значение User-agent не может быть пустым, поэтому следующая директива будет признана ошибочной:
User-agent:
Перечисление в директиве Disallow нескольких значений
Ещё одна распространённая ошибка, это перечисление нескольких значений в директиве Disallow. Например, ошибкой будет:
Disallow: /images  /avatars  /secretЕсли необходимо запретить к индексации несколько директорий, то нужно прописать директиву Disallow для каждой из них:
Disallow: /images
Disallow: /avatars
Disallow: /secret

Неверное понимание приоритета директив robots.txt
Теперь приоритет инструкций Disallow и Allow определяется не порядком их следования, а на основании совпадения самой длинной подстроки. Это необходимо учитывать при составлении своего robots.txt, поскольку раньше принцип приоритета был другим.

Некоторые директивы распознаются не всеми ботами
Яркий тому пример, директива Host, которую понимает Yandex, но о ней ничего не знают другие роботы, включая роботов Google. Если подобная директива будет содержаться в универсальной секции User-agent: *, то бот может проигнорировать всю секцию.

Использование комментариев посреди директив
Например, так:
Disallow: #это комментарий /avatars
Чередование строчных и прописных букв в директивах
В отличие от имени файла robots.txt, в самих директивах разрешается использовать как заглавные, так и прописные буквы.
USER-AGENT: *
DISALLOW: /css
или даже так:
uSer-AgeNt: YANDEX
DisAllow: /images

FAQ по поисковым роботам

Для чего нужен файл robots.txt?
robots.txt служит для управления со стороны вебмастера процессом индексации сайта. В этом файле можно указать поисковым системам, какие страницы не следует подвергать индексации, ограничить робот по частоте посещения, указать адрес карты сайта и т.д.К списку

Обязательно ли мне иметь файл robots.txt?
Если файл robots.txt отсутствует, то предполагается, что на индексацию сайта не налагается никаких ограничений. Подумайте, отвечает ли это Вашим требованиям?К списку

У меня нет robots.txt, как его создать?
Создать robots.txt можно в любом текстовом редакторе, начиная с блокнота Windows, однако лучше всего это делать в продвинутых редакторах типа Notepad++ или Notepad2.

Можно ли иметь на сайте несколько файлов robots.txt?
Файл robots.txt на домене должен быть один и располагаться в корне домена. То есть вы можете создать их и несколько, но поисковые роботы будут читать и исполнять только тот, что находится в корне. Соответственно создавать остальные robots.txt смысла нет, если они будут лежать в поддиректориях.

У меня несколько CMS на домене, какой robots.txt мне нужен?
Если ваши CMS поставлены в пределах одного домена, но в разные директории, то нужно завести один общий robots.txt. К организации второй CMS отдельно на поддомене это не относится.

А как насчет robots.txt для поддоменов?
Каждый поддомен логически является самостоятельным доменом, поэтому может иметь в своём корне отдельный файл robots.txt. Соответственно его инструкциям должны следовать поисковые боты.

Какие права должен иметь файл robots.txt?
Для поисковой системы важно, чтобы robots.txt был доступен через web. Остальное определяется из соображений безопасности и настроек Вашего веб-сервера.

Можно ли полагаться на файл robots.txt для закрытия секретных данных?
robots.txt не гарантирует Вам ничего, поэтому для сокрытия секретных данные полагаться на этот файл не стоит.

Можно ли ограничить с помощью robots.txt частоту посещения моего сайта роботами?
Да. Для этого существует специальная директива Crawl-delay. Если бот её не поддерживает, но сильно нагружает сервер, имеет смысл запретить вообще боту посещение сайта.

Я хочу написать в robots.txt правило для конкретного робота, могу я это сделать?
Да, можно. Для этого необходимо создать соответствующий блок для нужного User-agent.

Как определить, какой именно робот посещает сайт?
Распознать бот можно и по его IP адресу, однако с точки зрения robots.txt практическое значение имеет только User-agent.

Как связаны между собой файлы robots.txt и .htaccess?
Практически никак. Файлы выполняют совершенно различную роль: robots.txt служит для создания предписаний роботам, в то время, как файл .htaccess является одним из конфигурационных файлов web-сервера и служит для управления им. robots.txt носит характер предписательный, в то время как директивы файла .htaccess выполняются беспрекословно. Тем не менее оба эти файла могут использоваться совместно как для управления посещениями роботов, так, например, и для склейки доменов с www и без www.

Почему Яндекс не принимает мой файл robots.txt?
Вероятно Ваш robots.txt содержит какие-то ошибки.

Как определить ошибки в файле robots.txt?
В первую очередь ознакомиться со списком наиболее частых ошибок в файле robots.txt. Проверить синтаксис директив, также формат, в котором был создан файл robots.txt. Воспользоваться инструментами вебмастера.

Некоторые страницы сайта не индексируются поисковым роботом, может ли быть виноват в этом robots.txt?
Да, конечно. В этом случае для анализа причин лучше всего прибегнуть к помощи инструментов вебмастера от ведущих поисковых систем Yandex и Google.К списку

У меня проблемы с картой сайта, хотя сама она составлена верно.
Проверьте, нет ли в robots.txt директивы Disallow, запрещающей путь для карты вашего сайта.К списку
Яндекс пишет про какие-то канонические страницы, что это такое? В файле robots.txt не вижу никаких директив о канонических страницах.

Сравнительно недавно Яндекс стал поддерживать понятие канонических страниц. Указание канонической страницы позволяет указать главный URL, если одно и то же содержимое становится доступно по нескольким адресам. Прежде Яндекс использовал другой алгоритм.

У меня нет доступа на запись к robots.txt, как мне быть?
Если у Вас есть возможность изменять содержимое страниц, можно воспользоваться мета-тегом ROBOTS для указания роботу порядка индексации страницы.

Иногда веб-мастеру может потребоваться закрыть от индексации часть сайта. Эта задача легко решаема, так как большинство Web Роботов позволяют администраторам сайтов ограничить свое поведение на сайте. Это можно сделать несколькими способами:
Можно указать, какие части сайта не должны посещаться роботами, разместив специально отформатированный файл в корне сайта — http://www.site-name.ru/robots.txt

Администратор может указать, может страница быть проиндексирована или нет, или проанализирована на наличие ссылок, используя специальный HTML META тег.
Использовать нестандартные приемы, работающие для конкретных роботов. Например запретить роботу следовать по ссылке при помощи rel="nofollow" (Google, MSN, Yahoo) или запретить индексацию части страницы при помощи тега <noindex> (Yandex, Rambler).

Следует отметить, что все эти методы не дают стопроцентной гарантии. Некоторые роботы могут попросту не обращать на них внимание.

Краткий список пояснений для команд, помогающих правильно составить robots.txt:

Использование любых символов национальных алфавитов в robots.txt не допускается, а сам файл должен быть набран в кодировке ANSI. Структурно файл robots.txt состоит из одной или нескольких секций (блоков), каждая из которых относится к конкретному поисковому боту. Каждая секция в свою очередь состоит уже из набора директив (предписаний), управляющими процессом индексации соответствующей ПС. Перед секциями не должно быть никаких заголовочных (вступительных) директив, как это принято в некоторых конфигурационных файлах, между секциями не допускаются никакие символы, кроме перевода строк. Директивы не должны содержать никаких лишних символов. Исключением из данных правил являются комментарии.

Комментарии
Комментарий должен начинаться с символа # и продолжается до конца текущей строки. Все символы, начиная со знака комментария #, и до конца текущей строки, являются комментарием и игнорируются роботами.

User-agent: Yandex
Disallow: /css #это комментарий
#Это ещё один комментарий, он также игнорируется
Disallow: /image

Блоки (секции) для индексирования

При интерпретации роботом, будет использоваться та секция, которая наиболее точно соответствует по его user-agent. Если в robots.txt есть блок с именем робота, то будет использоваться именно она, а не секция с User-agent: * . (для всех)
Любая секция продолжается либо до начала следующей секции, либо до конца файла robots.txt. Согласно стандарту, между соседними секциями должна вставляться хотя бы одна пустая строка. Каждая секция должна начинаться с директивы User-agent и содержать значение User-agent того робота, к которому относится данная секция. Например, директива User-agent для основного поискового робота Yandex выглядит следующим образом:
User-agent: YandexBot
Чтобы указать секцию (блок), относящуюся ко всем ботам, в директиве User-agent можно использовать значение «*».
Если в файле robots.txt есть секция с именем конкретного бота, то для этого робота будет использоваться именно она, в противном случае блок, начинающийся с
User-agent: *
Перечисление нескольких имён ботов в директиве User-agent не допускается. Если нужно использовать одинаковые правила для нескольких ботов, потребуется создать несколько секций, либо использовать блок с
User-agent: *
Директивы, общее представление

Как уже было сказано, каждый блок (секция) состоит из директив. Общий формат директив таков:
[Имя_директивы]:[необязательный пробел][значение][необязательный пробел]
Каждая директива следует до конца текущей строки и не допускает переноса. Между директивами одной секции согласно стандарту не допускается пустых строк. Точно так же между директивой User-agent и следующей директивой той же секции пустых строк быть не должно.

Директива Disallow
Запрещающая директива, и одновременно наиболее часто используемая в файле robots.txt. Disallow запрещает индексацию сайта или его части, согласно пути, прописанному в значении этой директивы.

User-agent: Yandex
Disallow: /
Запрещает весь сайт к индексации для поискового бота яндекса. Прежде, чем привести другие примеры, необходимо объяснить о существовании специальных символов * и $. Символ * означает любое количество любых символов, например, под маску /dir* подходит как /dir1, так и /dir291, /diroooooo или просто /dir. По умолчанию, при интерпретации ботом к указанному пути приписывается символ *. Например, следующие директивы полностью идентичны:
Disallow: /css
Disallow: /css*

Чтобы избежать при интерпретации «автоматического дописывания» символа * в конце пути, служит другой специальный символ - $. Этот символ означает конец подстроки сравнения. Таким образом, следующий блок будет запрещать /dir, но не будет запрещать пути /dir1, /dir291 или /diroooooo.
User-agent: *
Disallow: /dir$

Директива Allow
Эта директива имеет синтаксис, сходный с Disallow, но в противоположность директиве Disallow наоборот носит разрешительный характер. К примеру, в следующем примере всем роботам запрещается индексировать весь сайт, кроме путей, начинающихся с /subname.
User-agent: *
Allow: /subname
Disallow: /

Приоритет и совместное использование директив Allow и Disallow.
Важно понимать, что будет, если некоторые пути подходят как под правила Allow, так и Disallow. Если раньше результат определялся порядком следования директив Allow и Disallow в файле robots.txt, то сейчас применяется совершенно другой алгоритм. Результат действия Allow и Disallow определяется, исходя из максимального соответствующего пути в пределах одного блока User-agent. Все директивы Allow и Disallow из одной секции сортируются в соответствии с длиной указанной в значениях подстроки в порядке увеличения их длины. На этапе принятия решения приоритет будет иметь то правило, которое расположено в отсортированном списке ниже, то есть наиболее точно соответствует имени. Пример:
User-agent: *
Allow: /images
Disallow: /image

Будет разрешать к индексации пути, начинающиеся с /images, но в то же время имена, такие как /image555 или просто /image индексироваться не будут. Хотя путь /images888 и подходит под запрещающую директиву Disallow, разрешающее правило по принципу ранжирования подходит более точно.
В случае, когда Disallow и Allow одновременно соответствуют префиксу одинаковой длины, приоритет имеет директива Allow.

Disallow и Allow с пустым значением параметра
Этот случай является частой причиной не верной трактовки правил Disallow и Allow.
Дело в том, что директива Disallow вопреки возможным предположениям наоборот разрешает индексацию всего сайта без ограничений, т.е. эквивалентна указанию
Allow: /Очень часто её путают с
Disallow: /
которая наоборот запрещает индексацию сайта полностью. (Обращайте внимание на этот показатель, иначе будут проблемы с индексацией)
Совершенно аналогично, директива
Allow:имеет то же значение, что и
Disallow: /и полностью запрещает индексацию ресурса.

Директива Sitemap
Если Вы используете карту сайта, то в файле robots.txt можно указать путь к ней. Делается это с помощью специальной директивы Sitemap.
User-agent: *
Disallow: /avatars
Sitemap: http://www.yoursite.ru/dir/sitemap1.xml
При анализе директивы Sitemap робот узнает о наличии карты сайта sitemap1.xml и будет учитывать ещё при следующем своём посещении.

Директива Host
Важно понимать, что существуют директивы, понимать которые способны не все роботы. Именно такого рода директивой и является Host, которая из всех популярных роботов распознаётся только Яндексом. Host служит для указания роботу Яндекса главного зеркала Вашего сайта. Дело в том, что один и тот же сайт может быть доступен по нескольким доменам, например, example.ru и example.com. Помимо всего прочего, тот же контент может быть доступен и по URL с лидирующим префиксом www, например:
www.example.ru
www.example.com
В этом случае роботу Яндекса можно указать, какое зеркало является главным. При этом в качестве значение нужно поставить имя домена главного зеркала. Например, если Вы хотите указать в качестве главного зеркала имя домена без www, то директива Host должна выглядеть так:
User-agent: Yandex
Disallow: /avatars
Host: example.com
В случае, если есть желание наоборот указать главное зеркало с www, воспользуйтесь соответствующим значением:
User-agent: Yandex
Disallow: /avatars
Host: www.example.com
Если Вам знакома проблема дублей, то значимость директивы Host очевидна. Host желательно указывать после списка из Disallow и Allow. Директива Host в файле robots.txt может быть только одна, если их указано несколько, будет восприниматься только первая из них. Важно помнить, чтобы значение Host содержало корректное имя хоста или домена.
Ещё раз напомню, что Host относится к тем директивам, которые понимает лишь робот Яндекса. Чтобы указать главное зеркало для робота Google, воспользуйтесь соответствующим инструментом вебмастера.

Директива Crawl-delay
Данная инструкция позволяет указать роботу минимальное время, через которое ему стоит заходить на сайт. Это бывает полезно, когда роботы слишком часто посещают Ваш ресурс, что является причиной повышения нагрузки на сервер. В таком случае можно воспользоваться директивой Crawl-delay , например:
User-agent: *
Disallow: /avatars
Crawl-delay: 6
Некоторые роботы позволяют указать не только целое, но и дробное значение интервала времени.
User-agent: Yandex
Disallow: /avatars
Crawl-delay: 6.5

Директива Clean-param
Ещё одна директива, о которой хочется упомянуть, это Clean-param. Данная директива не столь обязательна, как например Disallow, однако в некоторых случаях бывает очень полезна. Предположим, что страница сайта с одинаковым содержимым доступна по нескольким URL, отличающимся только значением какого-то параметра. Например, пусть это будут адреса:
www.yoursite.com/index.php?n=1&ident=515b78d9a31f14781
www.yoursite.com/index.php?n=1&ident=6a124f5e631241451
В этом случае робот будет сканировать все страницы с такими адресами, и естественно обнаружит там абсолютно идентичный контент. Если таких страниц окажется много, то это может привести вдобавок к увеличению нагрузки на сервер. Директива Clean-param позволяет указать роботу, что не следует сканировать все такие адреса и указать параметр, разные значения которого следует воспринимать, как идентичный URL.
Clean-param: ident /index.phpВ общем случае синтаксис директивы следующий:
Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Путь]Как и Host, директива Clean-param распознаётся роботом Яндекса, но её не понимает Google. Для определения подобных параметров для робота Google, воспользуйтесь инструментом вебмастера от данной поисковой системы.
« Последнее редактирование: 24 Февраль 2016, 23:05:49 от moto »
https://irongamers.ru - сообщество любителей компьютерных игр
 


Оффлайн moto

  • Выше солнца
  • *****
  • Сообщений: 16977
  • Поблагодарили: 140 раз(а)
  • Уважение: +126/-0
    • Просмотр профиля
Все о robots.txt - Как правильно его составить
« Ответ #1 : 16 Январь 2013, 18:32:30 »
Правильный robots.txt для Wordpress

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-comments
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */trackback
Disallow: */feed
Disallow: /cgi-bin
Disallow: *?s=
Host: site.ru

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-comments
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */trackback
Disallow: */feed
Disallow: /cgi-bin
Disallow: *?s=

Sitemap: http://site.ru/sitemap.xml
« Последнее редактирование: 16 Январь 2013, 18:58:01 от moto »
https://irongamers.ru - сообщество любителей компьютерных игр
 


Оффлайн moto

  • Выше солнца
  • *****
  • Сообщений: 16977
  • Поблагодарили: 140 раз(а)
  • Уважение: +126/-0
    • Просмотр профиля
Все о robots.txt - Как правильно его составить
« Ответ #2 : 16 Январь 2013, 18:43:16 »
Правильный robots.txt  для Joomla

Не рекомендуется копировать примеры, только брать за основу, так как в каждом конкретном случае файл robots.txt может отличаться от приведенных ниже. В частности это может зависеть от ваших настроек, а так же от того какие дополнительные расширения для Joomla (напр. компоненты) вы используете.

Robots.txt для сайтов Joomla + родной SEF. (при условии, что включен mod_rewrite и переименован файл .htaccess)

User-agent: * #К какому роботу обращаемся (по умолчанию ко всем)
Allow: /index.php?option=com_xmap&sitemap=1&view=xml  #разрешает доступ к карте сайта
Disallow: /administrator/ #Закрываем доступ к админке 
Disallow: /cache/ #Закрываем доступ к кеш
Disallow: /components/ #Закрываем доступ к компонентам
Disallow: /includes/ # #Не помню
Disallow: /language/ # #Языки
Disallow: /libraries/ # #Закрываем библиотеки
Disallow: /logs/ # # #Закрываем логи
Disallow: /media/ # # #Закрываем медиа
Disallow: /modules/ # #Закрываем модули
Disallow: /plugins/ # #Плагины
Disallow: /templates/ # #Папка с шаблонами
Disallow: /tmp/ # # #Не помню
Disallow: /xmlrpc/ # # #Не помню
Disallow: /*com_mailto #Форма отправки писем
Disallow: /*pop= # #Всплывающие окна
Disallow: /*lang=ru # #Не помню
Disallow: /*format= # #Не помню
Disallow: /*print= # #Ссылка вывода на печать
Disallow: /*task=vote # #Голосования
Disallow: /*=watermark #Идиотская ссылка на водяные знаки
Disallow: /*=download # #Ссылки на скачивание
Disallow: /*user/ # #Не помню
Disallow: /404 # # #Закрываем 404 ошибку
Disallow: /index.php?
Disallow: /index.html
Disallow: /*? # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /*% # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /*& # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /index2.php # #Закрываем дубли
Disallow: /index.php # #Закрываем дубли
Disallow: /*tag # # #Закрываем облака тегов
Disallow: /*.pdf # # #Закрываем pdf файлы. По вашему усмотрению
Disallow: /*.swf # # #Закрываем флеш. По вашему усмотрению
Disallow: /*print=1 # #Закрываем ссылку на печать
Disallow: /*=atom # #Закрывает RSS
Disallow: /*=rss # # #Закрывает RSS
Host: site.ru # # #Прописываем ваш сайт
 
Sitemap: http://сайт/sitemap.xml  ### укажите адрес своей карты сайта


Robots.txt для сайтов Joomla + VirtueMart + SH404 (при условии, что включен mod_rewrite и переименован файл .htaccess, отсутствуют адреса с 'index.php' )

User-agent: *         #                                     #К какому роботу обращаемся (по умолчанию ко всем)
Allow: /sitemap-xml.html?sitemap=1        #                          #Разрешаем доступ к карте сайте
Allow: /components/com_virtuemart/shop_image/category      #разрешаем доступ к картинкам категорий
Allow: /components/com_virtuemart/shop_image/product        #разрешаем доступ к картинкам продуктов
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /shop/ask/
Disallow: /index.php?
Disallow: /index2.php
Disallow: /*keyword=           #Поиск по ключевому слову на сайте
Disallow: /*pop=0               #Косяк sh404
Disallow: /*product-search    #Результаты поиска
Disallow: /*flypage=            #Адреса страниц карточек из результатов поиска по сайту
Disallow: /*cart                   #Корзина
Disallow: /*feed                   #Также запрещается RSS и atom
Disallow: /404                 
Disallow: /*?                       #все ссылки которые содержат этот знак не индексируются !
Disallow: /*%                     #запрещает индексацию кириллических url
Crawl-delay: 3                    #задает таймаут в 3 секунды
Host: site.ru # # #Прописываем ваш сайт
 
Sitemap: http://сайт/sitemap.xml #### укажите адрес своей карты сайта


Robots.txt для JoomShopping

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Аllow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*user
Disallow: /component
Disallow: /*product
Disallow: /*category
Disallow: /*cart
Disallow: /*search
Disallow: /*wishlist
Disallow: /*?tmpl
Allow: /components/com_jshopping/files/img_products/
Allow: /components/com_jshopping/files/img_categories/
Host: domain.ru
Sitemap: sitemap_url

Строка -
Disallow: /*%        # Запрещает индексацию кириллических url       

Если вас донимают какие-либо активные, нежелательные боты, то вы можете запретить им индексацию своего сайта. Можно лично к такому обратиться в строке User-agent, а можно прописать условия для Яндекса и Google, - а всем остальным ниже пропишем

User-agent: *
Disallow: /


Несколько полезных примеров:
1. запретить индексировать адреса имеющие какое-либо регулярное выражение, например 'search'
    Disallow: /*search
2. может возникнуть ситуация когда нужно закрыть какую-либо страницу, но разрешить индексировать вложенность,
    например запретить site.ru/blog , но не закрывать site.ru/blog/article/
    Disallow: /blog$
3. разрешить индексировать документы в определенном разделе только с расширением .html
    Allow: /blog/*.html
    Disallow: /blog/

3. запрет на индексацию pdf
    Disallow: /*.pdf
4. для уменьшения нагрузки на сервер (для Яндекса, Google не учитывает) можно указать ботам временной интервал в секундах       между запросами на загрузку страниц (от 1 до 10)
   Crawl-delay: 3
   для западных ботов можно использовать -
   Request-rate : 1/10   
( интервал в 10 сек )
« Последнее редактирование: 16 Январь 2013, 18:58:14 от moto »
https://irongamers.ru - сообщество любителей компьютерных игр
 

Оффлайн moto

  • Выше солнца
  • *****
  • Сообщений: 16977
  • Поблагодарили: 140 раз(а)
  • Уважение: +126/-0
    • Просмотр профиля
Все о robots.txt - Как правильно его составить
« Ответ #3 : 17 Январь 2013, 08:41:06 »
Правильный robots.txt для SMF

Почти идеальный robots для только что установленного и настроенного форума, без учёта дополнительных SEO-модов типа Pretty URLs и прочих.

User-agent: *
Allow: /$ #Индексация главной страницы форума (или портала, если установлен)
Disallow: /*action #Адреса типа /index.php?action=
Disallow: /*topic=*.msg #Адреса типа /index.php?topic=49.msg209#new
Disallow: /*topic=*.new
Disallow: /*; #Адреса типа /index.php?board=1.0;sort=views
Disallow: /*ID #Адреса с параметром PHPSESSID
Allow: /*board #Индексация всех разделов
Allow: /*topic #Индексация всех тем
Disallow: / #Всё остальное запрещаем!
Host: knowpc.ru #Если у вас домен с www, то пишем: www.mysite.ru

При установке мода Sitemap и включении новостей XML\RSS в админке набор правил не меняется, но добавляется пара строчек:

User-agent: *
Allow: /$
Allow: /*action=.xml #Разрешаем индексацию ленты новостей
Allow: /*sitemap #Разрешаем индексацию карты
Disallow: /*action
Disallow: /*topic=*.msg
Disallow: /*topic=*.new
Disallow: /*;
Disallow: /*ID
Allow: /*board
Allow: /*topic
Disallow: / #Всё остальное запрещаем!
Sitemap: http://knowpc.ru/sitemap.xml #Полный URL к карте сайта
Host: knowpc.ru #Если у вас домен с www, то пишем: www.mysite.ru


Если ещё поставили Aeva Media и SimplePortal, правила опять дорабатываются:

User-agent: *
Allow: /$
Allow: /*forum$ #Индексация главной страницы форума (если установлен SimplePortal)
Allow: /*page*page #Индексация страниц портала
Allow: /*media$ #Индексация главной страницы галереи
Allow: /*media*item #Индексация элементов галереи
Allow: /*media*album #Индексация альбомов галереи
Allow: /*action=.xml
Allow: /*sitemap
Disallow: /*action
Disallow: /*topic=*.msg
Disallow: /*topic=*.new
Disallow: /*;
Disallow: /*ID
Allow: /*board
Allow: /*topic
Disallow: / #Всё остальное запрещаем!
Sitemap: http://knowpc.ru/sitemap.xml #Полный URL к карте сайта
Host: knowpc.ru #Если у вас домен с www, то пишем: www.mysite.ru


Правила для роботов, добавляющих в индекс страницы для мобильных устройств:

User-agent: Googlebot-Mobile
Allow: /*wap
Allow: /*imode
Disallow: /
User-agent: YandexImageResizer
Allow: /*wap
Allow: /*imode
Disallow: /

Если хотим ограничить некоторых упертых ботов в скорости сканирования своего форума, а то и вовсе запретить им доступ, можно добавить:

User-agent: slurp
Crawl-delay: 10
« Последнее редактирование: 17 Январь 2013, 08:42:53 от moto »
https://irongamers.ru - сообщество любителей компьютерных игр
 

Оффлайн Master-It

  • Ученик
  • **
  • Сообщений: 159
  • Уважение: +4/-0
  • Пол: Мужской
  • Master-It
    • Просмотр профиля
Все о robots.txt - Как правильно его составить
« Ответ #4 : 17 Январь 2013, 09:31:26 »
Развернутое представление о robots.txt! Кстати, для WordPress можно:
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/files и многое другое заменить на правило:
Allow: /wp-content/uploads
Disallow: /wp-content/
 


Платон Щукин

  • Гость
Правильный robots.txt для Wordpress
Правильных robots.tx для вордпресса существует много, и каждый из них по своему правильный, многое зависит от многих нюансов присутствующих на блоге
 

Оффлайн motosimak

  • Ветеран-элита
  • *****
  • Сообщений: 5487
  • Поблагодарили: 3 раз(а)
  • Уважение: +11/-0
  • Пол: Мужской
    • Просмотр профиля
Платон Щукин, это основа, остальное можно делать, как хотите.

Оффлайн motosimak

  • Ветеран-элита
  • *****
  • Сообщений: 5487
  • Поблагодарили: 3 раз(а)
  • Уважение: +11/-0
  • Пол: Мужской
    • Просмотр профиля
Все же в роботс лучше основное папки заносить, остальное без разницы, главное поселить на ресурсе быстро робота, но это вопрос другой темы

Оффлайн motosimak

  • Ветеран-элита
  • *****
  • Сообщений: 5487
  • Поблагодарили: 3 раз(а)
  • Уважение: +11/-0
  • Пол: Мужской
    • Просмотр профиля
Все о robots.txt - Как правильно его составить
« Ответ #8 : 11 Сентябрь 2013, 08:56:49 »
Настройка Robots.txt для Dle
User-agent: *
Disallow: /*print
Disallow: /user/
Disallow: /backup/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /upgrade/
Disallow: /uploads/
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /index.php?do=addnews
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=pm
Disallow: /index.php?do=register
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?subaction=newposts
Disallow: /?do=lastcomments
Disallow: /statistics.html
Host: Ваш_сайт
Sitemap: http://Ваш_сайт/sitemap.xml

В результате:
Из индекса убираются все версии страниц для печати;
Закрываются страницы профилей, при помощи которых часто спамят недобросовестные вебмастеры;
Запрещаются к индексации страницы, на которых отсутствует полезный для посетителей контент, например, админка;
Отбрасываем всякий хлам;
Задаём местонахождение карты сайта и хост.

Оффлайн motosimak

  • Ветеран-элита
  • *****
  • Сообщений: 5487
  • Поблагодарили: 3 раз(а)
  • Уважение: +11/-0
  • Пол: Мужской
    • Просмотр профиля
Все о robots.txt - Как правильно его составить
« Ответ #9 : 11 Сентябрь 2013, 08:58:09 »
Файл robots.txt для phpbb3

User-agent: *
Disallow: /faq.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /style.php
Disallow: /ucp.php
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Disallow: /go.php
Sitemap: /sitemap.php
Clean-param: sid /index.php
Clean-param: sid /viewforum.php
Clean-param: sid /viewtopic.php
 
User-agent: Yandex
Disallow: /faq.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /style.php
Disallow: /ucp.php
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Disallow: /viewtopic.php?f=*&t=*&view=print

Host: VASH_SITE.ru
Sitemap: /sitemap.php
Clean-param: sid /index.php
Clean-param: sid /viewforum.php
Clean-param: sid /viewtopic.php


Оффлайн motosimak

  • Ветеран-элита
  • *****
  • Сообщений: 5487
  • Поблагодарили: 3 раз(а)
  • Уважение: +11/-0
  • Пол: Мужской
    • Просмотр профиля
Все о robots.txt - Как правильно его составить
« Ответ #10 : 11 Сентябрь 2013, 09:02:33 »
Правильный robots.txt для vBulletin

User-agent: *
Disallow: /images/
Disallow: /clientscript/
Disallow: /cpstyles/
Disallow: /customavatars/
Disallow: /customprofilepics/
Disallow: /includes/
Disallow: /attachment.php
Disallow: /ajax.php
Disallow: /announcement.php
Disallow: /zakritie-proekti/
Disallow: /aktyalinii-proekt/
Disallow: /bazi-katalogov/
Disallow: /ashmanov-staf/
Disallow: /platnie-bazi/
Disallow: /rassilki-ashmanova/
Disallow: /arxivi-dokladov/
Disallow: /konferen4iya-etarget/
Disallow: /knigi-ashmanova/
Disallow: /musorka/*
Disallow: /yumor/*
Disallow: /besedka/*
Disallow: /obyavleniya/*
Disallow: /finansovye-obyavleniya/*
Disallow: /rabota-na-postoyannoi-osnove/*
Disallow: /kursy-obuchenie/*
Disallow: /ssylki/*
Disallow: /pokupka-ssylok/*
Disallow: /prodazha-ssylok/*
Disallow: /obmen-i-razmeschenie-statei/*
Disallow: /pokupka-statei/*
Disallow: /prodazha-statei/*
Disallow: /saity/*
Disallow: /pokupka/*
Disallow: /prodazha/*
Disallow: /katalogi-saitov-i-bazy/*
Disallow: /domeny-rynok/*
Disallow: /kuplyu-domen/*
Disallow: /prodam-domen/*
Disallow: /ocenka-domenov/*
Disallow: /frilans-ischu-rabotu/*
Disallow: /teksty-stati/*
Disallow: /progon-po-katalogam-i-t-d/*
Disallow: /seo-uslugi-konsultacii/*
Disallow: /sozdanie-saitov/*
Disallow: /cozdanie-dizaina/*
Disallow: /kontent-menedzhery/*
Disallow: /frilans-predlagayu-rabotu/*
Disallow: /teksty-i-stati/*
Disallow: /progon-saitov-i-t-d/*
Disallow: /seo-optimizaciya-analiz/*
Disallow: /saity-sozdanie/*
Disallow: /dizain/*
Disallow: /napolnenie-i-t-d/*
Disallow: /prazdniki/*
Disallow: /hobbi/*
Disallow: /usercp.php
Disallow: /misc.php
Disallow: /online.php
Disallow: /report.php
Disallow: /postings.php
Disallow: /private.php
Disallow: /sendmessage.php
Disallow: /sendtofriend.php
Disallow: /register.php
Disallow: /newthread.php
Disallow: /newreply.php
Disallow: /editpost.php
Disallow: /memberlist.php
Disallow: /post_thanks.php*
Disallow: /redirector.php*
Disallow: /search.php*
Disallow: /calendar.php
Disallow: /member.php
Disallow: /global.php
Disallow: /image.php
Disallow: /infraction.php
Disallow: /inlinemod.php
Disallow: /joinrequests.php
Disallow: /login.php
Disallow: /newattachment.php
Disallow: /poll.php
Disallow: /printthread.php
Disallow: /profile.php
Disallow: /register.php
Disallow: /reputation.php
Disallow: /showgroups.php
Disallow: /showpost.php
Disallow: /subscription.php
Disallow: /threadrate.php
Disallow: /usernote.php
Disallow: /*post*
Disallow: /*nojs=*
Disallow: /*&sort=*
Disallow: /*daysprune=*
Disallow: /*member*
Disallow: /*user*

Host: www.site.ru

Sitemap: http://www.site/sitemap_index.xml.gz

Оффлайн motosimak

  • Ветеран-элита
  • *****
  • Сообщений: 5487
  • Поблагодарили: 3 раз(а)
  • Уважение: +11/-0
  • Пол: Мужской
    • Просмотр профиля
Все о robots.txt - Как правильно его составить
« Ответ #11 : 11 Сентябрь 2013, 09:07:07 »
Правильный robots.txt для XenForo

User-agent: *
Allow: /misc/quick-navigation-menu
Disallow: /attachments/
Disallow: /birthdays/
Disallow: /find-new/
Disallow: /*/?direction
Disallow: /*/?order
Disallow: /*/page-*?order
Disallow: /login/
Disallow: /lost-password/
Disallow: /misc/
Disallow: /online/
Disallow: /recent-activity/
Disallow: /register/
Disallow: /search/
Disallow: /WhoHasVisited/

 
User-agent: Yandex
Disallow: /attachments/
Disallow: /birthdays/
Disallow: /find-new/
Disallow: /*/?direction
Disallow: /*/?order
Disallow: /*/page-*?order
Disallow: /login/
Disallow: /lost-password/
Disallow: /misc/
Disallow: /online/
Disallow: /recent-activity/
Disallow: /register
Disallow: /search/
Disallow: /WhoHasVisited/

Host: сайт
Sitemap: http://сайт.ru/sitemap/sitemap.xml.gz

Оффлайн TheRumz

  • Новичок
  • *
  • Сообщений: 15
  • Уважение: +0/-0
    • Просмотр профиля
Все о robots.txt - Как правильно его составить
« Ответ #12 : 23 Февраль 2014, 17:54:34 »
Хорошо написал, но без пояснений ...
Напиши что такое, Disallow, User-agent, Clean-param и.т.д.
 

Оффлайн moto

  • Выше солнца
  • *****
  • Сообщений: 16977
  • Поблагодарили: 140 раз(а)
  • Уважение: +126/-0
    • Просмотр профиля
Все о robots.txt - Как правильно его составить
« Ответ #13 : 24 Февраль 2014, 15:32:23 »
Напиши что такое, Disallow, User-agent, Clean-param и.т.д.
добавил в первое сообщение темы - http://knowpc.ru/seo-optimizacija/vse-o-robots-txt-kak-pravilno-ego-sostavit/msg15420/#msg15420
https://irongamers.ru - сообщество любителей компьютерных игр
 

Оффлайн Tyr0I{

  • Учитель
  • ****
  • Сообщений: 1045
  • Поблагодарили: 4 раз(а)
  • Уважение: +1/-0
  • Пол: Мужской
    • Просмотр профиля
Все о robots.txt - Как правильно его составить
« Ответ #14 : 20 Март 2014, 07:15:58 »
Спасибо! Вроде понял)
Хорошие люди принесут вам счастье, плохие наградят вас опытом, худшие - дадут вам урок, а лучшие - подарят воспоминания. Цените каждого!
 

 


Поиск

 
SimplePortal 2.3.6 © 2008-2014, SimplePortal