Все о robots.txt - Как правильно его составить

46 ответ(ов) в теме
moto
не в сети 2 часа
На сайте с 12.03.2017
Администратор
Тем 3402
Сообщения 13586
0
18:01

Файл robots txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл robots.txt. (в большинстве CMS он уже идет в пакете установке и на выходе находится в корне сайта)

Частые ошибки robots.txt

Файл robots.txt лежит в поддиректории
Роботы будут учитывать только тот robots.txt, который находится в корне сайта. Все robots.txt из подкаталогов никакой роли для поисковых роботов играть не будут

Неправильное название файла
Файл robots.txt должен называться именно таки никак иначе. Все буквы должны быть нижнего регистра, иначе боты будут считать, что файл robots.txt отсутствует.
Например, следующие варианты написания будут ошибочны:
Robots.txt<br>robot.txt

Использование в файле robot.txt недопустимых символов
В robot.txt нельзя использовать символы национальных алфавитов, допустима только латиница. Сам файл должен быть набран в кодировке ANSI.

Синтаксические ошибки
Помните, что синтаксические ошибки в robot.txt могут привести к игнорированию всего файла robot.txt поисковым роботом.

Указание нескольких роботов в директиве User-agent
Частая ошибка, когда в директиве User-agent перечисляют все те роботы, к которым относится данная секция (блок). Например, следующая директива не допустима:
User-agent: StackRambler, Yandex, Googlebot
Для каждого бота должна быть своя отдельная директива User-agent, исключение составляет директива
User-agent: *
обращающаяся ко всем ботам

Пустой User-agent
В отличие от директив Disallow и Allow значение User-agent не может быть пустым, поэтому следующая директива будет признана ошибочной:
User-agent:

Перечисление в директиве Disallow нескольких значений
Ещё одна распространённая ошибка, это перечисление нескольких значений в директиве Disallow. Например, ошибкой будет:
Disallow: /images /avatars /secret
Если необходимо запретить к индексации несколько директорий, то нужно прописать директиву Disallow для каждой из них:
Disallow: /images<br>Disallow: /avatars<br>Disallow: /secret

Неверное понимание приоритета директив robots.txt
Теперь приоритет инструкций Disallow и Allow определяется не порядком их следования, а на основании совпадения самой длинной подстроки. Это необходимо учитывать при составлении своего robots.txt, поскольку раньше принцип приоритета был другим.

Некоторые директивы распознаются не всеми ботами
Яркий тому пример, директива Host, которую понимает Yandex, но о ней ничего не знают другие роботы, включая роботов Google. Если подобная директива будет содержаться в универсальной секции User-agent: *, то бот может проигнорировать всю секцию.

Использование комментариев посреди директив
Например, так:
Disallow: #это комментарий /avatars

Чередование строчных и прописных букв в директивах
В отличие от имени файла robots.txt, в самих директивах разрешается использовать как заглавные, так и прописные буквы.
USER-AGENT: *<br>DISALLOW: /css
или даже так:
uSer-AgeNt: YANDEX<br>DisAllow: /images

FAQ по поисковым роботам

Для чего нужен файл robots.txt?
robots.txt служит для управления со стороны вебмастера процессом индексации сайта. В этом файле можно указать поисковым системам, какие страницы не следует подвергать индексации, ограничить робот по частоте посещения, указать адрес карты сайта и т.д.К списку

Обязательно ли мне иметь файл robots.txt?
Если файл robots.txt отсутствует, то предполагается, что на индексацию сайта не налагается никаких ограничений. Подумайте, отвечает ли это Вашим требованиям?К списку

У меня нет robots.txt, как его создать?
Создать robots.txt можно в любом текстовом редакторе, начиная с блокнота Windows, однако лучше всего это делать в продвинутых редакторах типа Notepad++ или Notepad2.

Можно ли иметь на сайте несколько файлов robots.txt?
Файл robots.txt на домене должен быть один и располагаться в корне домена. То есть вы можете создать их и несколько, но поисковые роботы будут читать и исполнять только тот, что находится в корне. Соответственно создавать остальные robots.txt смысла нет, если они будут лежать в поддиректориях.

У меня несколько CMS на домене, какой robots.txt мне нужен?
Если ваши CMS поставлены в пределах одного домена, но в разные директории, то нужно завести один общий robots.txt. К организации второй CMS отдельно на поддомене это не относится.

А как насчет robots.txt для поддоменов?
Каждый поддомен логически является самостоятельным доменом, поэтому может иметь в своём корне отдельный файл robots.txt. Соответственно его инструкциям должны следовать поисковые боты.

Какие права должен иметь файл robots.txt?
Для поисковой системы важно, чтобы robots.txt был доступен через web. Остальное определяется из соображений безопасности и настроек Вашего веб-сервера.

Можно ли полагаться на файл robots.txt для закрытия секретных данных?
robots.txt не гарантирует Вам ничего, поэтому для сокрытия секретных данные полагаться на этот файл не стоит.

Можно ли ограничить с помощью robots.txt частоту посещения моего сайта роботами?
Да. Для этого существует специальная директива Crawl-delay. Если бот её не поддерживает, но сильно нагружает сервер, имеет смысл запретить вообще боту посещение сайта.

Я хочу написать в robots.txt правило для конкретного робота, могу я это сделать?
Да, можно. Для этого необходимо создать соответствующий блок для нужного User-agent.

Как определить, какой именно робот посещает сайт?
Распознать бот можно и по его IP адресу, однако с точки зрения robots.txt практическое значение имеет только User-agent.

Как связаны между собой файлы robots.txt и .htaccess?
Практически никак. Файлы выполняют совершенно различную роль: robots.txt служит для создания предписаний роботам, в то время, как файл .htaccess является одним из конфигурационных файлов web-сервера и служит для управления им. robots.txt носит характер предписательный, в то время как директивы файла .htaccess выполняются беспрекословно. Тем не менее оба эти файла могут использоваться совместно как для управления посещениями роботов, так, например, и для склейки доменов с www и без www.

Почему Яндекс не принимает мой файл robots.txt?
Вероятно Ваш robots.txt содержит какие-то ошибки.

Как определить ошибки в файле robots.txt?
В первую очередь ознакомиться со списком наиболее частых ошибок в файле robots.txt. Проверить синтаксис директив, также формат, в котором был создан файл robots.txt. Воспользоваться инструментами вебмастера.

Некоторые страницы сайта не индексируются поисковым роботом, может ли быть виноват в этом robots.txt?
Да, конечно. В этом случае для анализа причин лучше всего прибегнуть к помощи инструментов вебмастера от ведущих поисковых систем Yandex и Google.К списку

У меня проблемы с картой сайта, хотя сама она составлена верно.
Проверьте, нет ли в robots.txt директивы Disallow, запрещающей путь для карты вашего сайта.К списку
Яндекс пишет про какие-то канонические страницы, что это такое? В файле robots.txt не вижу никаких директив о канонических страницах.

Сравнительно недавно Яндекс стал поддерживать понятие канонических страниц. Указание канонической страницы позволяет указать главный URL, если одно и то же содержимое становится доступно по нескольким адресам. Прежде Яндекс использовал другой алгоритм.

У меня нет доступа на запись к robots.txt, как мне быть?
Если у Вас есть возможность изменять содержимое страниц, можно воспользоваться мета-тегом ROBOTS для указания роботу порядка индексации страницы.

Иногда веб-мастеру может потребоваться закрыть от индексации часть сайта. Эта задача легко решаема, так как большинство Web Роботов позволяют администраторам сайтов ограничить свое поведение на сайте. Это можно сделать несколькими способами:
Можно указать, какие части сайта не должны посещаться роботами, разместив специально отформатированный файл в корне сайта — http://www.site-name.ru/robots.txt

Администратор может указать, может страница быть проиндексирована или нет, или проанализирована на наличие ссылок, используя специальный HTML META тег.
Использовать нестандартные приемы, работающие для конкретных роботов. Например запретить роботу следовать по ссылке при помощи rel="nofollow" (Google, MSN, Yahoo) или запретить индексацию части страницы при помощи тега <noindex> (Yandex, Rambler).

Следует отметить, что все эти методы не дают стопроцентной гарантии. Некоторые роботы могут попросту не обращать на них внимание.

Краткий список пояснений для команд, помогающих правильно составить robots.txt:

Использование любых символов национальных алфавитов в robots.txt не допускается, а сам файл должен быть набран в кодировке ANSI. Структурно файл robots.txt состоит из одной или нескольких секций (блоков), каждая из которых относится к конкретному поисковому боту. Каждая секция в свою очередь состоит уже из набора директив (предписаний), управляющими процессом индексации соответствующей ПС. Перед секциями не должно быть никаких заголовочных (вступительных) директив, как это принято в некоторых конфигурационных файлах, между секциями не допускаются никакие символы, кроме перевода строк. Директивы не должны содержать никаких лишних символов. Исключением из данных правил являются комментарии.

Комментарии
Комментарий должен начинаться с символа # и продолжается до конца текущей строки. Все символы, начиная со знака комментария #, и до конца текущей строки, являются комментарием и игнорируются роботами.

User-agent: Yandex<br>Disallow: /css #это комментарий<br>#Это ещё один комментарий, он также игнорируется<br>Disallow: /image

Блоки (секции) для индексирования

При интерпретации роботом, будет использоваться та секция, которая наиболее точно соответствует по его user-agent. Если в robots.txt есть блок с именем робота, то будет использоваться именно она, а не секция с User-agent: * . (для всех)
Любая секция продолжается либо до начала следующей секции, либо до конца файла robots.txt. Согласно стандарту, между соседними секциями должна вставляться хотя бы одна пустая строка. Каждая секция должна начинаться с директивы User-agent и содержать значение User-agent того робота, к которому относится данная секция. Например, директива User-agent для основного поискового робота Yandex выглядит следующим образом:
User-agent: YandexBot

Чтобы указать секцию (блок), относящуюся ко всем ботам, в директиве User-agent можно использовать значение «*».
Если в файле robots.txt есть секция с именем конкретного бота, то для этого робота будет использоваться именно она, в противном случае блок, начинающийся с
User-agent: *

Перечисление нескольких имён ботов в директиве User-agent не допускается. Если нужно использовать одинаковые правила для нескольких ботов, потребуется создать несколько секций, либо использовать блок с
User-agent: *

Директивы, общее представление

Как уже было сказано, каждый блок (секция) состоит из директив. Общий формат директив таков:
[Имя_директивы]:[необязательный пробел][значение][необязательный пробел]

Каждая директива следует до конца текущей строки и не допускает переноса. Между директивами одной секции согласно стандарту не допускается пустых строк. Точно так же между директивой User-agent и следующей директивой той же секции пустых строк быть не должно.

Директива Disallow
Запрещающая директива, и одновременно наиболее часто используемая в файле robots.txt. Disallow запрещает индексацию сайта или его части, согласно пути, прописанному в значении этой директивы.

User-agent: Yandex<br>Disallow: /
Запрещает весь сайт к индексации для поискового бота яндекса. Прежде, чем привести другие примеры, необходимо объяснить о существовании специальных символов * и $. Символ * означает любое количество любых символов, например, под маску /dir* подходит как /dir1, так и /dir291, /diroooooo или просто /dir. По умолчанию, при интерпретации ботом к указанному пути приписывается символ *. Например, следующие директивы полностью идентичны:
Disallow: /css<br>Disallow: /css*

Чтобы избежать при интерпретации «автоматического дописывания» символа * в конце пути, служит другой специальный символ - $. Этот символ означает конец подстроки сравнения. Таким образом, следующий блок будет запрещать /dir, но не будет запрещать пути /dir1, /dir291 или /diroooooo.
User-agent: *<br>Disallow: /dir$

Директива Allow
Эта директива имеет синтаксис, сходный с Disallow, но в противоположность директиве Disallow наоборот носит разрешительный характер. К примеру, в следующем примере всем роботам запрещается индексировать весь сайт, кроме путей, начинающихся с /subname.
User-agent: *<br>Allow: /subname<br>Disallow: /

Приоритет и совместное использование директив Allow и Disallow.
Важно понимать, что будет, если некоторые пути подходят как под правила Allow, так и Disallow. Если раньше результат определялся порядком следования директив Allow и Disallow в файле robots.txt, то сейчас применяется совершенно другой алгоритм. Результат действия Allow и Disallow определяется, исходя из максимального соответствующего пути в пределах одного блока User-agent. Все директивы Allow и Disallow из одной секции сортируются в соответствии с длиной указанной в значениях подстроки в порядке увеличения их длины. На этапе принятия решения приоритет будет иметь то правило, которое расположено в отсортированном списке ниже, то есть наиболее точно соответствует имени. Пример:
User-agent: *<br>Allow: /images<br>Disallow: /image

Будет разрешать к индексации пути, начинающиеся с /images, но в то же время имена, такие как /image555 или просто /image индексироваться не будут. Хотя путь /images888 и подходит под запрещающую директиву Disallow, разрешающее правило по принципу ранжирования подходит более точно.
В случае, когда Disallow и Allow одновременно соответствуют префиксу одинаковой длины, приоритет имеет директива Allow.

Disallow и Allow с пустым значением параметра
Этот случай является частой причиной не верной трактовки правил Disallow и Allow.
Дело в том, что директива Disallow вопреки возможным предположениям наоборот разрешает индексацию всего сайта без ограничений, т.е. эквивалентна указанию
Allow: /
Очень часто её путают с
Disallow: /

которая наоборот запрещает индексацию сайта полностью. (Обращайте внимание на этот показатель, иначе будут проблемы с индексацией)
Совершенно аналогично, директива
Allow:
имеет то же значение, что и
Disallow: /
и полностью запрещает индексацию ресурса.

Директива Sitemap
Если Вы используете карту сайта, то в файле robots.txt можно указать путь к ней. Делается это с помощью специальной директивы Sitemap.
User-agent: *<br>Disallow: /avatars<br>Sitemap: http://www.yoursite.ru/dir/sitemap1.xml
При анализе директивы Sitemap робот узнает о наличии карты сайта sitemap1.xml и будет учитывать ещё при следующем своём посещении.

Директива Host
Важно понимать, что существуют директивы, понимать которые способны не все роботы. Именно такого рода директивой и является Host, которая из всех популярных роботов распознаётся только Яндексом. Host служит для указания роботу Яндекса главного зеркала Вашего сайта. Дело в том, что один и тот же сайт может быть доступен по нескольким доменам, например, example.ru и example.com. Помимо всего прочего, тот же контент может быть доступен и по URL с лидирующим префиксом www, например:
www.example.ru<br>www.example.com
В этом случае роботу Яндекса можно указать, какое зеркало является главным. При этом в качестве значение нужно поставить имя домена главного зеркала. Например, если Вы хотите указать в качестве главного зеркала имя домена без www, то директива Host должна выглядеть так:
User-agent: Yandex<br>Disallow: /avatars<br>Host: example.com
В случае, если есть желание наоборот указать главное зеркало с www, воспользуйтесь соответствующим значением:
User-agent: Yandex<br>Disallow: /avatars<br>Host: www.example.com
Если Вам знакома проблема дублей, то значимость директивы Host очевидна. Host желательно указывать после списка из Disallow и Allow. Директива Host в файле robots.txt может быть только одна, если их указано несколько, будет восприниматься только первая из них. Важно помнить, чтобы значение Host содержало корректное имя хоста или домена.
Ещё раз напомню, что Host относится к тем директивам, которые понимает лишь робот Яндекса. Чтобы указать главное зеркало для робота Google, воспользуйтесь соответствующим инструментом вебмастера.

Директива Crawl-delay
Данная инструкция позволяет указать роботу минимальное время, через которое ему стоит заходить на сайт. Это бывает полезно, когда роботы слишком часто посещают Ваш ресурс, что является причиной повышения нагрузки на сервер. В таком случае можно воспользоваться директивой Crawl-delay , например:
User-agent: *<br>Disallow: /avatars<br>Crawl-delay: 6
Некоторые роботы позволяют указать не только целое, но и дробное значение интервала времени.
User-agent: Yandex<br>Disallow: /avatars<br>Crawl-delay: 6.5

Директива Clean-param
Ещё одна директива, о которой хочется упомянуть, это Clean-param. Данная директива не столь обязательна, как например Disallow, однако в некоторых случаях бывает очень полезна. Предположим, что страница сайта с одинаковым содержимым доступна по нескольким URL, отличающимся только значением какого-то параметра. Например, пусть это будут адреса:
www.yoursite.com/index.php?n=1&ident=515b78d9a31f14781<br>www.yoursite.com/index.php?n=1&ident=6a124f5e631241451
В этом случае робот будет сканировать все страницы с такими адресами, и естественно обнаружит там абсолютно идентичный контент. Если таких страниц окажется много, то это может привести вдобавок к увеличению нагрузки на сервер. Директива Clean-param позволяет указать роботу, что не следует сканировать все такие адреса и указать параметр, разные значения которого следует воспринимать, как идентичный URL.
Clean-param: ident /index.php
В общем случае синтаксис директивы следующий:
Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Путь]
Как и Host, директива Clean-param распознаётся роботом Яндекса, но её не понимает Google. Для определения подобных параметров для робота Google, воспользуйтесь инструментом вебмастера от данной поисковой системы.

Редакции сообщения
0
moto
не в сети 2 часа
На сайте с 12.03.2017
Администратор
Тем 3402
Сообщения 13586
0
18:32

Правильный robots.txt для Wordpress

User-agent: Yandex<br>Disallow: /wp-admin<br>Disallow: /wp-includes<br>Disallow: /wp-comments<br>Disallow: /wp-content/plugins<br>Disallow: /wp-content/themes<br>Disallow: /wp-login.php<br>Disallow: /wp-register.php<br>Disallow: */trackback<br>Disallow: */feed<br>Disallow: /cgi-bin<br>Disallow: *?s=<br>Host: site.ru<br><br>User-agent: *<br>Disallow: /wp-admin<br>Disallow: /wp-includes<br>Disallow: /wp-comments<br>Disallow: /wp-content/plugins<br>Disallow: /wp-content/themes<br>Disallow: /wp-login.php<br>Disallow: /wp-register.php<br>Disallow: */trackback<br>Disallow: */feed<br>Disallow: /cgi-bin<br>Disallow: *?s=<br><br>Sitemap: http://site.ru/sitemap.xml

Редакции сообщения
0
moto
не в сети 2 часа
На сайте с 12.03.2017
Администратор
Тем 3402
Сообщения 13586
0
18:43

Правильный robots.txt для Joomla

Не рекомендуется копировать примеры, только брать за основу, так как в каждом конкретном случае файл robots.txt может отличаться от приведенных ниже. В частности это может зависеть от ваших настроек, а так же от того какие дополнительные расширения для Joomla (напр. компоненты) вы используете.

Robots.txt для сайтов Joomla + родной SEF. (при условии, что включен mod_rewrite и переименован файл .htaccess)

User-agent: * #К какому роботу обращаемся (по умолчанию ко всем)<br>Allow: /index.php?option=com_xmap&sitemap=1&view=xml #разрешает доступ к карте сайта<br>Disallow: /administrator/ #Закрываем доступ к админке <br>Disallow: /cache/ #Закрываем доступ к кеш<br>Disallow: /components/ #Закрываем доступ к компонентам<br>Disallow: /includes/ # #Не помню<br>Disallow: /language/ # #Языки<br>Disallow: /libraries/ # #Закрываем библиотеки<br>Disallow: /logs/ # # #Закрываем логи<br>Disallow: /media/ # # #Закрываем медиа<br>Disallow: /modules/ # #Закрываем модули<br>Disallow: /plugins/ # #Плагины<br>Disallow: /templates/ # #Папка с шаблонами<br>Disallow: /tmp/ # # #Не помню<br>Disallow: /xmlrpc/ # # #Не помню<br>Disallow: /*com_mailto #Форма отправки писем<br>Disallow: /*pop= # #Всплывающие окна<br>Disallow: /*lang=ru # #Не помню<br>Disallow: /*format= # #Не помню<br>Disallow: /*print= # #Ссылка вывода на печать<br>Disallow: /*task=vote # #Голосования<br>Disallow: /*=watermark #Идиотская ссылка на водяные знаки<br>Disallow: /*=download # #Ссылки на скачивание<br>Disallow: /*user/ # #Не помню<br>Disallow: /404 # # #Закрываем 404 ошибку<br>Disallow: /index.php?<br>Disallow: /index.html<br>Disallow: /*? # # #все ссылки которые содержат этот знак не индексируются !<br>Disallow: /*% # # #все ссылки которые содержат этот знак не индексируются !<br>Disallow: /*& # # #все ссылки которые содержат этот знак не индексируются !<br>Disallow: /index2.php # #Закрываем дубли<br>Disallow: /index.php # #Закрываем дубли<br>Disallow: /*tag # # #Закрываем облака тегов<br>Disallow: /*.pdf # # #Закрываем pdf файлы. По вашему усмотрению<br>Disallow: /*.swf # # #Закрываем флеш. По вашему усмотрению<br>Disallow: /*print=1 # #Закрываем ссылку на печать<br>Disallow: /*=atom # #Закрывает RSS<br>Disallow: /*=rss # # #Закрывает RSS<br>Host: site.ru # # #Прописываем ваш сайт<br> <br>Sitemap: http://сайт/sitemap.xml ### укажите адрес своей карты сайта

Robots.txt для сайтов Joomla + VirtueMart + SH404 (при условии, что включен mod_rewrite и переименован файл .htaccess, отсутствуют адреса с 'index.php' )

User-agent: * # #К какому роботу обращаемся (по умолчанию ко всем)<br>Allow: /sitemap-xml.html?sitemap=1 # #Разрешаем доступ к карте сайте<br>Allow: /components/com_virtuemart/shop_image/category #разрешаем доступ к картинкам категорий<br>Allow: /components/com_virtuemart/shop_image/product #разрешаем доступ к картинкам продуктов<br>Disallow: /administrator/<br>Disallow: /cache/<br>Disallow: /components/<br>Disallow: /includes/<br>Disallow: /language/<br>Disallow: /libraries/<br>Disallow: /media/<br>Disallow: /modules/<br>Disallow: /plugins/<br>Disallow: /templates/<br>Disallow: /tmp/<br>Disallow: /xmlrpc/<br>Disallow: /shop/ask/<br>Disallow: /index.php?<br>Disallow: /index2.php<br>Disallow: /*keyword= #Поиск по ключевому слову на сайте<br>Disallow: /*pop=0 #Косяк sh404<br>Disallow: /*product-search #Результаты поиска<br>Disallow: /*flypage= #Адреса страниц карточек из результатов поиска по сайту<br>Disallow: /*cart #Корзина<br>Disallow: /*feed #Также запрещается RSS и atom<br>Disallow: /404 <br>Disallow: /*? #все ссылки которые содержат этот знак не индексируются !<br>Disallow: /*% #запрещает индексацию кириллических url<br>Crawl-delay: 3 #задает таймаут в 3 секунды<br>Host: site.ru # # #Прописываем ваш сайт<br> <br>Sitemap: http://сайт/sitemap.xml #### укажите адрес своей карты сайта

Robots.txt для JoomShopping

User-agent: *<br>Disallow: /administrator/<br>Disallow: /cache/<br>Disallow: /cli/<br>Disallow: /components/<br>Аllow: /images/<br>Disallow: /includes/<br>Disallow: /installation/<br>Disallow: /language/<br>Disallow: /libraries/<br>Disallow: /logs/<br>Disallow: /media/<br>Disallow: /modules/<br>Disallow: /plugins/<br>Disallow: /templates/<br>Disallow: /tmp/<br>Disallow: /*user<br>Disallow: /component<br>Disallow: /*product<br>Disallow: /*category<br>Disallow: /*cart<br>Disallow: /*search<br>Disallow: /*wishlist<br>Disallow: /*?tmpl<br>Allow: /components/com_jshopping/files/img_products/<br>Allow: /components/com_jshopping/files/img_categories/<br>Host: domain.ru <br>Sitemap: sitemap_url

Строка -
Disallow: /*% # Запрещает индексацию кириллических url

Если вас донимают какие-либо активные, нежелательные боты, то вы можете запретить им индексацию своего сайта. Можно лично к такому обратиться в строке User-agent, а можно прописать условия для Яндекса и Google, - а всем остальным ниже пропишем

User-agent: *<br>Disallow: /

Несколько полезных примеров:
1. запретить индексировать адреса имеющие какое-либо регулярное выражение, например 'search'
Disallow: /*search

2. может возникнуть ситуация когда нужно закрыть какую-либо страницу, но разрешить индексировать вложенность,
например запретить site.ru/blog , но не закрывать site.ru/blog/article/
Disallow: /blog$

3. разрешить индексировать документы в определенном разделе только с расширением .html
Allow: /blog/*.html<br> Disallow: /blog/

3. запрет на индексацию pdf
Disallow: /*.pdf

4. для уменьшения нагрузки на сервер (для Яндекса, Google не учитывает) можно указать ботам временной интервал в секундах между запросами на загрузку страниц (от 1 до 10)
Crawl-delay: 3

для западных ботов можно использовать -
Request-rate : 1/10
( интервал в 10 сек )

Редакции сообщения
0
moto
не в сети 2 часа
На сайте с 12.03.2017
Администратор
Тем 3402
Сообщения 13586
0
08:41

Правильный robots.txt для SMF

Почти идеальный robots для только что установленного и настроенного форума, без учёта дополнительных SEO-модов типа Pretty URLs и прочих.

User-agent: *<br>Allow: /$ #Индексация главной страницы форума (или портала, если установлен) <br>Disallow: /*action #Адреса типа /index.php?action= <br>Disallow: /*topic=*.msg #Адреса типа /index.php?topic=49.msg209#new <br>Disallow: /*topic=*.new<br>Disallow: /*; #Адреса типа /index.php?board=1.0;sort=views <br>Disallow: /*ID #Адреса с параметром PHPSESSID <br>Allow: /*board #Индексация всех разделов <br>Allow: /*topic #Индексация всех тем <br>Disallow: / #Всё остальное запрещаем! <br>Host: knowpc.ru #Если у вас домен с www, то пишем: www.mysite.ru

При установке мода Sitemap и включении новостей XMLRSS в админке набор правил не меняется, но добавляется пара строчек:

User-agent: *
Allow: /$
Allow: /*action=.xml #Разрешаем индексацию ленты новостей
Allow: /*sitemap #Разрешаем индексацию карты
Disallow: /*action
Disallow: /*topic=*.msg
Disallow: /*topic=*.new
Disallow: /*;
Disallow: /*ID
Allow: /*board
Allow: /*topic
Disallow: / #Всё остальное запрещаем!
Sitemap: http://knowpc.ru/sitemap.xml #Полный URL к карте сайта
Host: knowpc.ru #Если у вас домен с www, то пишем: www.mysite.ru

Если ещё поставили Aeva Media и SimplePortal, правила опять дорабатываются:

User-agent: *<br>Allow: /$<br>Allow: /*forum$ #Индексация главной страницы форума (если установлен SimplePortal) <br>Allow: /*page*page #Индексация страниц портала <br>Allow: /*media$ #Индексация главной страницы галереи <br>Allow: /*media*item #Индексация элементов галереи <br>Allow: /*media*album #Индексация альбомов галереи <br>Allow: /*action=.xml<br>Allow: /*sitemap<br>Disallow: /*action<br>Disallow: /*topic=*.msg<br>Disallow: /*topic=*.new<br>Disallow: /*;<br>Disallow: /*ID<br>Allow: /*board<br>Allow: /*topic<br>Disallow: / #Всё остальное запрещаем! <br>Sitemap: http://knowpc.ru/sitemap.xml #Полный URL к карте сайта <br>Host: knowpc.ru #Если у вас домен с www, то пишем: www.mysite.ru

Правила для роботов, добавляющих в индекс страницы для мобильных устройств:

User-agent: Googlebot-Mobile<br>Allow: /*wap<br>Allow: /*imode<br>Disallow: /<br>User-agent: YandexImageResizer<br>Allow: /*wap<br>Allow: /*imode<br>Disallow: /

Если хотим ограничить некоторых упертых ботов в скорости сканирования своего форума, а то и вовсе запретить им доступ, можно добавить:

User-agent: slurp<br>Crawl-delay: 10

Редакции сообщения
0
Master-It
не в сети давно
На сайте с 23.07.2012
Участник
0
09:31

Развернутое представление о robots.txt! Кстати, для WordPress можно:
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/files и многое другое заменить на правило:
Allow: /wp-content/uploads
Disallow: /wp-content/

Редакции сообщения
0
Форум
Гость
0
18:48

moto сказал(а)
Правильный robots.txt для Wordpress

Правильных robots.tx для вордпресса существует много, и каждый из них по своему правильный, многое зависит от многих нюансов присутствующих на блоге

Редакции сообщения
0
не в сети 3 месяца
На сайте с
Участник
0
09:43

Платон Щукин, это основа, остальное можно делать, как хотите.

Редакции сообщения
0
не в сети 3 месяца
На сайте с
Участник
0
18:13

Все же в роботс лучше основное папки заносить, остальное без разницы, главное поселить на ресурсе быстро робота, но это вопрос другой темы

Редакции сообщения
0
не в сети 3 месяца
На сайте с
Участник
0
08:56

Настройка Robots.txt для Dle
User-agent: *<br>Disallow: /*print<br>Disallow: /user/<br>Disallow: /backup/<br>Disallow: /engine/<br>Disallow: /language/<br>Disallow: /templates/<br>Disallow: /upgrade/<br>Disallow: /uploads/<br>Disallow: /autobackup.php<br>Disallow: /admin.php<br>Disallow: /index.php?do=addnews<br>Disallow: /index.php?do=feedback<br>Disallow: /index.php?do=lostpassword<br>Disallow: /index.php?do=pm<br>Disallow: /index.php?do=register<br>Disallow: /index.php?do=stats<br>Disallow: /index.php?do=search<br>Disallow: /index.php?subaction=newposts<br>Disallow: /?do=lastcomments<br>Disallow: /statistics.html<br>Host: Ваш_сайт<br>Sitemap: http://Ваш_сайт/sitemap.xml

В результате:
Из индекса убираются все версии страниц для печати;
Закрываются страницы профилей, при помощи которых часто спамят недобросовестные вебмастеры;
Запрещаются к индексации страницы, на которых отсутствует полезный для посетителей контент, например, админка;
Отбрасываем всякий хлам;
Задаём местонахождение карты сайта и хост.

Редакции сообщения
0
не в сети 3 месяца
На сайте с
Участник
0
08:58

Файл robots.txt для phpbb3

User-agent: *<br>Disallow: /faq.php<br>Disallow: /mcp.php<br>Disallow: /memberlist.php<br>Disallow: /posting.php<br>Disallow: /report.php<br>Disallow: /search.php<br>Disallow: /style.php<br>Disallow: /ucp.php<br>Disallow: /viewtopic.php?p=*<br>Disallow: /viewtopic.php?f=*&t=*&start=0$<br>Disallow: /viewtopic.php?f=*&t=*&view=next<br>Disallow: /viewtopic.php?f=*&t=*&view=previous<br>Disallow: /go.php<br>Sitemap: /sitemap.php<br>Clean-param: sid /index.php<br>Clean-param: sid /viewforum.php<br>Clean-param: sid /viewtopic.php<br> <br>User-agent: Yandex<br>Disallow: /faq.php<br>Disallow: /mcp.php<br>Disallow: /memberlist.php<br>Disallow: /posting.php<br>Disallow: /report.php<br>Disallow: /search.php<br>Disallow: /style.php<br>Disallow: /ucp.php<br>Disallow: /viewtopic.php?p=*<br>Disallow: /viewtopic.php?f=*&t=*&start=0$<br>Disallow: /viewtopic.php?f=*&t=*&view=next<br>Disallow: /viewtopic.php?f=*&t=*&view=previous<br>Disallow: /viewtopic.php?f=*&t=*&view=print<br><br>Host: VASH_SITE.ru<br>Sitemap: /sitemap.php<br>Clean-param: sid /index.php<br>Clean-param: sid /viewforum.php<br>Clean-param: sid /viewtopic.php

Редакции сообщения
0
не в сети 3 месяца
На сайте с
Участник
0
09:02

Правильный robots.txt для vBulletin

User-agent: *<br>Disallow: /images/<br>Disallow: /clientscript/<br>Disallow: /cpstyles/<br>Disallow: /customavatars/<br>Disallow: /customprofilepics/<br>Disallow: /includes/<br>Disallow: /attachment.php<br>Disallow: /ajax.php<br>Disallow: /announcement.php<br>Disallow: /zakritie-proekti/<br>Disallow: /aktyalinii-proekt/<br>Disallow: /bazi-katalogov/<br>Disallow: /ashmanov-staf/<br>Disallow: /platnie-bazi/<br>Disallow: /rassilki-ashmanova/<br>Disallow: /arxivi-dokladov/<br>Disallow: /konferen4iya-etarget/<br>Disallow: /knigi-ashmanova/<br>Disallow: /musorka/*<br>Disallow: /yumor/*<br>Disallow: /besedka/*<br>Disallow: /obyavleniya/*<br>Disallow: /finansovye-obyavleniya/*<br>Disallow: /rabota-na-postoyannoi-osnove/*<br>Disallow: /kursy-obuchenie/*<br>Disallow: /ssylki/*<br>Disallow: /pokupka-ssylok/*<br>Disallow: /prodazha-ssylok/*<br>Disallow: /obmen-i-razmeschenie-statei/*<br>Disallow: /pokupka-statei/*<br>Disallow: /prodazha-statei/*<br>Disallow: /saity/*<br>Disallow: /pokupka/*<br>Disallow: /prodazha/*<br>Disallow: /katalogi-saitov-i-bazy/*<br>Disallow: /domeny-rynok/*<br>Disallow: /kuplyu-domen/*<br>Disallow: /prodam-domen/*<br>Disallow: /ocenka-domenov/*<br>Disallow: /frilans-ischu-rabotu/*<br>Disallow: /teksty-stati/*<br>Disallow: /progon-po-katalogam-i-t-d/*<br>Disallow: /seo-uslugi-konsultacii/*<br>Disallow: /sozdanie-saitov/*<br>Disallow: /cozdanie-dizaina/*<br>Disallow: /kontent-menedzhery/*<br>Disallow: /frilans-predlagayu-rabotu/*<br>Disallow: /teksty-i-stati/*<br>Disallow: /progon-saitov-i-t-d/*<br>Disallow: /seo-optimizaciya-analiz/*<br>Disallow: /saity-sozdanie/*<br>Disallow: /dizain/*<br>Disallow: /napolnenie-i-t-d/*<br>Disallow: /prazdniki/*<br>Disallow: /hobbi/*<br>Disallow: /usercp.php<br>Disallow: /misc.php<br>Disallow: /online.php<br>Disallow: /report.php<br>Disallow: /postings.php<br>Disallow: /private.php<br>Disallow: /sendmessage.php<br>Disallow: /sendtofriend.php<br>Disallow: /register.php<br>Disallow: /newthread.php<br>Disallow: /newreply.php<br>Disallow: /editpost.php<br>Disallow: /memberlist.php<br>Disallow: /post_thanks.php*<br>Disallow: /redirector.php*<br>Disallow: /search.php*<br>Disallow: /calendar.php<br>Disallow: /member.php<br>Disallow: /global.php<br>Disallow: /image.php<br>Disallow: /infraction.php<br>Disallow: /inlinemod.php<br>Disallow: /joinrequests.php<br>Disallow: /login.php<br>Disallow: /newattachment.php<br>Disallow: /poll.php<br>Disallow: /printthread.php<br>Disallow: /profile.php<br>Disallow: /register.php<br>Disallow: /reputation.php<br>Disallow: /showgroups.php<br>Disallow: /showpost.php<br>Disallow: /subscription.php<br>Disallow: /threadrate.php<br>Disallow: /usernote.php<br>Disallow: /*post*<br>Disallow: /*nojs=*<br>Disallow: /*&sort=*<br>Disallow: /*daysprune=*<br>Disallow: /*member*<br>Disallow: /*user*<br><br>Host: www.site.ru<br><br>Sitemap: http://www.site/sitemap_index.xml.gz

Редакции сообщения
0
не в сети 3 месяца
На сайте с
Участник
0
09:07

Правильный robots.txt для XenForo

User-agent: *<br>Allow: /misc/quick-navigation-menu<br>Disallow: /attachments/<br>Disallow: /birthdays/<br>Disallow: /find-new/<br>Disallow: /*/?direction<br>Disallow: /*/?order<br>Disallow: /*/page-*?order<br>Disallow: /login/<br>Disallow: /lost-password/<br>Disallow: /misc/<br>Disallow: /online/<br>Disallow: /recent-activity/<br>Disallow: /register/<br>Disallow: /search/<br>Disallow: /WhoHasVisited/<br><br> <br>User-agent: Yandex<br>Disallow: /attachments/<br>Disallow: /birthdays/<br>Disallow: /find-new/<br>Disallow: /*/?direction<br>Disallow: /*/?order<br>Disallow: /*/page-*?order<br>Disallow: /login/<br>Disallow: /lost-password/<br>Disallow: /misc/<br>Disallow: /online/<br>Disallow: /recent-activity/<br>Disallow: /register<br>Disallow: /search/<br>Disallow: /WhoHasVisited/<br><br>Host: сайт<br>Sitemap: http://сайт.ru/sitemap/sitemap.xml.gz

Редакции сообщения
0
TheRumz
не в сети давно
На сайте с 14.06.2013
Участник
0
17:54

Хорошо написал, но без пояснений ...
Напиши что такое, Disallow, User-agent, Clean-param и.т.д.

Редакции сообщения
0
moto
не в сети 2 часа
На сайте с 12.03.2017
Администратор
Тем 3402
Сообщения 13586
0
15:32

TheRumz сказал(а)
Напиши что такое, Disallow, User-agent, Clean-param и.т.д.

добавил в первое сообщение темы - http://knowpc.ru/seo-optimizacija/vse-o-robots-txt-kak-pravilno-ego-sostavit/msg15420/#msg15420

Редакции сообщения
0
Tyr0I{
не в сети давно
На сайте с 09.03.2014
Участник
0
07:15

Спасибо! Вроде понял)

Редакции сообщения
0
moto
не в сети 2 часа
На сайте с 12.03.2017
Администратор
Тем 3402
Сообщения 13586
0
14:44

robots.txt для uCoz

User-agent: *Disallow: /a/ <br>Disallow: /stat/ <br>Disallow: /index/1 <br>Disallow: /index/2 <br>Disallow: /index/3 <br>Disallow: /index/5 <br>Disallow: /index/7 <br>Disallow: /index/8 <br>Disallow: /index/9 <br>Disallow: /panel/ <br>Disallow: /admin/ <br>Disallow: /secure/ <br>Disallow: /informer/ <br>Disallow: /mchat <br>Disallow: /search <br>Disallow: /shop/order/ <br>Disallow: /?ssid= <br><br>Sitemap: http://ваш сайт/sitemap.xml <br>Sitemap: http://ваш сайт/sitemap-forum.xml

Поскольку многих волнует индексация их сайтов Яндексом, то вот по этой ссылке они могут познакомиться с рекомендациями Яндекса практически по всем аспектам этого вопроса.

Редакции сообщения
0
moto
не в сети 2 часа
На сайте с 12.03.2017
Администратор
Тем 3402
Сообщения 13586
0
22:36

Правильный robots.txt для Opencart

User-agent: *<br>Disallow: /*route=account/<br>Disallow: /*route=affiliate/<br>Disallow: /*route=checkout/<br>Disallow: /*route=product/search<br>Disallow: /index.php?route=product/product*&manufacturer_id=<br>Disallow: /admin<br>Disallow: /catalog<br>Disallow: /download<br>Disallow: /system<br>Disallow: /*?sort=<br>Disallow: /*&sort=<br>Disallow: /*?order=<br>Disallow: /*&order=<br>Disallow: /*?limit=<br>Disallow: /*&limit=<br>Disallow: /*?filter_name=<br>Disallow: /*&filter_name=<br>Disallow: /*?filter_sub_category=<br>Disallow: /*&filter_sub_category=<br>Disallow: /*?filter_description=<br>Disallow: /*&filter_description=<br>Disallow: /*?tracking=<br>Disallow: /*&tracking=<br><br>User-agent: Yandex<br>Disallow: /*route=account/<br>Disallow: /*route=affiliate/<br>Disallow: /*route=checkout/<br>Disallow: /*route=product/search<br>Disallow: /index.php?route=product/product*&manufacturer_id=<br>Disallow: /admin<br>Disallow: /catalog<br>Disallow: /download<br>Disallow: /system<br>Disallow: /*?sort=<br>Disallow: /*&sort=<br>Disallow: /*?order=<br>Disallow: /*&order=<br>Disallow: /*?limit=<br>Disallow: /*&limit=<br>Disallow: /*?filter_name=<br>Disallow: /*&filter_name=<br>Disallow: /*?filter_sub_category=<br>Disallow: /*&filter_sub_category=<br>Disallow: /*?filter_description=<br>Disallow: /*&filter_description=<br>Clean-param: tracking<br><br>Host: site.ru<br>Sitemap: ссылка на карту

Редакции сообщения
0
raube
не в сети давно
На сайте с 09.02.2015
Участник
0
22:07

Уважаемый мастер moto. Вы оставили без ответа мой крайний вопрос, связанный с продвижением сайта в теме «Ваши вопросы по продвижению сайтов». Может вопрос глупый, но не ругательный. Было бы здорово, если бы вопросы не оставались без ответа. Даже глупые от чайников.
Тем не менее, обращаюсь к Вам с вопросом по поводу robots.txt.
В Умной Книге прочитал про тег <meta> у которого бывает атрибут nameb, и при нём robots, предназначенный для управления процессом индексации. Как этой штукой пользоваться практически. У меня большинство страниц на сайте статичны. Wordpress и другое подобное пока не умею использовать.

Редакции сообщения
0
moto
не в сети 2 часа
На сайте с 12.03.2017
Администратор
Тем 3402
Сообщения 13586
0
16:00

raube, сделать карту сайта и поставить каноникал http://knowpc.ru/seo-optimizacija/vse-o-meta-tege-canonical-(kanonizacija-(borba-s-dubljami)-ssylok)/

В 2015 году на чисто хтмл делают сайты только через зеброид.

Редакции сообщения
0
Root
не в сети давно
На сайте с 11.03.2015
Участник
0
18:51

Нужно отметить один момент, о котором забывают ваятели оптимизирующих плагинов для Wordpress, о запрете индексации архивов по годам. Строчка Disallow: /год/* поможет закрыть архивы за определенные года. Я robots.txt каждый Новый Год обновляю, добавляя Disallow: /2009/*, Disallow: /2010/*, Disallow: /2011/* и т.д.

Редакции сообщения
0

Ваше имя *

Ваш E-mail *

не публикуется

Текст сообщения *