Навеяно панелью управления Яндекса. Собственно подскажите, как корректно составить robots.txt, чтобы указать поисковику основное зеркало и карту сайта? Такой вариант будет корректен?
Корректный robots.txt
Хороший вопрос. Интересно мнение профессионалов.
Директива host добавляется сразу после Disallow или Allow, иначе разногласия в стандарте будет для роботов.
И какой смысл два раза указывать карту, сначала для всех роботов, а затем для Яндекса лично? Чем меньше записей в robots.txt тем проще и вернее он считывается. Allow указывать не надо, Вы уже указали что нельзя индексировать, значит все остальное можно, иначе получается, что Вы сначала указываете каталоги которые нельзя обходить, а потом следом указываете что все можно (правда только Яше).
И Вы хотите чтобы про основное зеркало знал только Яндекс? Зачем такой геморой, лучше сделайте так:
Этот вариант пожалуй будет корректнее. Проверить правильность можете всегда по адресу http://webmaster.yandex.ru/wmconsole/public_robots_txt.xml
- Группа: Супермодераторы
- Пункты: 1595
- Регистрация: 18.09.2008
- Пол: Мужчина
- Из: Россия
3.92
Читал, что Яндекс может не корректно воспринять для нестандартных директив User-agent: * 
http://s13.by/2008/04/19/pochemu-yandeks-kleitsya-k-moemu-saytu-nastraivaem-robotstxt/
Не стоит использовать дополнительные директивы в секции “*”. То есть рекомендуется создавать специальные секции для нестандартных директив, таких как “Host”.
И не смотря на всю популярность Яндекса и лидирующие позиции в Рунете, его роботы относятся к категории “некоторые”.
Так неправильно:
User-agent: *
Disallow: /css/
Host: [url=http://www.example.com]www.example.com[/url]
А вот так – правильно:
User-agent: *
Disallow: /css/
User-agent: Yandex
Disallow: /css/
Host: [url=http://www.example.com]www.example.com[/url]
Исходя из данной статьи прописал два раза
Поэтому и хотелось бы разобраться, как нужно.septron, бред это полный. Это было около год назад примерно, уже давно другая ситуация. Можете почитать http://help.yandex.ru/webmaster/?id=996567#996568
Единственное что требует Яндекс, так это обязательного указания директивы Host, и то это необходимо только для робота-зеркальщика, а не для основного бота, но выполнять это требование необходимо, иначе зеркало не определится. Все остальное должно строго соответствовать стандартам http://www.robotstxt.org
Просто автор той статьи немного не правильно понял смысл директорий. Если будет указано User-agent: и User-agent: Yandex, то робот Яндекса однозначно отдаст приоритет записи User-agent: Yandex, и что там в запрете в директории User-agent: - ему уже по барабану будет, он Вам наиндексирует все подряд, так как Вы ему абсолютно все обходить разрешили.
Если исходить из статьи (хоть она и не совсем правильная), то нужно писать тогда так:
- Группа: Супермодераторы
- Пункты: 1595
- Регистрация: 18.09.2008
- Пол: Мужчина
- Из: Россия
3.92
GRAFLEKX, большое спасибо! 
septron, да особо не за что
.
И такую специфическую инфу лучше всегда читать на самих поисковиках, чем на каких-то сайтах. Вопрос тонкий, а более лучшую информацию чем сайт самого поисковика не предоставит ни кто.
- Группа: Супермодераторы
- Пункты: 1595
- Регистрация: 18.09.2008
- Пол: Мужчина
- Из: Россия
3.92
А я не занимаюсь продвижением своих сайтов. Наверное, я лох... 
Chianuk, да это и не продвижение как таковое, просто у человека случилась проблема с зеркалом, её нужно решать, иначе так и будет клеить.
Я вот постоянно экспериментирую с продвижением, у меня Тиц и PR скачут туда сюда, специально сайт для этого создал, не жалко, если что.
Пишу скрипты для этих целей, для того и эксперименты нужны.
Вопрос продвижения, тоже довольно тонкий, можно так продвинуть, что потом расхлебывать будешь долго
. Я вот последний раз доэкспериментировался - попал в автоматический бан в Яндексе и Гугле, теперь выясняю из-за чего, и что не так. Но зато опыт в этом деле приобрел большой
. Уже лет 5 этим занимаюсь.
- Группа: Супермодераторы
- Пункты: 1595
- Регистрация: 18.09.2008
- Пол: Мужчина
- Из: Россия
3.92
Весьма похвально. А предыдущий пост - это у меня так, мысли вслух были... 