Как правильно составить файл robots.txt
Обзорная статья о пользовании файлом robots.txt, с помощью которого можно контролировать индексацию сайта поисковой системой. Продолжая тематику индексации web-сайта хочется поведать о файле robots.txt. Боты поисковых систем при заходе на сайт сначала обращаются к нему и читают инструкции по индексированию. Наличие этого файла не обязательно, но крайне желательно. Имеет значение сформировать файл robots.txt как положено, иначе ошибки в нём могут стать причиной негативного эффекта. Для создания советов краулеру применяется определенный синтаксис, который не открывает к индексации, а только запрещает. Составляется и изменяется текстовый файл при использовании Блокнота или подобных программ. Сохраняется файл robots.txt в корневой папке веб-сайта. Имя файла нужно, чтобы было в нижнем регистре (т.е. robots.txt, а не Robots.Txt и т.д. ) Пример нужной текстовой составляющей файла robots.txt User-agent: Yandex Disallow: /cgi-bin/ Disallow: /admin/ Host: www.site.ua Sitemap: http://www.site.ua/sitemap.xml User-agent: Googlebot Disallow: /admin.php Disallow: /hide.html Sitemap: http://www.site.ua/sitemap.xml User-Agent: * Disallow: / Атрибут User-agent указывает нужному поисковому краулеру инструкции для выполнения. Если стоит *, то следовательно указанные предписания имеют отношение ко всем поисковым системам. Директива Disallow закрывает от индексации определенную папку или файл. Для того, чтобы закрыть от индексации веб-сайт полностью следует прописать "Disallow: /", а чтобы НЕ запрещать индексировать web-сайт, надо ввести "Disallow: " Атрибут Host определяет главный домен для сайта. Внимание! Ее использует исключительно Yandex! Адрес сайта прописывается БЕЗ HTTP:// Атрибут Sitemap используется для определения карты сайта. Адрес карты сайта пишется полностью вместе с HTTP:// Следует знать, что мы не сможем, например, открыть к индексации только страницу index.html, а все другие запретить. Хотя, конечно, сделать это можно, но для этого придется заполнять в robots.txt ВСЕ имеющиеся документы и каталоги, не считая самого index.html. Это является главным минусом файла robots.txt, т.к. иногда возникает потребность в атрибуте Allow. Источник: http://polza.my1.ru | |
Просмотров: 490
| Теги: |