Читать онлайн книгу - Как раскрутить и разрекламировать Web-сайт в сети Интернет. Александр Петрович Загуменов. Интернет. LiveLib

Новинки Лучшее Рекомендации

Информация о книге:

Название:

Автор:

Жанр:

Серия:

Издательство:

Как раскрутить и разрекламировать Web-сайт в сети Интернет - Александр Петрович Загуменов

Скачать книгу

к тому, что страница попала в результаты поиска. Вы можете помочь поисковым системам, применив тэг LINK, имеющий атрибуты REL="begin" и TITLE=, как показано в следующем примере:

<LINK REL="begin"

TYPE="text/html"

HREF="page1.html"

TITLE="Oбщая теория относительности">

Инструкции для роботов – файл robots.txt

Алгоритмы работы многих поисковых машин предусматривают возможности ограничения действий роботов. Это достигается с помощью файла robots.txt и тэга META в документах HTML.

Файл robots.txt объясняет роботу поисковой машины, что надо индексировать, а что не стоит. Зачем, например, индексировать служебные файлы, скажем, статистические отчеты?

Файл содержит набор команд, которые позволяют закрыть от индексирования отдельные каталоги узла. Обычно закрываются каталоги, содержащие скрипты, служебную информацию и т. п. Отчасти это повышает контрастность значимых документов узла в поисковой системе. К тому же поисковые машины нередко вводят ограничение на число ресурсов, регистрируемых для одного сервера. Некоторые – так, например, действовал робот поисковой системы Lycos, – вообще не проводят индексирования, если указанный файл отсутствует.

Итак, если вы поддерживаете работу сервера с доменным именем www.mysite.ru, то содержимое файла robots.txt должно быть доступно по адресу: http://www.mysite.ru/robots.txt, то есть данный файл следует загрузить в корневой каталог вашего сайта. Когда робот просматривает Web-сайт, сначала он проверяет наличие документа http://www.mysite.ru/robots.txt. Если таковой обнаружен, анализируется его содержимое и выясняется, позволено ли загрузить документ. Вы можете настроить файл robots.txt для конкретных роботов и запретить доступ к определенным каталогам или файлам.

На одном сайте может быть только один файл robots.txt. Не следует помещать файлы с данным именем в каталоги, поскольку робот их не найдет. Обратите внимание, что при адресации в Internet учитывается регистр, поэтому название robots.txt должно быть задано в нижнем регистре.

Файл robots.txt – это обычный текстовый документ, содержащий одну или несколько записей, разделенных пустыми строками, как показано в следующем примере:

# robots.txt for http://www.mysite.ru

User-agent: *

Disallow: /cgi-bin/maillist/

Disallow: /tmp/

Disallow: /product1.html

User-agent: aport

User-agent: scooter

Disallow:

Вот пример файла robots.txt, полностью запрещающего доступ к сайту всем роботам:

User-agent: * # Применяется ко всем роботам.

Disallow: / # Запретить индексацию всех страниц.

Каждая запись должна начинаться с указания переменной User-agent отдельной строкой. Таких строк может быть и несколько. Значением переменной User-agent задается оригинальное имя программы-робота соответствующей поисковой системы, для которой предназначена информация.

Согласно спецификации на файл robots.txt, текст в нем чувствителен к регистру, так что следует записать именно User-agent, а не User-Agent. Трудно сказать, вызывает ли неверное написание проблемы у роботов поисковых систем, но для надежности лучше соблюсти

Скачать книгу

Как раскрутить и разрекламировать Web-сайт в сети Интернет. Александр Петрович Загуменов

Чтение книги онлайн.

Читать онлайн книгу Как раскрутить и разрекламировать Web-сайт в сети Интернет - Александр Петрович Загуменов страница 11

Информация о книге:

Инструкции для роботов – файл robots.txt