Как раскрутить и разрекламировать Web-сайт в сети Интернет. Александр Петрович Загуменов

Чтение книги онлайн.

Читать онлайн книгу Как раскрутить и разрекламировать Web-сайт в сети Интернет - Александр Петрович Загуменов страница 11

Как раскрутить и разрекламировать Web-сайт в сети Интернет - Александр Петрович Загуменов

Скачать книгу

к тому, что страница попала в результаты поиска. Вы можете помочь поисковым системам, применив тэг LINK, имеющий атрибуты REL="begin" и TITLE=, как показано в следующем примере:

      <LINK REL="begin"

      TYPE="text/html"

      HREF="page1.html"

      TITLE="Oбщая теория относительности">

      Инструкции для роботов – файл robots.txt

      Алгоритмы работы многих поисковых машин предусматривают возможности ограничения действий роботов. Это достигается с помощью файла robots.txt и тэга META в документах HTML.

      Файл robots.txt объясняет роботу поисковой машины, что надо индексировать, а что не стоит. Зачем, например, индексировать служебные файлы, скажем, статистические отчеты?

      Файл содержит набор команд, которые позволяют закрыть от индексирования отдельные каталоги узла. Обычно закрываются каталоги, содержащие скрипты, служебную информацию и т. п. Отчасти это повышает контрастность значимых документов узла в поисковой системе. К тому же поисковые машины нередко вводят ограничение на число ресурсов, регистрируемых для одного сервера. Некоторые – так, например, действовал робот поисковой системы Lycos, – вообще не проводят индексирования, если указанный файл отсутствует.

      Итак, если вы поддерживаете работу сервера с доменным именем www.mysite.ru, то содержимое файла robots.txt должно быть доступно по адресу: http://www.mysite.ru/robots.txt, то есть данный файл следует загрузить в корневой каталог вашего сайта. Когда робот просматривает Web-сайт, сначала он проверяет наличие документа http://www.mysite.ru/robots.txt. Если таковой обнаружен, анализируется его содержимое и выясняется, позволено ли загрузить документ. Вы можете настроить файл robots.txt для конкретных роботов и запретить доступ к определенным каталогам или файлам.

      На одном сайте может быть только один файл robots.txt. Не следует помещать файлы с данным именем в каталоги, поскольку робот их не найдет. Обратите внимание, что при адресации в Internet учитывается регистр, поэтому название robots.txt должно быть задано в нижнем регистре.

      Файл robots.txt – это обычный текстовый документ, содержащий одну или несколько записей, разделенных пустыми строками, как показано в следующем примере:

      # robots.txt for http://www.mysite.ru

      User-agent: *

      Disallow: /cgi-bin/maillist/

      Disallow: /tmp/

      Disallow: /product1.html

      User-agent: aport

      User-agent: scooter

      Disallow:

      Вот пример файла robots.txt, полностью запрещающего доступ к сайту всем роботам:

      User-agent: * # Применяется ко всем роботам.

      Disallow: / # Запретить индексацию всех страниц.

      Каждая запись должна начинаться с указания переменной User-agent отдельной строкой. Таких строк может быть и несколько. Значением переменной User-agent задается оригинальное имя программы-робота соответствующей поисковой системы, для которой предназначена информация.

      Согласно спецификации на файл robots.txt, текст в нем чувствителен к регистру, так что следует записать именно User-agent, а не User-Agent. Трудно сказать, вызывает ли неверное написание проблемы у роботов поисковых систем, но для надежности лучше соблюсти

Скачать книгу