Искусство продвижения сайта. Полный курс SEO: от идеи до первых клиентов. Никита Мелькин
Чтение книги онлайн.
Читать онлайн книгу Искусство продвижения сайта. Полный курс SEO: от идеи до первых клиентов - Никита Мелькин страница 13
Поисковый робот. Первым важным компонентом поисковой машины является поисковый или индексирующий робот. На самом деле этот робот и сам состоит из десятка других компонентов, но для простоты мы будем рассматривать его как единое целое. Итак, индексирующий робот:
– скачивает страницы из Интернета, так же, как это делает наш браузер
– после скачивания проводит первоначальный анализ – содержит ли эта страница какую-то осмысленную информацию и нужно ли поместить ее в базу данных поисковика (иначе называемому «индексом»)
– если страница полезная, то следует более подробный анализ. Страница разбирается на составные элементы: текст, html код, ссылки, изображения и т. п. и затем помещается в индекс.
Индекс поисковой системы. Чтобы понять, как это устроено, давайте обратимся к примеру из жизни. Возьмем какую-нибудь умную книгу, например, справочник по астрономии. В книге, конечно, есть оглавление – но его бывает недостаточно, если нам нужно быстро найти какую-то конкретную информацию.
Поэтому в конце всегда приводится индексный указатель. Хотим мы найти все упоминания планеты Сатурн – открываем индекс и видим: Сатурн упоминается в 10 статьях, на страницах 5, 27,193ИТ.Д.
Индекс поисковой системы работает по тому же принципу-для каждого слова есть список документов, его содержащих. Только в отличии от книжного указателя, индекс поисковой системы гораздо более полный и содержит не только номера документов, но и много дополнительной информации (как часто слово встречалось на странице, какими тегами было выделено и т. д.).
Поступил к Яндексу запрос «планета Сатурн» и с помощью индекса поисковая система в считанные секунды нашла список страниц, содержащих слово «планета», а затем выбрала из них те, которые содержат слово «Сатурн». Вот и получился первоначальный вариант поисковой выдачи.
Вы никогда не задумывались, почему поиск нужного документа только лишь на вашем компьютере может занимать несколько минут, а поиск «по всему Интернету» – доли секунды? А вот вам и ответ – у поисковой системы все данные уже подготовлены для поиска по ним. 99 % всей работы сделано еще до получения запроса от пользователя – список слов и документов подготовлен заранее. А уж искать с помощью готового индекса в миллионы раз быстрее, чем просмотром информации «в лоб».
Алгоритмы выдачи результатов. После того, как первоначальный список результатов получен, в дело вступают алгоритмы ранжирования. Ведь из миллиона найденных страниц нужно выбрать 1000, наиболее полно отвечающих на вопрос. Для отбора этой тысячи используются множество различных факторов – текст страницы, ссылки на эту страницу, поведение пользователей и т. д. На основе этих данных и формируется те 1000 результатов, которые мы можем увидеть в своем браузере.
Матрикснет и финальное ранжирование. Итак, у нас есть список документов, которые лучше всего