Продвижение сайтов с использованием искусственного интеллекта. Александр Краснобаев
Чтение книги онлайн.
Читать онлайн книгу Продвижение сайтов с использованием искусственного интеллекта - Александр Краснобаев страница 5
Благодаря гиперссылкам между веб-страницами пауки могут охватить огромное количество контента в Сети – до триллионов документов. Конечно, поисковики не в силах ежедневно полностью переиндексировать весь интернет, поэтому часть страниц, которые кажутся им менее ценными, могут оставаться не проиндексированными на текущий момент.
Процесс индексирования
При индексации каждой страницы поисковые роботы анализируют ее содержимое, загружают страницы по ссылкам и повторяют этот процесс рекурсивно. Это очень сложная задача, учитывая размер и сложность структуры всемирной паутины. В результате формируется гигантская база данных индекса, содержащая все значимые слова и фразы со всех проиндексированных страниц.
При этом фиксируется множество дополнительных метаданных:
– Карта ссылок со страницы.
– Текст самих ссылок.
– Являются ли они платными и т. д.
Как только веб-страница загружена для индексации, она проходит следующие этапы анализа и обработки:
1. Извлечение текста. Весь текст на странице извлекается и очищается от разметки и скриптов.
2. Лингвистический анализ. Происходит морфологический и синтаксический анализ текста – определение частей речи, словоформ, связей слов в предложениях.
3. Семантический анализ. Определяется тематика и ключевые понятия текста на основе лингвистического анализа с использованием алгоритмов машинного обучения.
4. Извлечение метаданных. Собирается дополнительная структурированная информация о странице – заголовки, metadata, время/дата, автор, язык и т. д.
5. Сохранение в индекс. Все полученные данные в оптимизированном для поиска виде помещаются в высокопроизводительное хранилище – индекс.
Такие же процедуры применяются ко всем документам, обнаруженным и загруженным поисковым роботом в процессе сканирования Сети. В итоге формируется структурированная поисковая база знаний обо всем индексируемом контенте.
Структура индекса поисковых систем
Индекс поисковых систем состоит из двух основных компонентов:
1. Инвертированный индекс
Это своеобразный словарь, где слова и словоформы расположены в алфавитном порядке. При каждом слове указано, на каких страницах оно встречается, в каком контексте и с какой частотой.
Структура индексной записи выглядит примерно так:
СЛОВО / номер страницы + порядковый номер + грамматические характеристики
Такой инвертированный индекс позволяет легко находить страницы по заданным словам и словоформам.
2. Прямой