Семантический Ренессанс. Сергей Алексеевич Мишин
Чтение книги онлайн.
Читать онлайн книгу Семантический Ренессанс - Сергей Алексеевич Мишин страница 9
● наличие и вес перекрестных ссылок;
● насыщенность текста ключевыми словами и их структура.
Чтобы разобраться с этими параметрами немного напомним историю поисковых технологий.
Поисковики начинали с простого поиска
Поисковые системы в Интернете появились практически синхронно с появлением сайтов, в начале 1990-х годов. Первые технологии были простым поиском вхождения одного текста в другом тексте. С таким поиском знакомы все пользователи текстовых редакторов, например, MS Word. Если вбить в строку поиска искомую фразу, то Ворд сходу покажет все вхождения фразы в документе. Первые поисковые технологии отличались от Ворда лишь существованием роботов-читателей. Это программы, которые обходят все страницы Интернета. Слово «обходят» означает, что роботы «читают» страницы. В процессе чтения робот создает краткий образ страницы, которые иногда называется индекс. Индексы всех страниц сохраняются в архиве поисковой компании. Профессионалы процесс «чтения» называют индексированием.
Соответственно, когда пользователь вводит поисковую фразу, то поисковая программа сравнивает фразу с индексами из базы данных. Все совпадения составляют поисковый результат, который выдается в виде последовательного списка пользователю.
Морфология, как цифровая проблема
Первая проблема Интернет-поиска появилась практически сразу, особенно, в русском языке. В языке представлены разные морфологические формы с чрезвычайно близким значением. Прежде всего падежи: бизнес, бизнеса, бизнесу и т.д. Плюс другие способы словообразования, например, видеть, видение, или наоборот, индекс, индексирование. Практически всегда пользователю интересны все морфологические варианты. самостоятельный перебор всех морфологических форм сейчас кажется нонсенсом.
В русском сегменте Интернета полную морфологическую унификацию произвел Яндекс в середине 1990-х на основе словаря академика А. Зализняка. Все формы от одно слова – падежи, числа, новообразования – приводились к одной единице. Морфологическая унификация позволила Яндексу выйти на первое место в Рунете.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «ЛитРес».
Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.