Семантический Ренессанс. Сергей Алексеевич Мишин
Чтение книги онлайн.
Читать онлайн книгу Семантический Ренессанс - Сергей Алексеевич Мишин страница 8
Вдумчивый читатель тут же может обратить внимание на важность стартового эксперта. Хорошо, скажет он, нейроны это супер, с классификацией фото понятно. Тут достаточно одного эксперта. Он поработает пару дней, и нейронная сеть будет просто повторять действия эксперта, используя опыт эксперта как образцы. Как быть с морем информации в Интернете, с миллиардами страниц? Навскидку, тут нужны тысячи и тысячи экспертов.
Вы удивитесь, но дело происходит именно так. Как говорилось, недавно Яндекс презентовал последнюю версию своей поисковой технологии «Королев» и раскрыл некоторые её детали. Презентацию можно посмотреть здесь https://yandex.ru/korolev/. Только вдумайтесь в заявленные цифры:
● В нейронную сеть Яндекса было передано 2 миллиарда оценок для обучения нейронной сети, говорят в Яндексе.
● К компании постоянно работают свыше тысячи человек – экспертов, которые занимаются только подготовкой и проверкой правильных оценок. Профессия называется асессор.
● Помимо штатных работников Яндекс нанял через систему Яндекс.Толока свыше миллиона внештатных асессоров, с помощью которых и были приготовлены миллиарды правильных оценок, https://toloka.yandex.ru/.
Думаю, по числу вовлеченных это один из самых крутых проектов.
Наличие миллиона участников удаляет любую мистику с категории цифровой интеллект. Еще раз вдумайтесь, миллион человек учат одну машину делать тоже самое, что и один человек, по большому счету.
Большие числа
Другой пример. Яндекс каждому тексту ставит в соответствие пакет чисел, или, как говорят в математике, вектор. Каждый вектор Яндекса содержит 300 чисел. В результате Яндекс получает невообразимое число текстовых комбинаций. Допустим, отдельное число в векторе Яндекса принимает лишь числа 0, 1, 2, 3….9. Тогда число текстовых комбинаций Яндекса будет 10 в 300-й степени, 10^300.
Это убийственное число. Больше чем «охулиярд». Скажем, если каждый житель Земли напишет по миллиону разных статей, то число всех статей будет лишь 10^16, примерно миллиард миллиардов. Это практически бесконечно малая величина в сравнении с числом комбинаций Яндекса.
Если забыть умные слова – нейрон, интеллект, вектор, BigData – то умное ранжирование (на данный момент) сводится к простой схеме:
● Яндекс записал в качестве образцов выбор миллиона экспертов при просмотре миллиардов страниц;
● когда приходит новый запрос, то компьютер Яндекса просто находит похожий пример среди миллиардов образцов.
По сути, описанное выше означает превращение поисковой технологии в серьезную промышленную технологию. Задумайтесь, ведь мало кто понимает, как работает атомная электростанция. Даже большинство физиков имеют лишь популярное представление об атомной технике, не говоря о других инженерах. Да, мы