PANN: Новая Технология Искусственного Интеллекта. Учебное пособие. Борис Злотин
Чтение книги онлайн.
Читать онлайн книгу PANN: Новая Технология Искусственного Интеллекта. Учебное пособие - Борис Злотин страница 5
2.4.4. Индексация числовых последовательностей в BCF
Индексация для быстрого поиска информации.
Сегодня в компьютерной науке широко применяется поисковая индексация. Файлы индексов облегчают поиск информации, и по своему объему они в 10 раз меньше, чем исходные файлы. Но для разных типов файлов (например, графических) индексация сложнее, и поиск не всегда работает адекватно.
PANN обеспечивает более организованный и стандартизированный подход к индексации и поиску.
Использование разработанного компанией Progress Inc формата Binary Comparison Format (BCF) позволяет строить стандартные и универсальные поисковые индексы – идентификаторы для любой числовой последовательности как линейные свертки цифрового массива. Эти индексы представляют собой последовательность матричных сумм с совпадающими номерами строк и столбцов, полученных путем векторного умножения данного цифрового массива на его собственную транспозицию. И они могут быть по объему гораздо меньше, чем при обычной индексации.
При этом процесс поиска по индексам происходит параллельно, что обеспечивает его многократное ускорение.
Например, имеется имидж, описанный в виде матрицы |X| с числом пикселей n =1024 и числом уровней веса k = 10.
Определим векторное произведение матрицы |X| на ее собственную транспозицию |X|T как индекс I. I = |X| × |X|T = |Σ| = Σ00, Σ11, Σ22, Σ33, Σ44, … Σ99:
Рис. 9. Формирование поисковых индексов
Длина полученного индекса равна числу уровней веса и не зависит от числа пикселей в имиджах. Значит, если установить стандартное число весов 10 (это удобно, так как соответствует принятой десятичной системе счисления), то эти индексы будут стандартными для всех библиотек, что обеспечит возможность их всеобщего применения.
Каждый образ в библиотеках распознавания должен быть снабжен индексом. Распознавание каждого нового образа должно начинаться с формирования его индекса, на его базе происходит быстрое распознавание по подготовленным библиотекам.
Точность распознавания по такого рода индексам может быть очень высокой. Например, при использовании десятизначной системы счисления (10 уровней веса от 0 до 9), даже если мы ограничимся только первой значащей цифрой каждой суммы, индексом будет комбинация из 10 однозначных, то есть вероятность случайных совпадений индексов не превысит 10—10 (1 / 10 миллиардов).
2.4.5. Паттерны подобия и другие способы сравнения и индексации в BCF
Выявление паттернов для понимания происходящих событий и управления ими – одно из важнейших приложений нейронных сетей.
Существует немало причин, почему два разных имиджа могут быть подобными или казаться нам подобными. Чаще всего подобие определяется общностью происхождения и/или изготовления разных объектов. Либо тем, что