Нейросети. Основы. Дэвид Рид

Чтение книги онлайн.

Читать онлайн книгу Нейросети. Основы - Дэвид Рид страница 9

Автор:
Жанр:
Серия:
Издательство:
Нейросети. Основы - Дэвид Рид

Скачать книгу

используется для визуализации данных, выявления кластеров и структур в данных, а также как этап предварительного анализа перед применением других методов машинного обучения. Благодаря своей скорости и способности работать с большими наборами данных, UMAP становится все более популярным в различных областях науки и индустрии.

      3. Ассоциативные правила

      Ассоциативные правила – это метод выявления частых закономерностей в больших наборах данных. Этот метод особенно полезен в анализе корзины покупателя, где необходимо выявить, какие товары часто покупаются вместе.

      Алгоритм Apriori

      Алгоритм Apriori является одним из самых известных и широко используемых методов для выявления частых наборов элементов и создания ассоциативных правил в больших наборах данных. Этот алгоритм используется в анализе транзакционных баз данных для поиска интересных корреляций и закономерностей, таких как "если покупатель купил товар A, то он, вероятно, купит товар B".

      Основная идея алгоритма Apriori заключается в итеративном подходе для нахождения частых наборов элементов. Он использует принцип "подмножество частого множества также является частым" (если набор элементов является частым, то все его подмножества также являются частыми). Алгоритм работает следующим образом:

      1. Создание начальных наборов: На первом этапе алгоритм находит все частые одиночные элементы, которые удовлетворяют заданному порогу поддержки (минимальное количество раз, которое элемент должен появиться в базе данных, чтобы считаться частым).

      2. Генерация кандидатов: На каждом последующем этапе алгоритм генерирует наборы кандидатов, увеличивая размер наборов на один элемент. Это делается путем объединения частых наборов элементов из предыдущего шага.

      3. Фильтрация: Каждый набор кандидатов проверяется на частоту в базе данных. Наборы, удовлетворяющие порогу поддержки, считаются частыми и проходят на следующий этап.

      4. Повторение: Процесс продолжается до тех пор, пока не будут найдены все частые наборы элементов.

      5. Создание ассоциативных правил: После нахождения всех частых наборов элементов алгоритм генерирует ассоциативные правила, которые представляют собой зависимости между элементами.

      Основным недостатком алгоритма Apriori является необходимость многократного прохода по базе данных для генерации и проверки кандидатов, что делает его менее эффективным для больших наборов данных.

      FP-Growth (Frequent Pattern Growth)

      FP-Growth (Frequent Pattern Growth) – это более эффективный алгоритм для выявления частых наборов элементов и создания ассоциативных правил по сравнению с Apriori. Основная идея FP-Growth заключается в использовании структуры дерева (FP-дерево) для компактного представления набора частых элементов и быстрого обнаружения ассоциативных правил без необходимости генерировать кандидатов.

      FP-Growth работает следующим образом:

      1. Построение FP-дерева: На первом этапе алгоритм строит FP-дерево. Для этого сначала проводится один проход по базе данных

Скачать книгу