Data Science. Практика. NemtyrevAI
Чтение книги онлайн.
Читать онлайн книгу Data Science. Практика - NemtyrevAI страница 2
"GenderDetect AI" – модель определения пола по имени
"GeoLocate AI" – модель определения геолокации по IP-адресу
"ProviderInfo AI" – модель определения провайдера по IPv6
Библиотека Scikit-learn поддерживает множество алгоритмов машинного обучения, такие как:
1. Классификация:
* Logistic Regression (логистическая регрессия)
* Linear Discriminant Analysis (линейный дискриминантный анализ)
* Decision Trees (дерево решений)
* Random Forests (случайные леса)
* Support Vector Machines (машины опорных векторов)
* K-Nearest Neighbors (k ближайших соседей)
* Gradient Boosting (градиентный бустинг)
2. Регрессия:
* Linear Regression (линейная регрессия)
* Ridge Regression (линейная регрессия с регуляризацией)
* Lasso Regression (линейная регрессия с L1-регуляризацией)
* Polynomial Regression (полиномиальная регрессия)
* Support Vector Regression (регрессия с машиной опорных векторов)
* Decision Trees Regression (регрессия с деревом решений)
* Random Forests Regression (регрессия с случайными лесами)
3. Кластеризация:
* K-Means Clustering (кластеризация методом k-средних)
* Hierarchical Clustering (иерархическая кластеризация)
* DBSCAN (кластеризация с плотностью)
4. Дименсиональное сокращение:
* Principal Component Analysis (анализ главных компонент)
* Linear Discriminant Analysis (линейный дискриминантный анализ)
* t-SNE (t-Student стохастическая близость смещением и растяжением)
5. Избирательное обучение:
* Recursive Feature Elimination (рекурсивное удаление признаков)
* SelectKBest (выбор K лучших признаков)
* Lasso/Ridge Regression Feature Selection (выбор признаков с помощью линейной регрессии с L1/L2-регуляризацией)
6. Оценка моделей:
* Cross-Validation (перекрёстная проверка)
* Grid Search (поиск по сетке)
* Randomized Search (рандомизированный поиск)
* Learning Curve (график обучения)
Кроме основных алгоритмов машинного обучения, библиотека Scikit-learn также предоставляет множество вспомогательных функций и инструментов, которые могут быть полезны для обработки данных и обучения моделей. Вот некоторые из них:
1. Предобработка данных:
* Функции для нормализации и стандартизации данных
* Функции для обработки пропущенных данных
* Функции для кодирования категориальных переменных
* Функции для выборки данных
2. Извлечение признаков:
* Функции для извлечения текстовых признаков, такие как CountVectorizer и TfidfVectorizer
* Функции для извлечения признаков из изображений, такие как Histogram of Oriented Gradients (HOG) и Local Binary Patterns (LBP)
* Функции для извлечения признаков из аудио, такие как Mel-frequency cepstral coefficients (MFCC) и Chroma features
3. Оценка моделей: