7 секретов нейронных сетей. Или моделирование разума ИИ. Руслан Акст
Чтение книги онлайн.
Читать онлайн книгу 7 секретов нейронных сетей. Или моделирование разума ИИ - Руслан Акст страница 6
В этой главе нам нужно понять что такое дата сеты, почему они важны и из чего собираются. Датасеты состоят из большого числа примеров, каждый из которых включает в себя входные данные и соответствующий им ожидаемый результат, или «метку».
Например, в задаче классификации изображений датасет может включать в себя тысячи фотографий собак, каждая из которых помечена как «собака», и тысячи фотографий кошек, каждая из которых помечена как «кошка».
Это самый простой и понятный пример для человека, превращается в трудную задачу для ИИ, как определить что такое кошка и что такое собака человеку, который с рождения был слепым и чудесным образом прозрел.
Для такого человека что такое собака и что такое кошка требует длительного обучения. Простого объяснения что кошка произносит «Мяу», а собака лает явно будет недостаточно.
Примерно такие же процессы обучения происходят и с нейронной сетью. Когда модель нейронной сети обучается на таком датасете, она стремится «уловить» закономерности в входных данных, которые позволяют ей правильно предсказывать метки.
В нашем примере модель учиться распознавать характеристики и признаки на изображениях, которые делают его изображением собаки или кошки.
Больше того, датасеты играют ключевую роль не только в обучении модели, но и в ее оценке. Обычно датасет разделяется на две или три части: обучающую выборку, валидационную (или проверочную) выборку и тестовую выборку.
Модель обучается на обучающей выборке, настраивается с помощью валидационной выборки и проверяется на тестовой выборке. Это позволяет убедиться, что модель обобщает извлеченные из данных закономерности, признаки, а не просто запоминает ответы на конкретные примеры.
Вы скажите что определить кошка или собака просто, тогда давайте рассмотрим пример определения марки авто нейронкой и что для неё значит иметь правильную DataSet базу.
Представим, что у нас есть задача – обучить нейронную сеть отличать на фотографиях автомобили Mercedes от автомобилей BMW. Да, нейронные сети способны на это, и весьма успешно!
Мы начинаем с создания датасета. Это кажется простым, но уже на этом этапе наши решения могут существенно повлиять на результаты.
Сколько фотографий нам нужно? Чем больше, тем лучше – больше данных позволит модели обнаружить больше нюансов и деталей. Какое качество этих фотографий?
Важно, чтобы они были достаточно четкими и детализированными, чтобы модель могла увидеть все отличительные особенности автомобилей. Что насчет цвета?
Если наши фотографии включают в себя автомобили разных цветов, модель сможет лучше понять, что цвет кузова не влияет на марку автомобиля.
Теперь