Chat GPT и Революция Искусственного Интеллекта. Тимур Казанцев
Чтение книги онлайн.
Читать онлайн книгу Chat GPT и Революция Искусственного Интеллекта - Тимур Казанцев страница 10
По сути генерация видео не сильно отличается от генерации изображений, ведь видео это просто несколько кадров изображений в секунду, которые наш мозг воспринимает как динамичное видео. И поэтому если генераторы изображений могут создать качественные изображения, то мы можем попросить их создать несколько тысяч таких изображений с небольшими изменениями, чтобы из этого получилось полноценное видео. Это может сэкономить миллионы долларов для производителей видеоконтента, компьютерных игр и киностудий. А если это соединить с возможностью ChatGPT создавать полноценные сценарии, о которых мы уже упоминали ранее, и с искусственными синтезаторами голоса, то получается, что в скором времени мы можем попросить ИИ что-то наподобие следующего: «Создай мне 25-минутный фильм в жанре фэнтези с неожиданной концовкой» и через пару минут или даже раньше у нас будет готовый новый фильм, который еще никто не видел.
VALL-E и другие модели синтеза голоса на основе ИИ
Технология синтеза голоса предполагает, что компьютер умеет произносить речь как человек. Данная технология и рынок вокруг нее развиваются достаточно быстро: если в 2021 году объем рынка оценивался примерно в 7,5 млрд долларов, то прогнозируется, что к 2030 году он достигнет 60 млрд долларов, при ежегодном росте на 23 %[6].
Из крупных игроков на рынке можно выделить крупных игроков, таких как Google, IBM, Amazon, Microsoft, Сбер, Яндекс, VK, так и небольшие компании, как например Descript, Veritone, Respeecher и др.
Где могут применяться технология синтеза речи? Конечно же в голосовых помощниках, говорящих роботах, и ботах, звонящих клиентам по телефону. Кроме этого, эту технологию уже начинают использовать в озвучивании книг, фильмов, видеоигр, объявлений и рекламы, радио и новостных программ, а также для восстановления голоса умерших людей или людей, лишившихся способности говорить.
Технология синтеза или клонирования речи существовала уже несколько десятилетий, но примерно до начала 2010-х годов все такие компьютерные голоса звучали откровенно механически и было понятно, что разговаривает компьютер. Но за последние годы алгоритмы искусственного интеллекта стали учитывать еще больше параметров и характеристики человеческого голоса (звуки, тембр, интонация, акценты и пр), и в итоге смогли очень близко приблизиться к тому, чтобы синтезированный голос звучал достаточно правдоподобно и по-человечески.
При клонировании голоса живого человека берут записи его речи (чем больше объема и разновидностей текстов, тем лучше), и далее нейронная сеть строит модель, на основе которой будет синтезирован искусственный голос, максимально
6