ChatGPT и Революция Искусственного Интеллекта - стр. 11
В целом, появление генераторов изображений с искусственным интеллектом, таких как DALL-E 2, Midjourney и Stable Diffusion, представляет собой захватывающее развитие в области искусственного интеллекта и может изменить то, как мы создаем и потребляем изображения. Вполне вероятно, что эти технологии продолжат развиваться и совершенствоваться в ближайшие годы, и будет интересно посмотреть, как они определят будущее ИИ и экономики.
Кстати, уже начали появляться платформы, которые позволяют генерировать не только изображения, но и полноценные видео из текста. Это может быть видео говорящих людей или движущихся животных или автомобилей или чего угодно.
Видео, которые показывают как тот или иной аватар говорит по предоставленному вами скрипту, достаточно высокого качества. Например, сервисы Elai.io, интегрированный с GPT-3 от OpenAI, или Synthesia.io, в которых можно выбрать аватар того или иного человека или даже создать свой собственный аватар с помощью смартфона, который потом будет говорить по вашему тексту. Платформа поддерживает несколько десятков языков. Представьте как это упростит работу и сэкономит бюджет для компаний, предпринимателей, креаторов и блогеров, которые постоянно производят и постят новые видео или делают презентации своей компании или продукта.
По сути генерация видео не сильно отличается от генерации изображений, ведь видео это просто несколько кадров изображений в секунду, которые наш мозг воспринимает как динамичное видео. И поэтому если генераторы изображений могут создать качественные изображения, то мы можем попросить их создать несколько тысяч таких изображений с небольшими изменениями, чтобы из этого получилось полноценное видео. Это может сэкономить миллионы долларов для производителей видеоконтента, компьютерных игр и киностудий. А если это соединить с возможностью ChatGPT создавать полноценные сценарии, о которых мы уже упоминали ранее, и с искусственными синтезаторами голоса, то получается, что в скором времени мы можем попросить ИИ что-то наподобие следующего: «Создай мне 25-минутный фильм в жанре фэнтези с неожиданной концовкой» и через пару минут или даже раньше у нас будет готовый новый фильм, который еще никто не видел.
VALL-E и другие модели синтеза голоса на основе ИИ
Технология синтеза голоса предполагает, что компьютер умеет произносить речь как человек. Данная технология и рынок вокруг нее развиваются достаточно быстро: если в 2021 году объем рынка оценивался примерно в 7,5 млрд долларов, то прогнозируется, что к 2030 году он достигнет 60 млрд долларов, при ежегодном росте на 23 %[5].
Из крупных игроков на рынке можно выделить крупных игроков, таких как Google, IBM, Amazon, Microsoft, Сбер, Яндекс, VK, так и небольшие компании, как например Descript, Veritone, Respeecher и др.
Где могут применяться технология синтеза речи? Конечно же в голосовых помощниках, говорящих роботах, и ботах, звонящих клиентам по телефону. Кроме этого, эту технологию уже начинают использовать в озвучивании книг, фильмов, видеоигр, объявлений и рекламы, радио и новостных программ, а также для восстановления голоса умерших людей или людей, лишившихся способности говорить.
Технология синтеза или клонирования речи существовала уже несколько десятилетий, но примерно до начала 2010-х годов все такие компьютерные голоса звучали откровенно механически и было понятно, что разговаривает компьютер. Но за последние годы алгоритмы искусственного интеллекта стали учитывать еще больше параметров и характеристики человеческого голоса (звуки, тембр, интонация, акценты и пр), и в итоге смогли очень близко приблизиться к тому, чтобы синтезированный голос звучал достаточно правдоподобно и по-человечески.