ChatGPT и Революция Искусственного Интеллекта - стр. 10
Эти генераторы изображений используют алгоритмы машинного обучения и архитектуры нейронных сетей, чтобы научиться создавать реалистичные изображения, соответствующие входным данным, которые они получают от пользователя.
DALL-E 2 – это вариант оригинального генератора изображений DALL-E, который был разработан OpenAI в 2021 году. Это крупномасштабная языковая модель, которая обучается на массивном наборе данных изображений и текста и способна генерировать большое разнообразие изображений на основе заданной текстовой подсказки. Например, если написать запрос «жираф, играющий на пианино», DALL-E 2 может сгенерировать изображение жирафа, сидящего за пианино и положившего передние лапы на клавиши.
Кроме создания новых изображений с нуля, DALL-E может также вносить изменения в существующее изображение на основе вашего текстового пояснения, и создавать вариации существующего изображения.
Вновь созданные изображения могут иметь размеры 256х256, 512х512 или 1024х1024 пикселей. Чем меньше размер, тем быстрее создать новое изображение.
Например, при запросе «белый сиамский кот» выдает следующее изображение кота[4]:
Midjourney – аналогичный генератор изображений с искусственным интеллектом, который также был разработан OpenAI в 2021 году. Он обучается на наборе данных изображений и текста и способен генерировать широкий спектр изображений на основе входного текста. Он назван в честь идеи о том, что это «промежуточный этап» (с англ. midjourney) между оригинальными моделями DALL-E и GPT-3, поскольку он сочетает в себе элементы обоих.
Stable Diffusion – это еще один генератор изображений с искусственным интеллектом, разработанный исследователями Калифорнийского университета в Беркли в 2021 году. Он обучается на наборе данных изображений и текста и предназначен для создания широкого спектра изображений на основе входного текста. Он назван в честь идеи о том, что он способен «распространять» (от англ. diffuse) информацию о содержании изображения через свою сеть, что позволяет создавать более связные и реалистичные изображения.
Эти генераторы изображений с искусственным интеллектом могут революционизировать то, как мы создаем и потребляем изображения, поскольку они могут генерировать оригинальные изображения по запросу на основе вводимого текста. Это может иметь широкий спектр применений в таких областях, как реклама, искусство и дизайн, а также более практические приложения, такие как создание макетов продуктов или визуализация данных.
Использование генераторов изображений ИИ также может иметь экономические последствия, поскольку может изменить способ создания и потребления изображений. Например, если генераторы изображений ИИ получат широкое распространение, это может снизить спрос на традиционные методы создания изображений, такие как фотография или иллюстрация, что может повлиять на рынок труда в этих областях. Уже сейчас многие компании, дизайнеры и предприниматели вместо того, чтобы заказывать дизайн изображений, логотипов, визуализацию у профессиональных иллюстраторов и платить им за это десятки, сотни, а иногда и тысячи долларов, просто используют указанные модели на основе нейронных сетей и получают достаточно хорошие по качеству изображения бесплатно либо по намного сниженной цене.