Первая версия нейросети Stable diffusion вышла в августе 2022 года. Спустя почти год нейросеть с открытым исходным кодом шагнула далеко вперед выпустив версию Stable diffusion XL, которая стала общедоступной в июле 2023. А в июне 2024 появилось еще одно обновление – Stable Diffusion 3, которая в чем-то может конкурировать даже с MidJourney.
Что такое нейросеть Stable Diffusion
Эта программа — дело рук разработчиков из компании stability.ai, которая занимается поддержкой и развитием проектов, связанных с искусственным интеллектом. Например, в их резюме — проект CAIAC, миссия которого заключается в борьбе с COVID-19 при помощи алгоритмов искусственного интеллекта, децентрализованное сообщество исследователей ИИ EleutherAI и общественная НКО LAION, цель которой — создать мощный ИИ с открытым исходным кодом.
Stable Diffusion — инструмент с открытым исходным кодом, который, по словам создателей, «позволит миллиардам людей создавать потрясающие произведения искусства за секунды».
Стоит сказать, что Stable Diffusion — не совершенно новая, написанная с нуля нейросеть. В ее основе — лучшие подобные программы, в том числе Dall-E 2 от Open AI и Imagen от Google Brain. Однако эта нейросеть использует модель так называемой скрытой диффузии вместо стандартной диффузионной модели, которая лежит в основе работы большинства современных нейросетей, генерирующих изображения по текстовому описанию. Стандартные модели работают с отдельными пикселями, из-за чего генерация с их помощью картинки в хорошем качестве занимает много времени и вычислительных ресурсов. Модель скрытой диффузии оптимизирует процесс генерации изображений за счет предварительно обученных подпрограмм — это позволяет как сэкономить вычислительные мощности, так и добиться высокого разрешения картинки за короткое время.
Но любая теория проверяется на практике!
Тест работы Stable Diffusion
Разработчики Stable Diffusion придерживаются принципов открытости, поэтому выложили исходный код нейросети на GitHub. Вы можете скачать файлы программы и попробовать запустить ее на своем устройстве, однако учтите, что просто для того, чтобы нейросеть работала, ей нужно не менее 6,9 Гб видеопамяти.
Если ваш компьютер, как мой MacBook, например, не такой мощный — можно воспользоваться одним из двух онлайн-сервисов:
- Hugging Face — тут можно генерировать неограниченное количество изображения без регистрации.
- DreamStudio — здесь понадобится регистрация, но после нее можно также создавать сколь угодно много картинок.
На этих сервисах можно опробовать и самую передовую модель Stable Diffusion XL 1.0. Модель содержит 3,5 млрд параметров и позволяет создавать изображения с разрешением 1 мегапиксель за секунды. Кроме того, она понимает сложные инструкции и короткие подсказки, в отличие от предыдущих версий Stable Diffusion. Помимо этого у новой версии нейросети есть еще несколько новых функций:
- она может восстанавливать недостающие части изображения;
- может «расширять» изображение аналогично функции Zoom Out от MidJourney (ну или как у «Кандинского»);
- понимает запросы в виде картинок.
А теперь просто посмотрите на сравнение результатов генерации Stable Diffusion первой версии и версии XL 1.0:
Тест работы Stable Diffusion 3
Вы можете скачать файлы из репозитария для последующей установки на компьютер, Ну а те, кто предпочитает онлайн версии, могут использовать, например, сервис fabula-ai. Интерфейс можно назвать привычным, поэтому никаких сложностей не возникает.
Главными особенностями работы Stable Diffusion 3 называют:
- Фотореализм – в новой модели SD устранили типичные артефакты, особенно на руках и лицах, что было проблемой у предыдущих версий.
- Типографика – теперь сделать четкую надпись не проблема.
И вот результаты.
Сначала посмотрим на фотореализм. Используем промт:
photo of a 27 year old woman with long blond hair and blue eyes wearing a white shirt and blue jeans. She is eating an apple in a forest garden.
Все перечисленные в промте объекты нейросеть сохранила, но в глаза бросается странноватая рука. Однако, если не придираться, то в целом неплохо. Продолжим:
portrait of Sherlock Holmes
Надо отметить, что промты в fabula можно задавать и на русском. При этом нейросеть не будет блокировать ваши запросы при упоминании актеров или героев фильма, как это делает Dalle.
Например:
гарри поттер встречает сову, диджитал арт
Однако реализация и сюжета, и портретной схожести оставляет желать лучшего.
Или:
киану ривз прогуливается по букингемскому дворцу
Здесь со схожестью явно лучше, но вот задний план лучше не рассматривать.
Теперь посмотрим на работу с очень подробным и длинным промтом:
Create an ominous expressionist-style painting depicting an ancient abandoned temple on Pluto, with the moon Charon looming menacingly overhead. The temple, characterized by crumbling columns and archaic architecture, is set against a stark, otherworldly landscape of icy plains and dark skies. The temple should be positioned in such a way that its ruins frame the moon Charon, emphasizing its eerie and dominating presence. The scene is bathed in an ethereal light, casting long shadows and creating a dramatic, haunting atmosphere. The color palette should consist of deep blues, grays, and whites, enhancing the chilling, alien feel of the setting
Однако тут я столкнулась с ограничением Fabula – промт не может содержать более 300 символов. Поэтому он был сокращен до:
Create an ominous expressionist-style painting depicting an ancient abandoned temple on Pluto, with the moon Charon looming menacingly overhead. The temple, characterized by crumbling columns and archaic architecture, is set against a stark, otherworldly landscape of icy plains and dark skies.
Результат весьма неплох. Ну а теперь посмотрим, как модель работает с созданием надписей. Используем промт:
A cardboard with text 'New York' which is large and sits on a theater stage.
Еще один вариант:
photo of a cat holding a cardboard with the inscription "The best text for you" in its paws
С лапками, очевидно, нейросеть запуталась. Кроме этого, из текста пропало одно слово.
И даже если мы используем русский язык, то надпись все равно будет выполнена на английском.
логотип фирмы "Арсенал"
Подводя итог: нейросеть может предложить неплохие варианты логотипов, отлично реализует идеи, содержащие текст, и справляется с задачей передать несколько объектов при создании изображения. При этом, в данный момент, вы можете использовать ее онлайн версию без каких-либо ограничений.
Читайте также:
Гайд – реалистичные изображения и их обработка в Stable Diffusion
Как составлять запросы к нейросетям: примеры, настройки, параметры