Stable Diffusion (Stable Diffusion)

Перейти к навигации Перейти к поиску
Stable Diffusion
Скриншот программы Stable Diffusion
Тип модель преобразования текста в изображение[вд], модель латентной переменной[вд] и диффузионная модель[вд]
Написана на Python
Операционные системы Linux, macOS и Windows
Первый выпуск 22 августа 2022
Последняя версия
Репозиторий github.com/Stability-AI/…
Лицензия Stability AI Community License[вд]
Сайт stability.ai/stab… (англ.)
Логотип Викисклада Медиафайлы на Викискладе

Stable Diffusion (дословно «стабильная диффузия») — модель глубокого обучения создающая изображения по текстовым описаниям[англ.], с открытым исходным кодом[2]. Выпущена в 2022 году и основанна на методах диффузии[англ.]. В основном используется для создания детальных изображений на основе текстовых описаний, хотя ее также можно применять и для других задач, например дорисовывать наброски и редактировать исходные картинки[3]. Разработана группой компаний CompVis в Мюнхенском университете. Кроме того, в разработке участвовали Runway, EleutherAI и LAION[4][5][6][7].

Stable Diffusion — модель скрытой диффузии, своего рода глубокая генеративная нейронная сеть. Код и вес модели были открыты[8]. Может работать на большинстве потребительских устройств, оснащенных графическим процессором с объемом видеопамяти не менее 4 ГБ. Её появление ознаменовало отход от предыдущих проприетарных моделей преобразования текста в изображение, таких как DALL-E и Midjourney, которые были доступны только через облачные сервисы[9][10].

В настоящее время существует ряд наиболее распространенные модификации: Stable Diffusion v1.0, Stable Diffusion XL и Stable Diffusion 3. Последняя третья версия построена на архитектуре DiT трансформер[11], в отличие от первых двух имеющих в своей основе U-Net [12].

Примечания

[править | править код]
  1. https://stability.ai/news/introducing-stable-diffusion-3-5
  2. Stable Diffusion. — 2023-01-05. Архивировано 18 января 2023 года.
  3. Stable Diffusion: что за нейросеть, как работает, инструкция. РБК Тренды. Дата обращения: 10 марта 2024.
  4. Leaked deck raises questions over Stability AI's Series A pitch to investors. sifted.eu. Дата обращения: 20 июня 2023. Архивировано 29 июня 2023 года.
  5. Revolutionizing image generation by AI: Turning text into images. www.lmu.de. Дата обращения: 21 июня 2023. Архивировано 17 сентября 2022 года.
  6. Mostaque, Emad Stable Diffusion came from the Machine Vision & Learning research group (CompVis) @LMU_Muenchen (англ.). Twitter (2 ноября 2022). Дата обращения: 22 июня 2023. Архивировано 20 июля 2023 года.
  7. Stable Diffusion Launch Announcement. Stability.Ai. Дата обращения: 6 сентября 2022. Архивировано 5 сентября 2022 года.
  8. Stable Diffusion Repository on GitHub. CompVis - Machine Vision and Learning Research Group, LMU Munich (17 сентября 2022). Дата обращения: 17 сентября 2022. Архивировано 18 января 2023 года.
  9. The new killer app: Creating AI art will absolutely crush your PC. PCWorld. Дата обращения: 31 августа 2022. Архивировано 31 августа 2022 года.
  10. Vincent, James AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit. The Verge (16 января 2023). Дата обращения: 16 января 2023. Архивировано 9 марта 2023 года.
  11. Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (англ.). arxiv.org. Дата обращения: 28 июня 2024.
  12. Архитектура Stable Diffusion: Face ID, Lighting. habr.ru. Дата обращения: 28 июня 2024.