Швидше за людську уяву. ШІ навчили перетворювати текст на зображення в реальному часі

SDXL Turbo з ШІ генерує зображення менш як за секунду (Фото:Скриншот з відео Stability / YouTube)

Компанія Stability AI запустила модель синтезу зі штучним інтелектом, яка неймовірно швидко генерує зображення на основі текстових підказок.

Основна інновація SDXL Turbo полягає у тому, що для створення зображенні потрібно виконати мінімум кроків, і результат буде готовий за мінімум часу. Stability стверджує, що на потужному графічному процесорі Nvidia A100 її модель може генерувати зображення розміром 512×512 пікселів за 207 мілісекунд.

Також Stability заявляє, що SDXL Turbo «дозволяє генерувати зображення за один крок із безпрецедентною якістю, зменшуючи необхідну кількість кроків із 50 до лише одного». Однак видання Ars Technica зауважує, що одним кроком все ж не обійтися. Зображення SDXL Turbo не такі деталізовані, як зображення попередньої версії моделі SDXL, і найкращою деталізація стає приблизно через 3−5 кроками.

https://www.youtube.com/embed/adDyTzBdUcg

Журналістам вдалося за допомогою SDXL Turbo створити зображення розміром 1024×1024 приблизно за три кроки, і це зайняло лише 4 секунди. SDXL генерує схоже 20-крокове зображення за 26,4 секунд. Зображення меншого розміру створили набагато швидше (менше як одна секунда для генерації зображення розміром 512×768).

Компанія пояснює такий стрибок ефективності застосуванням технології дистиляції змагальної дифузії (ADD). ADD передбачає, що модель вивчає наявні моделі синтезу зображень з метою покращити реалістичність результату.

Наразі Stability AI пропонує бета-версію демонстрації можливостей SDXL Turbo на своїй платформі для редагування зображень Clipdrop. SDXL Turbo доступний за ліцензією на некомерційні дослідження,. Тож його використання поки можливе лише в особистих некомерційних цілях.

Як писав NV Техно, минулого місяця команда Google повідомила, що вона надає можливість створювати зображення за допомогою генеративного пошуку на основі ШІ. Функція доступна в експериментальному інтерфейсі пошуку.

от ClearMind