Генератори зображень з тексту
Застосування генеративного ШІ у сфері медичної візуалізації має ряд проблем:
1) Значний обсяг специфічних даних для ефективного навчання ШІ. Забезпечити їх складно та дорого, особливо коли йдеться про рідкісні захворювання.
2) Перевірка точності генеративних моделей ШІ ускладнюється специфічністю даних.
3) Імовірні хиби інтерпретації даних, які важко виявити.
4) Імовірна упередженість генеративної моделі, що створить зміщення та неточність результатів, внаслідок недостатності чи хиб відбору даних, на яких навчаються моделі, або через особливості моделей.
На жаль, жоден з цих інструментів ще не здатен створювати наукові ілюстрації.
Проте використання генеративного ШІ має значний потенціал і для покращення якості зображення, і для оптимізації процесів аналізу зображень.
Проект MONAI є проектом з відкритим кодом. MONAI - "відкрита медична мережа для штучного інтелекту. Це набір вільнодоступних інфраструктур для спільної роботи з відкритим вихідним кодом, створених для прискорення досліджень і клінічної співпраці в області медичної візуалізації. Мета полягає в тому, щоб пришвидшити темпи інновацій і клінічного перекладу, побудувавши надійну структуру програмного забезпечення, яка приносить переваги майже всім рівням медичної візуалізації, дослідженням глибокого навчання та розгортанню".
Основні генеративні моделі
Midjourney — незалежна дослідницька лабораторія та назва її власної програми породжувального штучного інтелекту, яка створює цифрові зображення з описів природною мовою, званих промптами (підказками).
Stable Diffusion (SDXL Turbo) – це модель глибокого навчання з перетворенням тексту в зображення, випущена у 2022 році. В основному використовується для генерування детальних зображень на основі текстових описів або модифікації зображень. Відкритий код, що дозволяє створювати власні застосунки.
DALL-E, а також DALL-E 2, DALL-E 3 — створені шляхом машинного навчання нейронні моделі, розроблені компанією OpenAI за фінансової підтримки Microsoft, призначені для створення цифрових зображень на основі описів природною мовою, званих «підказками».
В топ-10 генеративних моделей у 2024 році входили також Imagen 2 від Google, Firefly від Adobe, Titan Image Generator від Amazon, Kalaido AI від Fractal та Tongyi Wanxiang від Alibaba.
Перший випуск : 12 липня 2022 року
Остання версія : V6 (21 грудня 2023)
https://www.midjourney.com
Використовуючи Послуги, ви надаєте компанії Midjourney, її правонаступникам, і передаєте постійну, всесвітню, невиключну, субліцензійну безкоштовну, безоплатну, безвідкличну ліцензію на авторське право на відтворення, підготовку похідних робіт, публічний показ, публічне виконання, субліцензувати та розповсюджувати текстові та графічні підказки, які ви вводите в Служби, а також будь-які активи, створені вами за допомогою Служби. Ця ліцензія діє після розірвання цієї Угоди будь-якою стороною з будь-якої причини.
Лише платні плани генерації. В Discord або на веб-сайті midjourney.com немає безкоштовної пробної версії.
Обмежена пробна версія доступна в додатку niji · journey , доступному для пристроїв iOS і Android.
BING від Microsoft / DALL-E 3
DALL-E 3 також доступна для користувачів ChatGPT Plus і Enterprise;
Передає повні права на використання автору промпта, включаючи право на повторний друк, продаж і сувенірну торгівлю — незалежно від того, чи зображення було створено за допомогою безкоштовного чи платного кредиту.
DALL·E-3 підтримує три різні розміри зображення: 1024 пікселів на 1024 пікселів, 1792 пікселів на 1024 пікселів і 1024 пікселів на 1792 пікселі;
2 рівні якості зображення — standard та HD.
Створене зображення може бути масштабоване в інший розмір, але при цьому воно повністю перебудовується.
https://cookbook.openai.com/articles/what_is_new_with_dalle_3
DALL-E 3
DALL-E 3 є моделлю мовного трансформера. Вона отримує і текст, і зображення як єдиний потік даних.
Особливість моделі - здатність створювати правдоподібні зображення та вбудовувати текст в зображення (але тільки англійською).
Порівняно з більшістю інших моделей, якість зображення людей висока, "галюцинації" менш імовірні, але це відноситься лише до персонажів першого плану. Фонові персонажі дрібного масштабу спотворюються.
Проблема моделі - чим більше об'єктів указано в промпті, тим вище імовірність, що об'єкти або їх атрибути будуть сплутані.
https://designer.microsoft.com/
Кожного разу, коли ви входите у Дизайнер, він надсилає шестизначний код на поштову скриньку, за якою ви зареєструвалися.
Може бути установлений на Ваш пристрій з магазину додатків Google Play.
На основі текстового опису генерує зображення, персоналізовані дизайнів обкладинок, вітальних листівок, колажів, стікерів тощо.
Надає швидкі шаблони, для них пропонує промпти, які можна коригувати відповідно потреб.
Створене зображення можна частково редагувати (функція Редагувати зображення).
Формат зображення: 1024×1024
Можна завантажувати зображення та редагувати (редактор Fotor).
В дизайн може бути вбудований необхідний текст (функція Створити дизайн).
Три формати дизайнів: 1080×1080, альбом 1200×628, портрет 1080×1920
Microsoft Designer не має типового чистого полотна.
У полі ліворуч слід описати тип дизайну, який ви хочете створити.
ШІ створить 15 дизайнерських пропозицій на основі вибраної вами концепції.
Також можна завантажити власні зображення або попросити інструмент створити нові зображення за допомогою ШІ.
15 нових дизайнів буде створено автоматично.
У верхній частині дизайну є опція вибору розміру. Після його вибору нові дизайни будуть створені заново відповідно до обраного розміру.
На головній сторінці наявні різні шаблони за замовчуванням, з якими можна ознайомитися та скористатися для тренування, перш ніж ви введете власні промпти. Якщо ви наведете вказівник миші на кожен шаблон, відобразиться текст, який використовувався для створення кожного з цих зразків дизайну.
Усі елементи створеного дизайну можна легко вибрати та змінити, натиснувши на них, скоригувати текстові вставки.
Шаблони Дизайнера можна використовувати для підготовки презентацій, різноманітних бланків та планерів, обкладинок, відео, постів для соцмереж, та інш.
https://www.fotor.com/images/create
Bing image creator
Багато функцій генерації, редагування, включно зміну розміру. Додаткові функції — 3 дні free.
Формат зображення має варіанти — 1:1, 4:3, 3:4, 16:9, 9:16.
Запрацював в Україні. Треба виставляти мову браузера англійську, оскільки промпти розуміє лише англійською, і на перекладі зависає.
Єдиний генератор, який трішечки розуміється на анатомії.
Не плутайте з ImageFX з веб-магазину Chrome (Photo Editor від InfiniteFX).
https://getimg.ai/text-to-image
100 зображень на місяць безкоштовно
Формати від 7:4 до 4:7; Resolution: 1024px × 1024px для 1:1; від 1 до 4 зображень одразу.
Є функції редагування зображень, зміни обраних зображень, гайд для формування промптів, доступу до готових зразків та моделей Stable Diffusion.
Два плани — безкоштовний та 20$/міс.
У безкоштовному створені зображення загальнодоступні, у платному приватні та не відображаються у галереї спільноти, а генерація швидша.
Є додаток для Андроїд.
Є можливості створювати векторні логотипи, редагувати зображення, в тому числі, видаляти елементи, змінювати фон зображень, перефарбовувати їх, покращувати зображення (Upscale), векторизувати власні зображення.
Нейромережа вміє:
розпізнавати кольори та стилі;
маскувати, витирати та замінювати непотрібні елементи;
працювати з освітленням та тінями;
ретушувати об'єкти;
малювати зображення;
видаляти тло;
покращувати якість фотографій.
Переваги Leonardo:
Інструменти для редагування. У «Режимі полотна» користувачі можуть відредагувати завантажену фотографію до невпізнання — скоригувати деталі, змінити стиль, перефарбувати фон та багато іншого.
Галерея моделей для створення. Сервіс пропонує понад 100 професійних та користувацьких моделей. Кожна модель має своє призначення: від генерації фотореалістичних зображень до малювання 2D персонажів.
Створення власних моделей. Якщо жодна з доступних моделей не впорається із завданням, користувач може створити власну.
Генерація 3D-зображень. Сервіс дозволяє генерувати 3D моделі та накладати на них текстури.
Поліпшення якості зображень та анімацій. Є 2 інструменти: для деталізації простих анімацій/зображень та складніших картинок.
Інтуїтивний інтерфейс. Повністю освоїти Leonardo AI за півгодини не вийде через велику кількість налаштувань і можливостей. Однак, для роботи з ІІ вам не вимагатимуть навички роботи з редакторами та вузькопрофільні знання.
Вимоги до «заліза». Користуватись нейромережею можна з браузера, всі операції виконуються потужностями серверів.
Технічна підтримка. Оператори техпідтримки вирішують проблеми користувачів протягом 2-3 годин.
Промти потрібно писати англійською мовою, інакше нейромережа генерує зображення, що ніяк не відповідають запитам.
Кількість зображень у меню «Number of Images» — від 1 (16 токенів) до 4 за раз (32 токени) у безкоштовному плані.
У рамках безкоштовної підписки на рахунок нараховуватиметься по 150 токенів щодня. Для генерації зображення 768x768 потрібен 1 токен, а для видалення фону у режимі PhotoReal на зображення залежно від налаштувань піде до 20 токенів.
Зображення, створені у безкоштовному плані, є публічними.
Функція "Alchemy" працює тільки при покупці передплати. Натомість обіцяє високоточну генерацію та працює з усіма існуючими моделями.
Перетворити картинку на фотореалістичний шедевр можна при активації повзунка PhotoReal. Але якщо ви встановлюєте цей режим, модель вибрати не можна.
Параметр Prompt Magic відповідає за покращення якості зображення. За його використання витратиться більше токенів.
Нейромережа, що генерує зображення за текстовим описом або завантаженим своїм фото.
Також Lexica оснащена пошуковою системою за готовими артами, зробленими на моделі Stable Diffusion.
Для створення зображення за текстом обирається розмір зображення (пропорції варіюються), задаються шкала Classifier Free та "насіння". Промп включає власне опис та негативний промпт (елементи та характеристики, яких не повинно бути у зображенні).
Наявна персональна галерея, де зберігаються створені вами зображення з їх промптами.
Безкоштовний план дозволяє створювати 4 версії кожної генерації. Зображення публічні.
Може бути установлений на Ваш пристрій з магазину додатків Google Play.
Starter $8/міс.: 1 000 швидких генерацій на місяць, комерційна ліцензія (соло). Зображення публічні.
Pro $24/міс.: 3 000 швидких генерацій на місяць, комерційна ліцензія. Зображення публічні.
Max $48/ міс.: 7 000 швидких генерацій на місяць, комерційна ліцензія, забраження приватні.
Kalaido AI від Fractal
Бета-версія. Безкоштовна.
Зображення недостатньо відповідають промпту. Опція Enhance Prompt додає деталей, які можуть не відповідати задуму. Вибір стилів обмежений (Cinematic, Photographic, Digital art).
Janus Pro (генератор зображень від DeepSeek)
Генерує зображення з текстового запиту. Швидкість генерації дуже висока, але об'єм галюцинацій доволі великий. Зображення, що відповідає вимогам, можна покращити.
Також він може аналізувати зображення, щоб відповісти на запитання.
Генерує зображення з текстового запиту. Пропорції зображення 1:1, 3:4, 4:3, 9:16, 16:9 за вибором.
Meta AI
В Україні немає доступу.