Dall-E2 vs Midjorney vs Stable Diffusion

– Patrz tato, co narysowałam – krzyknęła zadowolona z siebie Jagódka.

– Piękne. Ja nie umiem rysować tak ładnie, jak Ty. Jesteś prawdziwą artystką.

– Dziękuję tatusiu. Mogę Cię nauczyć, jak chcesz.

– Nie trzeba. Dziś sztuczna inteligencja może narysować za nas wszystko, co chcemy. Musimy tylko przelać myśli na słowa.

– Ale jak to?

– Chodź. Pokażę Ci, Skarbie.

W ciągu ostatnich kilku lat dokonano wielu postępów w dziedzinie sztucznej inteligencji (AI), a jednym z nowych dodatków do sztucznej inteligencji jest AI Image Generator.

Są to narzędzia zdolne do przekształcania instrukcji wejściowej w obraz (text-to-image). Modele zamiany tekstu na obraz łączą subdomeny przetwarzania obrazu komputerowego (computer vision) i przetwarzania języka naturalnego (NLP).

W tym artykule przedstawię Wam 3 najbardziej znane modele: DALL-E2, Stable Diffusion i Midjourney. Pokażę jak możecie z nich korzystać i przy okazji porównam je ze sobą.

Krótko o modelach

Generowanie tekstu na obraz (text-to-image) było dostępne już od dłuższego czasu. Początkowo rozpoczęto je wraz z rozwojem modeli generatywnych, takich jak Generative Adversarial Networks (GAN) i Variational Autoencoders (VAE).

Natomiast dopiero w tym roku wyniki tworzone przez dostępne modele zaczęły zapierać dech w piersiach. A wszystko dzięki poniższym 3 modelom.

a) Dall-E2

Dall-E2 to program AI stworzony przez OpenAI, który tworzy obrazy z opisów tekstowych. Warto mieć na uwadze, że Dall-E2 to komercyjne rozwiązanie i jest płatne.

Na szczęście na początek po rejestracji otrzymuje się 50 darmowych kredytów, a następnie koszty generowania obrazów są zależne od jakości generowanego zdjęcia.

Jak z lotu ptaka działa Dall-E2?

Bez wgłębiania się w szczegóły architektura wydaje się dość prosta.

  1. Najpierw tekst użytkownika jest wprowadzany do kodera tekstu, który jest przeszkolony do mapowania tekstu na reprezentację wektorową (text embeddings).
  2. Następnie model zwany prior odwzorowuje kodowanie tekstu na odpowiednie kodowanie obrazu.
  3. Na końcu dekoder generuje stochastycznie obraz, który jest wizualną interpretacją tekstu.

Warto jeszcze dodać, że architektura modelu Dall E-2, czerpie wiele swojej funkcjonalności z architektury CLIP z OpenAI.

CLIP (Contrastive Language-Image Pre-training) to model sieci neuronowej, który zwraca najlepszy podpis dla danego obrazu.

Celem DALL-E2 jest odwrócenie tej inżynierii, aby uzyskać obrazy z napisów i dlatego jest również nazywany architekturą unCLIP. Wynik unCLIP jest danymi wejściowymi dla warstwy modelu prior.

źródło

Jak uzyskać dostęp?

Nie tak dawno jeszcze była potrzeba zarejestrowania się do projektu i oczekiwania na akceptację. Aktualnie każdy może uzyskać dostęp do modelu od ręki.

https://openai.com/dall-e-2/

Po uzyskaniu dostępu można w bardzo prosty sposób wygenerować swoje zdjęcia:

b) MidJorney

Podobnie jak DALL-E2, MidJourney to sztuczna inteligencja przetwarzająca tekst na obraz, która generuje wspaniałe efekty wizualne na podstawie podpowiedzi tekstowych.

Podczas gdy DALL-E2 jest zaprojektowany do generowania wszystkiego, co możesz sobie wyobrazić, to Midjourney ma domyślnie tendencję do tworzenia malarskich, przyjemnych estetycznie obrazów. Mając wybór, MidJourney woli tworzyć obrazy z uzupełniającymi się kolorami, artystycznym wykorzystaniem światła i cienia, ostrymi detalami i kompozycją z satysfakcjonującą symetrią lub perspektywą.

Jak uzyskać dostęp?

Na chwilę obecną dostęp do modelu można uzyskać tylko poprzez używanie serwera Discord.

  1. Jeśli jeszcze go nie używasz, to zainstaluj Discord i utwórz konto. Rejestracja jest bezpłatna.
  2. Odwiedź stronę internetową MidJourney pod adresem: https://www.midjourney.com/ i kliknij „Dołącz do wersji beta”. Spowoduje to przejście do kanału Discord.
https://www.midjourney.com/

Podobnie jak Dall-E2 jest to rozwiązanie komercyjne. Otrzymuje się darmowe kredyty na 25 pierwszych zdjęć na publicznym kanale. Wystarczy wpisać komendę /imagine i dać opis.

Generowanie obrazów trwa około 2 razy dłużej niż w przypadku DALL-E2. Jednak w przeciwieństwie do DALL-E2 możesz obserwować, jak sztuczna inteligencja stopniowo generuje Twoje obrazy, od początkowych rozmytych kolorów po miniatury w wysokiej rozdzielczości.

Możesz też zostać płatnym użytkownikiem (10$ lub 30$ miesięcznie) i będziesz mógł wysyłać do bota w prywatnej rozmowie prośby o wygenerowanie zdjęcia.

c) Stable Diffusion

Stable Diffusion to model open-source głębokiego uczenia służący głównie do zamiany tekstu na obraz (chociaż można go również zastosować do innych zadań) wydany w 2022 roku.

Kod i waga modelu Stable Diffusion zostały opublikowane i model może działać na większości sprzętu konsumenckiego wyposażonego w skromną kartę graficzną z co najmniej 8 GB RAM!

Jak z lotu ptaka działa Stable Diffusion?

Stable Diffiusion wykorzystuje wariant modelu dyfuzji (DM), zwany utajonym modelem dyfuzji (LDM).

Modele dyfuzyjne (DM) to modele generatywne oparte na transformatorach, które pobierają fragment danych, na przykład obraz, i stopniowo dodają szum w czasie, aż stanie się on nierozpoznawalny. Od tego momentu próbują zrekonstruować obraz do jego pierwotnej postaci, a robiąc to, uczą się, jak generować obrazy lub inne dane.

LDM są niezawodne w generowaniu obrazów o wysokiej rozdzielczości z różnymi tłami z drobnymi szczegółami, zachowując jednocześnie semantyczną strukturę obrazów. Dlatego LDM są krokiem naprzód w szczególności w generowaniu obrazów i ogólnie w głębokim uczeniu się.

W związku z tym, że Stable Diffiusion jest projektem open-source możesz zajrzeć nawet do kodu na github i zobaczyć jak został zaimplementowany!

Jak uzyskać dostęp do Stable Diffiusion?

Model dla przykładu można pobrać z HuggingFace. Również na tej stronie możesz wygenerować własne zdjęcie TUTAJ, jeśli akurat serwer nie jest zbyt mocno obciążony.

Możesz odpalić również model na środowisku u siebie, w chmurze, bądź skorzystać ze stron działających jako API.

Bardzo prosto możesz też znaleźć gotowe skrypty w Google Colab, na przykład TUTAJ.

Przykłady!

Skoro już wiadomo, jak uzyskać dostęp, to przygotujmy po kilka przykładów, aby móc porównać modele ze sobą. Następnie spróbuję podsumować wyniki.

king, lion white, sunset, power, black and white, blue eyes, art by: Tomasz Baginski
beautiful lake under the mountain with ray of sunlight from the ceiling
A 3D render of a rainbow colored hot air balloon flying above cyberpunk city
dragon eye, macro photography, Ultra HD nature photography
yellow transformer robot on alien planet in Pablo Picasso style
green forest, blue sky, fog, clouds, Ultra HD nature photography
a bowl of soup as a portal to the wonderful world of mathematics, full HD
Close-up of Viking King emerging from wet black mud
aerial view, ruined temple complex of marble, built in red rock canyon, arabic and gothic and star wars architecture
Full portrait of a young barbie doll with tattoos sitting lonely on time square
Shrek, in a business suit drinking beer, pixel art
Cute female elf in warm sweater uses laptop, by Elena Kukanova, modern interior on background, digital art

Podsumowanie

Po zabawie tymi trzema narzędziami naprawdę ciężko wybrać mi faworyta.

DALL-E2 odzwierciedla najbardziej rzeczywiste obrazy. Dodatkowo bardzo podoba mi się sposób przedstawiania zadanego stylu (jak w przykładzie z Pablem Picasso i z Pixel Art).

Midjourney ma bardzo bogate kolory (np. przykład z zupą, okiem czy cyberpunk city). Dodatkowo tworzy najładniejsze malarsko obrazy (np. jezioro, balon, elfka).

A Stable Diffusion ma olbrzymie wsparcie społeczności ze względu na swój charakter open source i niczym nie odbiega płatnym konkurentom! W przykładzie z lwem i Barbie te wizualizacje rozłożyły pozostałe na łopatki.

Widząc, jakie mamy postępy w generowaniu obrazów i możliwości w tworzeniu sztuki cyfrowej nie mogę się doczekać tego, co przyniesie nam przyszłość.

Pozdrawiam z całego serducha

podpis Mirek

One Comment on “Dall-E2 vs Midjorney vs Stable Diffusion”

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *