Kolejna wersja Midjourney przynosi zmiany, na które czekała cała społeczność fanów tego generatora obrazów AI. Wśród zmian góruje przede wszystkim możliwość dodawania tekstów do generowanych obrazów, która na ten moment była możliwa tylko w DALLE-3. Jakie zmiany przyniosła szósta już wersja Midjourney i dlaczego jest to dopiero wersja ALPHA?
Wpisz tekst w generowany obraz – (r)ewolucja, na którą wszyscy czekali
Generowanie grafik z Midjourney wcale nie jest proste i intuicyjne, jednak moim (i wielu innych) zdaniem, jest to obecnie najlepszy generator obrazów AI. Dotychczas DALLE-3 od OpenAI prowadził w tym wyścigu na generatory obrazów w jednej, zasadniczej kwestii. Był w stanie generować obrazy ze wpisanym w nie tekstem.
Poprzednie wersje Midjourney radziły sobie z tekstem, jak kury z lataniem. Wpisanie tekstu w grafikę z Midjourney było praktycznie niemożliwe, zaś wszelkie próby kończyły się najczęściej przepaleniem ogromnej ilości tokenów (minut) i frustracją promptującego.
Midjourney w wersji 6 wywraca obecną hegemonię DALLE-3 w tej materii do góry nogami. Choć wersja 6 Midjourney jest dopiero wersją alfa, tak już teraz z powodzeniem można sprawdzać możliwości programu do tworzenia grafik z tekstem. Aby to zrobić, trzeba użyć prostej komendy „with text”. Taki prompt będzie wyglądał następująco:
Cat holding banner with text „Dawaj saszete!”, ultra-high 8k resolution, detailed –s 250 –ar 2:1 –v 6.0
Choć jest to na ten moment jedynie wersja alfa, tak Midjoruny jest w stanie z dużą dokładnością odwzorować promptowany tekst. Tekst nie powinien być zbyt długi i skomplikowany. Midjourney nie jest w stanie wygenerować polskich znaków, choć w kolejnych aktualizacjach może się to zmienić.
Jakie jeszcze zmiany przyniosła V6?
Przede wszystkim widoczna jest zdecydowanie większa dokładność, jeśli chodzi o odwzorowanie danego prompta. Według fachowej nomenklatury jest to tzw. prompt coherance. Wyraźnie widać także zdecydowaną poprawę, jeśli chodzi o kojarzenie przez AI kontekstu.
Dokładność promptów ma nadal spore znaczenie, jednak Midjourney jest w stanie lepiej „kojarzyć” ogólny kontekst przedstawianego obrazu, dzięki czemu efekty promptowania są bardziej zadowalające. Pisanie o nowych możliwościach Midjourney jest jak próbowanie miodu poprzez lizanie słoika, dlatego najlepszym dowodem dokładności V6, są wygenerowane obrazy.
Wpisując prompt:
a life-style photo of black maine coon cat on sofa, cat looking at the camera, golden hour light –style raw –s 250 –ar 2:1 –v 6.0
otrzymamy taki wynik:
To była dość pospolita grafika, ale musisz przyznać, że wygląda bardzo realistycznie. V6 świetnie radzi sobie także z bardziej abstrakcyjnymi promptami, które zawierają skomplikowane wytyczne.
Przykład:
Cyberpunk robot cat with a lot of cyberware, close-up shot, hyperdetailed, ultra-high 8k resolution –s 250 –ar 2:1 –v 6.0
Zwróć uwagę, że na powyższej grafice Midjourney uwzględnił także odbicia w kocich oczach.
Niezręczny problem rozwiązany
Dosłownie pół roku temu popularne było powiedzenie, że tak jak oczy są zwierciadłem duszy, tak dłonie, to zwierciadło AI. Generatywna sztuczna inteligencja nie radziła sobie z uchwyceniem ludzkich dłoni, zmieniając jest w plątaninę palców godną obrazu AD83 Zdzisława Beksińskiego.
Szósta wersja Midjourney definitywnie odrobiła zadanie domowe, dzięki czemu grafiki przedstawiające dłonie są realistyczne i szczegółowe – zarówno jeśli chodzi o ilość palców, jak i ogólne przywiązanie do detali.
Przykład:
Award-winning extreme close-up photo of female hand, she is catching rain in palm, hyperdetailed, ultra-high 8k resolution –s 250 –ar 2:1 –v 6.0
Czego jeszcze nie ma w V6?
Skoro było już trochę o superlatywach najnowszej wersji najpopularniejszego generatora obrazów AI, to warto wspomnieć też o tym, czego jeszcze na ten moment nie ma. Przede wszystkim brakuje opcji zoom-out, która w V 5.3 robiła doskonałą robotę. Dzięki zoom-out’ owi można modyfikować kadr obrazu.
Na ten moment próżno szukać w V6 także opcji inpaintingu. Dla niewtajemniczonych przytoczę, że była to niezwykle praktyczna opcja, która pozwalała na modyfikowanie wybranych fragmentów grafiki, bez konieczności zmiany całej reszty. O inpaintingu pisałem szerzej w tym poradniku.
Warto dodać, że V6 jest oznaczona jako ALPHA. To z kolei oznacza, że powyższe opcje z pewnością pojawią się w V6 i zostaną odpowiednio rozbudowane.
Podsumowując, Midjoruney V6 jest doskonałym przykładem na to, że lepsze wcale nie musi być wrogiem dobrego. Kolejne wersje tego generatora grafik AI pokazują, że tworzenie fotorealistycznych grafik jest dziś prostsze, niż kiedykolwiek wcześniej – wystarczy tylko odpowiedni prompt.
W Kaizen Ads (カイゼンアッズ)
AI występuje nie tylko w naszej nazwie 🙂
Zapraszamy do śledzenia naszej nowej Serii:
愛とAI – “Ai to AI” – w wolnym tłumaczeniu “Z miłości do AI”
Jeśli zastanawiasz się jak wdrożyć AI do swojego biznesu lub chcesz żebyśmy przeprowadzili dla Ciebie szkolenie z ChatGPT, Midjourney i innych narzędzi opartych o sztuczną inteligencję daj znać.
Wyślij wiadomość
kontakt@kaizenads.pl
Zadzwoń:
+48 881 228 124
Komentarz specjalisty