Od około czterech tygodni użytkownicy mają dostęp do Midjourney v8 w wersji alpha. Choć mogłoby wydawać się, że jest to coś, na co czekała cała kreatywna branża, która coraz częściej wykorzystuje genAI w swojej codziennej pracy, tak opinie są… niejednoznaczne 😉
Trzęsienie ziemi wywołane przez v8 nie wzbiło w niebiosa wyłącznie chóru zachwytu, ponieważ kakofonicznie przebijają się coraz głośniejsze pomruki niezadowolenia. Podczas gdy jedni widzą w nowej wersji szczyt technologicznych możliwości, inni alarmują, że w pogoni za perfekcją model zatracił to, co czyniło go wyjątkowym – artystyczną duszę i nieprzewidywalność. Sprawdźmy, czy v8 to faktycznie krok milowy, czy może początek końca hegemonii Davida Holza.
Nowa era hiperrealizmu czy powrót do „plastiku”?
Gdy tylko pierwsze rendery z v8 trafiły na discordowe kanały, społeczność została uderzona jednym: niespotykaną dotąd czystością obrazu. Midjourney v8 w końcu uporało się z artefaktami, które dręczyły poprzednie generacje. Tekstura skóry, odbicia światła w soczewce oka, a nawet fizyka tkanin w ruchu – to wszystko wygląda niemal zbyt dobrze, by mogło być prawdziwe. Z punktu widzenia (hehe) inżynierii promptu, mamy do czynienia z majstersztykiem.
Jednak tutaj pojawia się pierwsza rysa na tym idealnym szkle. Wielu artystów cyfrowych zauważa, że v8 cierpi na syndrom „nadmiernego wygładzenia”. To, co w wersji v6 czy nawet v7 było urokliwym, malarskim niedociągnięciem, tutaj zostało zastąpione przez sterylną, niemal reklamową estetykę. Obrazy generowane przez v8 są technicznie doskonałe, ale często pozbawione charakteru. Można odnieść wrażenie, że model został zbyt mocno „wytresowany” na stockowych fotografiach, przez co każdy portret wygląda jak okładka lifestylowego magazynu, a nie unikalne dzieło sztuki. Czy to degradacja? Dla fotografa produktowego – absolutnie nie. Dla ilustratora szukającego ekspresji – być może.
Prompting 2.0 – koniec wolności twórczej?
Największą zmianą funkcjonalną w Midjourney v8 jest sposób, w jaki model interpretuje nasze polecenia. Zespół Holza postawił na tzw. Contextual Logic Flow, co w praktyce oznacza, że AI znacznie lepiej rozumie złożone relacje między obiektami. Jeśli poprosisz o „kota siedzącego na krawędzi filiżanki, która unosi się nad powierzchnią Jowisza”, v8 nie tylko poprawnie rozmieści te elementy, ale też dostosowuje oświetlenie kota do specyficznej luminancji planety. To ogromny przeskok technologiczny, eliminujący godziny frustrującego „in-paintingu”.
Niestety, ta precyzja ma swoją cenę. Użytkownicy coraz częściej skarżą się na rosnącą „sztywność” algorytmu. v8 jest mniej skłonne do radosnej improwizacji, którą kochaliśmy w v4. Kiedyś wpisanie abstrakcyjnego hasła dawało surrealistyczne, inspirujące wyniki. Dzisiaj v8 stara się być prymusem – analizuje prompt logicznie i dostarcza najbardziej prawdopodobną, uśrednioną interpretację.
Co gorsza, systemy bezpieczeństwa i filtry w v8 stały się bardziej agresywne niż kiedykolwiek. Algorytmiczny kaganiec, mający zapobiegać generowaniu treści kontrowersyjnych, coraz częściej gryzie rykoszetem zwykłą artystyczną ekspresję, odrzucając prompty, które jeszcze rok temu nie budziły żadnych zastrzeżeń. To niebezpieczny kierunek, który może zmienić potężne narzędzie w bezpieczną zabawkę dla korporacyjnych działów marketingu, które absolutnie nie chcą wywołać kryzysu w social mediach, która jak wiemy wybuchają zawsze w piątek 😉
Tak na nową wersję Midjourney patrzy CEO Kaizen Ads, Krystian Kruk:
Szczerze? Już kilka miesięcy po premierze v7 miałem wrażenie, że Midjourney zaczął iść w kierunku technicznej perfekcji kosztem „duszy” obrazów. Na ten moment niestety wersja 8.1 wydaje się powielać te same błędu.
Moim zdaniem Modjourney od wersji v7 zaliczyło ogromny regres jeśli chodzi o jakość generowanych grafik. Co ciekawe – przeszło to trochę bez echa. Zwłaszcza patrząc na tempo rozwoju konkurencji od Google czy OpenAI.
Żeby nie było…Nadal bardzo często korzystam z Midjourney. Mam na Discordzie przygotowane własne workflow, osobne kanały pod projekty i automatyzacje, które realnie przyspieszają pracę…niestety coraz częściej wracam do modelu 6.1.
Nawet przy bardzo długich i szczegółowych promptach przygotowanych mam wrażenie, że zarówno 7.0 jak i 8.1 gorzej rozumieją intencję użytkownika. Co paradoksalne…od zawsze uważałem, że najlepsze AI to takie, które rozumie człowieka bez potrzeby pisania elaboratu na pół ekranu.
Nowe modele są momentami absurdalnie poprawne technicznie…ale często widzę w nich ogromną sterylność. Czasem mam wręcz wrażenie, że oglądam perfekcyjnego stocka albo screenshot z gry z 2018 roku, zamiast iść w realizm. W modelu 8.1 nadal brakuje funkcji, które dla wielu osób są absolutnie podstawowe: sensownego oddalania czy szybkiej zmiany proporcji tej samej grafiki.
W praktyce takie braki naprawdę wpływają na codzienną pracę kreatywną i publikację contentu pod różne formaty. Mam też wrażenie, że cała branża GenAI dochodzi do bardzo ciekawego momentu. Konkurencja zaczyna doganiać Midjourney jakościowo… ale jednocześnie coraz lepiej rozumie po prostu ludzki język i intencję.
I właśnie to może okazać się kluczowe. Oczywiście nie rezygnuję z subskrypcji Midjourney. Nadal uważam, że przy konkretnym workflow potrafi być bezkonkurencyjny. Liczę tylko, że kolejne aktualizacje oddalą nas od plastikowej perfekcji…w stronę obrazów, które znowu będą miały charakter.
Konkurencja nie śpi – MJ v8 w ogniu pytań
Midjourney v8 debiutuje w rzeczywistości, w której nie jest już samotną wyspą. Modele takie jak NanoBanana2 czy najnowszy Image 2 od OpenAI depczą mu po piętach, oferując darmowe i tańsze alternatywy o zbliżonych możliwościach. Przewagą MJ zawsze był specyficzny, „filmowy” sznyt, którego nie dało się podrobić. W wersji v8 ten dystans się skrócił. Konkurenci nauczyli się emulować estetykę Midjourney, podczas gdy samo Midjourney, dążąc do fotorealizmu, upodobniło się do konkurencji.
Pytanie o degradację nie dotyczy więc samych parametrów technicznych – te są bez wątpienia lepsze. Chodzi o unikalność. Jeśli Midjourney v8 przestanie być rozpoznawalne na pierwszy rzut oka, straci swój największy atut rynkowy. W świecie AI, gdzie każdy może wygenerować ładny obrazek, wygrywa ten, kto oferuje styl. v8 na razie balansuje na krawędzi: oferuje niesamowitą moc obliczeniową i precyzję, ale jednocześnie ryzykuje stanie się bezdusznym kalkulatorem pikseli. Dla profesjonalistów wymagających kontroli, v8 to błogosławieństwo. Nie stawiam na v8 krzyżyka, także wracam do testów i dam znać, gdy 8 oficjalnie wyjdzie dla wszystkich użytkowników.
Na koniec kilka przykładowych grafik i promtów – możesz samodzielnie ocenić, czy ósma wersja to faktycznie przełom, czy może jednak regres.
ultra photorealistic night scene in Tokyo, Shinjuku district, neon lights reflecting on wet asphalt after rain, crowded street with people holding transparent umbrellas, glowing billboards in kanji, cinematic cyberpunk atmosphere, volumetric fog, reflections, dynamic motion blur, shot on Sony A7R V, 50mm f/1.2 lens, shallow depth of field, ISO 800, long exposure light streaks, low angle perspective, hyper-detailed skin textures, natural color grading, 8k resolution, global illumination, ray tracing, dramatic lighting

serene Japanese zen garden in Kyoto, early morning mist, raked sand patterns, bonsai trees, stone lanterns, wooden temple in background, soft sunlight filtering through maple leaves, peaceful atmosphere, photorealistic style, shot on Canon EOS R5, 85mm lens, f/2.0, shallow depth of field, cinematic composition, rule of thirds, soft shadows, natural light, HDR, ultra detailed textures, 8k, wide dynamic range

hybrid style portrait combining anime and photorealism, Japanese girl with large expressive anime eyes but realistic skin texture, perfect eye alignment, detailed reflections, soft glowing pupils, cinematic lighting, sunset tones, shallow depth of field, shot on Sony A7R V, 50mm lens, f/1.2, ultra detailed face, smooth blend between styles

dynamic scene of a ninja performing hand signs (kuji-in), hands in motion but anatomically correct, motion blur balanced with sharp finger detail, dramatic lighting, night setting in Japanese temple, moonlight and lantern mix, shot on RED Komodo, 35mm lens, f/2.0, cinematic action shot, volumetric fog, high contrast

Komentarz specjalisty