Zostańmy w kontakcie
Lofty Kościuszko
ul. Metalowców 13/107
Chorzów 41-500
kontakt@kaizenads.pl
+48 881228124

Sora Sora Sora! Generator wideo od OpenAI podbija sieć

Dosłownie chwilę temu zachwycaliśmy się karykaturalnym Willem Smithem jedzącym spaghetti, a dziś OpenAI prezentuje narzędzie, które może zmienić sposób tworzenia materiałów wideo. Mowa oczywiście o nowym generatorze klipów wideo o nazwie Sora.

Ta młodsza siostra ChataGPT jest modelem wykorzystującym sztuczną inteligencję do zmiany tekstu w film. Jakość zaprezentowanych klipów zwala z nóg, ale czy finalny produkt faktycznie będzie aż tak doskonały? Po doświadczeniach z prezentacją Gemini raczej warto pozostać w sferze ograniczonego zaufania.

Sora, czyli narzędzie, które podbiło social media w kilka godzin

Prezentacja Sory przez OpenAI sprawiła, że social media zapłonęły od retweetowanych filmów wygenerowanych przez nowe narzędzie od twórców ChatuGPT. W czwartek 15 lutego w godzinach popołudniowych czasu polskiego, OpenAI wraz z Samem Altmanem zaprezentowało nowy model generatora text-to-wideo. Choć na rynku są już dwa podstawowe i stale ulepszane narzędzia pozwalające za pomocą prompta stworzyć wideo (Run-way oraz Pika Art), tak Sora wyznaczyła nową jakość klipów wideo AI.

Wygenerowane filmy prezentowane na stronie i social mediach OpenAI były tak dobre, że wiele osób z początku nie wierzyło, że klipy zostały stworzone przez sztuczną inteligencję. Sam zaliczam się do tych osób, ponieważ przeglądałem feed swojego X’a i nie dowierzałem, że tak wyraźne filmy z naturalną ciągłością ruch, stworzyła sztuczna inteligencja.

Nie wszystko złoto, co się świeci, czyli o obietnicach w branży AI słów kilka

Klipy wygenerowane przez Sorę są tak dobre, że społeczność śledząca branżę sztucznej inteligencji szybko zaczęła podejrzewać lekkie koloryzowanie materiałów. Jest to spowodowane ostatnim zawodem, czyli prezentacją Gemini od Google. W prezentacji Gemini zachwycał swoją elokwencją i doskonałym czasem reakcji, do czasu… aż nie okazało się, że klip został zmontowany. To w zdecydowany sposób ochłodziło oczekiwania na możliwości Barda transformującego się w Gemini. W przypadku Sory zastanawiający jest fakt, że we wszystkich klipach ruch postaci i kamery jest bardzo naturalny.

Niemniej jednak po dłuższym przyjrzeniu się detalom i wielokrotnym odtworzeniu, można było dostrzec nieścisłości i elementy sugerujące, że film jest dziełem AI (dwunoga krowa, czy lekko plątające się stopu modelki), tak jakość klipów generowanych przez Sorę jest porażająca. Czy faktycznie dostaniemy do rąk generator, który będzie tworzył fotorealistyczne filmy trwające nawet minutę?

Wszystko na to wskazuje, choć warto zostawić sobie pewną dozę nieufności, aby nie powtórzyła się sytuacja z Gemini. Warto dodać, że Sam Altman na swoim profilu na X-ie przeprowadził małe Q&A, w którym użytkownicy wpisywali konkretne prompty, które Altman miał wygenerować w Sorze. Testy te ujawniły, że narzędzie robi wrażenie, ale nieprecyzyjne prompty tworzą nieprecyzyjne klipy wideo.

 

Dlaczego Sora może okazać się dokładnie taka, jak przedstawia ją Altman?

Wiemy z wielu różnych przecieków, że OpenAI aktywnie pracuje nad kilkoma projektami opartymi o sztuczną inteligencję i uczenie maszynowe. Mowa na przykład o Q-star, o którym przeczytasz nieco więcej w tym artykule. OpenAI bardzo mocno chce utrzymać pozycję lidera branży AI i wyraźnie widzi to, że Google depcze im po cybernetycznych piętach. Co prawda wyszukiwarkowy gigant ma jeszcze trochę, aby dogonić firmę sygnowaną przez Sama Altmana, jednak rozwój ChataGPT nie może być jedynym paliwem napędowym OpenAI. Stąd też ujawnienie prac nad Sorą i rozpoczęcie rozmów o generatorze text-to-wideo od wysokiego C.

Co ciekawe, czas ujawnienia prac nad Sorą także nie jest przypadkowy. Nie wiem, czy wiesz, ale 15 lutego w sieci pojawiła się jeszcze jedna ważna informacja w branży AI, która została całkowicie przyćmiona przez prezentację Sory. Otóż Google zapowiedział, że Gemini Pro 1.5 będzie miał limit prompta do 1 000 000 miliona tokenów. Co to oznacza?

Możliwość załączenia w zapytaniu do AI 1 godzinnego filmu wideo, 11 godzin nagrań audio, 30 000 linii kodu oraz 700 000 słów (300-stronna książka ma około 50-80 tysięcy słów). Wiadomość o abstrakcyjnie wręcz wysokiej liczbie tokenów w jednym prompcie do Gemini Pro 1.5 została całkowicie zagłuszona przez generator filmów od OpenAI. To się nazywa wyczucie czasu.

 

Kiedy Sora ujrzy, a raczej wygeneruje światło dzienne?

Na ten moment Sora zostaje poddawana zamkniętym testom, zaś testerami są m.in. profesjonalni filmowcy. Etap zamkniętych testów potrwa z pewnością jeszcze trochę, zaś później przyjdzie czas na wersję beta. OpenAI będzie chciało wypuścić Sorę do powszechnego użytku w 2024 roku i myślę, że spokojnie możemy się jej spodziewać w okolicach tego lata.

Zasadnicze pytanie brzmi jednak – czy Sora będzie pełniła integralną część ChatuGPT jako plugin (na takiej zasadzie, jak DALL-E 3, czy może zostanie wypuszczona jako całkowicie osobne narzędzie, do którego trzeba będzie dokupywać osobną subskrypcję?

W Kaizen Ads (カイゼンアッズ)
AI występuje nie tylko w naszej nazwie 🙂

Zapraszamy do śledzenia naszej nowej Serii:

愛とAI – “Ai to AI” – w wolnym tłumaczeniu “Z miłości do AI”

 

Jeśli zastanawiasz się jak wdrożyć AI do swojego biznesu lub chcesz żebyśmy przeprowadzili dla Ciebie szkolenie z ChatGPT, Midjourney i innych narzędzi opartych o sztuczną inteligencję daj znać.

Wyślij wiadomość

kontakt@kaizenads.pl

Zadzwoń:

+48 881 228 124

Autor

Author avatar
Jeremiasz Krok
AI Specialist

Komentarz specjalisty

Zostaw komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *