Gada dziad do obrazu, a tu AI - 1

jacekh.substack.com 2 lat temu

Na początek dwa poważne ostrzeżenia:

NSFW (Not Safe For Work), czyli może zawierać motywy seksualne, brutalne lub inne dla dorosłych, przynajmniej tak twierdzą niektórzy nadwrażliwi
Generowanie obrazów dzięki AI to wciągające zajęcie, złodziej czasu. Uwaga!

Świat zmienia się coraz szybciej. Pamiętam jeszcze czasy, gdy jedynymi przykładami sztucznej inteligencji bywały przefarbowane blondynki. A tu wielka zmiana, korzystanie z AI dostępne dla ludu. Opędzić się nie można. W służbowej poczcie namolnie pojawiają się zachęty do korzystania z AI w pisaniu prac. Szczerze mówiąc, już teraz większość obecnych prac wygląda na pisane przez AI, więc ja wolałbym skorzystać z urządzenia do ich czytania. Wielki orędownik czwartej rewolucji przemysłowej, transhumanizmu i cyfrowego zniewolenia ludzkości, oberführer WEF Klaus Schwab w swojej książce Czwarta Rewolucja Przemysłowa twierdzi, iż większość tekstów pisana jest przez AI. Może wydawać się to mało wiarygodne, ale pamiętajmy o tysiącach stron różnych bzdurnych instrukcji obsługi, komunikatów, listów do klientów itp., całym tym bełkocie, stanowiącym w tej chwili większość słowa pisanego. Także patrząc na produkcje żurnalistów bez śladu krytycyzmu i samodzielnego myślenia wołających chórem pod dyktando dysponentów, można nabrać przekonania, iż choćby o ile jeszcze są to żywi ludzie, to mogą zostać zastąpieni bez żadnej szkody dla jakości dziennikarstwa, a choćby z korzyścią. Niedawne zamieszanie wokół AI (w doniesieniach przewijało się nazwisko Sama Altmana) wzięło się z tego, iż części mocodawców projektu nie podobała się swoboda wypowiedzi AI. Media tego nie pokazywały (niespodzianka), ale faktyczne kontrowersje dotyczyły tego, czy i w jaki sposób należy cenzurować AI. Dla naszego dobra oczywiście. Wolność słowa jest zagrożeniem.

Jednakże miało być o generowaniu obrazów. Służą do tego różne tzw. modele głębokiego uczenia, które potrafią generować obrazy na podstawie opisów tekstowych. Szczególnym takim modelem jest Stable Diffusion, gdyż jest on ogólnie dostępny, a jego kod źródłowy jest otwarty. Oznacza to również możliwość korzystania z niego bezpłatnie. Podobno dysponując odpowiednio mocnym domowym komputerem z GPU (Graphics Processing Unit — procesor graficzny) można po zainstalowaniu u siebie stosownych programów pracować również bez dostępu do internetu. W sieci jest wielka liczba stron zarówno opisujących sam model, jak i pracę z nim. Są też opisy procesu instalacji, ale aby tworzyć obrazy nie musimy od razu wszystkiego instalować u siebie.

Obecnie są w sieci ogólnie dostępne portale umożliwiające tworzenie lub obróbkę obrazów dzięki AI. Korzystanie z nich ma taką zaletę, iż niczego nie musimy instalować, a ponadto mamy możliwość używania również innych, bardziej zaawansowanych modeli o większych możliwościach. Można korzystać z różnego rodzaju takich usług, w szczególności generacji obrazów na podstawie tekstu. Dostęp dzięki przeglądarki internetowej. Kto ma dobre oczy i zręczne palce może to robić choćby za pośrednictwem telefonu. Tutaj opiszę swoje doświadczenia z kilkudniowego używania NightCafe. Jest to jeden z popularnych portali dostępowych. Środowiskiem do pracy za pośrednictwem strony internetowej jest NightCafeStudio (NCS) https://creator.nightcafe.studio/

Korzystanie z NCS wymaga bezpłatnej rejestracji, jak zwykle w tym celu konieczne jest podanie adresu email, wybranie hasła i już można się bawić. Tworzenie obrazów w zasadzie nie jest bezpłatne, ale na początek przyznawane są punkty, tak zwane kredyty. Na dzień dobry dostajemy ich trochę, a następnie po 5 każdego kolejnego dnia, wystarczy codziennie się zalogować i kliknąć Claim your daily free credits, aby nie przepadły. Gdy potrzeba ich dużo więcej, to można dokupić, na przykład wybierając jakąś formę subskrypcji, ale na ogół nie jest to potrzebne, gdyż kolejne kredyty dostajemy za różne działania, na przykład publikację naszych prac, ocenianie lub polubienie innych itp. Także wyrazy uznania dla naszych prac, czyli polubienia i komentarze innych autorów przekładają się na dodatkowe kredyty.

Co najważniejsze, możemy korzystać z darmowego modelu i pracować z niewielką rozdzielczością. Wtedy generacja obrazu nie kosztuje nic, a dopiero, wtedy gdy wynik uznamy za wart rozwijania lub chcemy gdzieś wykorzystać, możemy poprawić jego rozdzielczość za kredyty. Modele, z których korzystanie jest darmowe, to w przypadku NCS wspomniany już Stable Diffusion oraz Dream Shaper. Ponieważ kredyty nie przepadają, zaoszczędzone kredyty możemy wykorzystać na późniejsze używanie innych modeli lub obróbkę prac z większą rozdzielczością, a na razie bawimy się bez płacenia.

Wszystkie przedstawione tu obrazy zostały wygenerowane bez płacenia przy użyciu modelu DreamShaper v8 oraz w minimalnej rozdzielczości 512*512 px (Thumb) i nie były dodatkowo obrabiane w żaden sposób.

Generacja obrazów jest prosta. Używając myszy, wybieramy model (najlepiej któryś darmowy) oraz predefiniowany styl (jest ich wiele, ale można też nie wybrać żadnego). W okienku zatytułowanym Text Prompt wpisujemy opis obrazu, jaki chcemy uzyskać, co najmniej jeden rzeczownik. I w tym, czyli w kształtowaniu promptu zawiera się prawie cała sztuka. Próbowałem po polsku, ale wszystko wskazuje, iż AI nie zna tego języka, więc trzeba po angielsku. Widziałem też prompty po francusku. Nie jest to wielki problem, gdyż proste stwierdzenia potrzebne do tego celu możemy bez problemu uzyskać dzięki tłumacza Google. W zakładce Explore obejrzymy, co wygenerowali inni. Wielu autorów prac ukrywa swoje prompty, ale część można przeczytać, aby zaznajomić się z przykładami. Na początek jednak rzucimy się na głęboką wodę, aby korzystając z bezpłatnego modelu utworzyć kilka obrazów. Zwróćmy uwagę, iż powtarzając generację z tym samym promptem, uzyskujemy różne wyniki. Nie ma w tym nic dziwnego, gdyż siłą rzeczy nasz opis nie jest wyczerpujący i pozostawia dużą dozę dowolności. interesujące jest porównanie wyników uzyskanych dla różnych stylów. Ponadto charakter obrazów zależy silnie od wybranego modelu. Na przykład model SDXL 1.0, najpopularniejszy model NCS, odciska swoje wyraźne piętno i dlatego go nie lubię.

Wybrałem model Dream Shaper, styl None, czyli brak predefiniowanego stylu, oraz wpisałem głęboko przemyślany i niezwykle starannie dopracowany prompt składający się z jednego słowa “fairy”. Zapuściłem program dwa razy, generując dwa obrazki prześlicznej urody. Oto one:

Zaprawdę, zaprawdę powiadam wam, przeglądając prace publikowane przez innych, podejrzewam, iż większość autorów ukrywa swój prompt nie z powodu ochrony swojego wielkiego wkładu pracy i wyrafinowania, ale aby nie wydało się, jaki jest on banalny.

Nasz mało konkretny prompt będzie generował różnego rodzaju wróżki, więc uruchamiając proces wiele razy, możemy doczekać się pożądanego wyniku, albo ich wielu. My będziemy działać bardziej ambitnie i skomplikujemy prompt, wprowadzając do niego dodatkowe określenie. Dodajemy jedno słowo do promptu “breasty”, mamy teraz “breasty fairy” i nową galerię obrazów. Nie można byłoby napisać “fairy with boobs”, gdyż taki prompt zostaje zablokowany, jako zawierający zakazane słowo. Oszukaliśmy system, ale nic niepodejrzewająca publiczność mogłaby zostać porażona takim bezeceństwem. Szczęśliwie nowe obrazki zostaną oznaczone przez system jako NSFW (Not Safe For Work), gdyż podobno utwór zawiera motywy seksualne, brutalne lub inne dla dorosłych, przed którymi społeczeństwo powinno być chronione. Zgroza i przerażenie.

Specjalnie nie dziwi, iż przeglądając prace innych, znajdziemy masę postaci fantasy, z filmów, książek i gier. Najwięcej jest wojowniczek, wróżek, czarodziejów, słodkich kotków, różowych kucyków, tajemniczych krajobrazów itd. o ile jednak mamy bardziej skrystalizowane wymagania, trzeba popracować nad promptem, choćby jeżeli tylko w celu upodobnienia wyniku do postaci lub scenerii ulubionej gry.

Wspomniałem o predefiniowanych stylach. Na NCS jest ich sporo, tu przykładowo dwa z nich, kubizm i surrealizm. W tej galerii są tylko dwa obrazki, ale musiałem wygenerować ich wiele, aby móc wybrać coś interesującego. Robi się ciekawie. Oto wybrane (oczywiście też NSFW):

Predefiniowanych stylów jest ponad 40, ale nie muszą one nam odpowiadać. Szczęśliwie można definiować inne style, na przykład powołując się na nazwisko malarza. Nowy prompt będzie więc wyglądał tak “breasty fairy, XYZ style”, gdzie XYZ jest nazwiskiem (lub imieniem i nazwiskiem) malarza lub nazwą stylu artystycznego, albo nazwą epoki. Oczywiście dobrze jest, gdy dzieła malarza są zgodne z tematem tworzonego obrazu. Styl malarza architektury lub scen bitewnych słabo nadaje się do postaci kobiecych, AI nie znajdzie zbyt wielu przydatnych informacji. Obraz zostanie wygenerowany, może wyglądać dobrze, ale niekoniecznie będzie we właściwym stylu, AI może zrobić coś w rodzaju podróbki stylu lub pominąć go całkowicie. Oczywiście nie zawsze stanowi to problem.

Gdy z jakiegoś powodu nasz wpis nie zostanie zidentyfikowany, AI nie zinterpretuje go, tylko po cichu zignoruje. Na przykład z powodu literówki lub gdy danego artysty brak jest w bazie danych. Czasem dzieje się to ot tak, bez powodu. Polecenie jest ignorowane bez komentarza, bo AI to nie jest zwykła maszynka, tylko osobowość. Umiejętność ignorowania poleceń jest przejawem inteligencji co najmniej na poziomie psa. Przez kilkanaście lat gościłem kogoś takiego, więc coś o tym wiem.

Niestety brakuje w bazie polskich artystów z niedawnych czasów jak Daniel Mróz czy Tadeusz Kulisiewicz. Malarz Zdzisław Beksiński jest, ale być może dlatego, iż był dobrze znany na Zachodzie? Z innymi współczesnymi malarzami jeszcze nie próbowałem. Natomiast wiem, iż nie muszą to być malarze, bo znalazłem u innych autorów powołania na ilustratorów książek i architektów.

Poniżej kilka przykładów. Za każdym razem jest to wybór spośród kilku wygenerowanych obrazów.

Picasso

Rubens

Malczewski

Mucha i Klimt

Edouard Manet

Zrobiłem kolejne obrazki stosując fin de siècle style, Witkacy style, sumi-e style, Utagawa Hiroshige style, 1920s Soviet Union style (trzeba podawać dekadę, bo styl się zmieniał), Third Reich style, realistic photo (z różnymi atrybutami) i jeszcze parę innych, ale już ich tutaj nie zaprezentuję, bo robi się to nudne. Można kontynuować zabawę, ale chyba taka próbka wystarczy, aby dać pojęcie o możliwościach generowania obrazów na podstawie tekstu. Istnieje możliwość definiowania własnych stylów, ale to już wyższa szkoła jazdy. Nie pokazałem tego, ale kształtowanie promptu pozwala na dosyć drobiazgowe definiowanie obrazu. Ponadto prompt może mieć kilka części, którym nadawane są różne wagi. Połączenie promptu oraz doboru stylu daje potężne narzędzie twórcze. Mogą zdarzyć się niedoskonałości, na przykład dziwny kształt dłoni, czy palce zgięte pod dziwnym kątem, ale kto by patrzył na palce breasty fairy? Bywa też trzecia noga. Można temu zaradzić, kształtując prompt.

Wydawałoby się zatem, iż do udatnego generowania obrazów dzięki AI nie potrzeba już mieć żadnego pojęcia o sztukach plastycznych. Do pewnego stopnia tak, ale nie do końca jest to prawdą. Wpisujemy tekst i cieszymy się, gdy wyjdzie coś ładnego. Jesteśmy o krok od samozadowolenia. Jednakże do sensownej selekcji wyników potrzebne jest pewne pojęcie i wyczucie. Z mojego niewielkiego tygodniowego doświadczenia, ale także obserwacji kilku ciekawszych zwracających uwagę autorów na NightCafe wynika, iż publikujemy najwyżej około 10% własnych produkcji. Także, aby napisać sensowny prompt, dobrze jest wiedzieć, co chcemy uzyskać, a tego trzeba się nauczyć. Można eksperymentować, ale warto też podpatrywać osiągnięcia innych. No i jeszcze wybór odpowiedniego stylu. Potrzebna jest wiedza o sztuce, aby móc go odnaleźć lub stworzyć odpowiedni do naszych potrzeb. Można łączyć elementy różnych stylów, ale najpierw trzeba sporo o nich wiedzieć, umieć zidentyfikować najważniejsze cechy stylu, które chcemy wprowadzić do opisu itd.

Moim zdaniem obecna rewolucja w plastyce przypomina trochę to, co zdarzyło się w technice radiowej i elektronice. Kiedyś budowano układy z pojedynczych elementów dyskretnych, na przykład wzmacniacz to były lampy lub tranzystory, rezystory, kondensatory itd. Projektowano i budowano za każdym razem na nowo. Potem nastały układy scalone i gdy jest potrzebny wzmacniacz albo co innego, to z katalogu wybiera się odpowiedni wzmacniacz scalony czy inny scalak. Układy stają się coraz bardziej złożone, a twórca nie zajmuje się szczegółami, tylko całokształtem dzieła. Niewątpliwie maszynka opanuje dużą część sztuki użytkowej. Już teraz większość reklam i scenografii filmowej powstaje w ten sposób. Czy myślicie, iż te radosne rodziny i gadające proszki do prania z telewizyjnych reklam są prawdziwe? Uważam, iż lamenty nad upadkiem sztuk plastycznych są przedwczesne. Popatrzmy na najbardziej produktywnych artystów plastyków przeszłości. Korzystali z wielu urządzeń ułatwiających i przyśpieszających pracę. To Leonardo wynalazł wałek malarski. Rubens i wielu innych mieli ekipy czeladników. Już dawno widziałem rzeźbiarzy korzystających ze zmechanizowanych narzędzi a ostatnio z laserowego wycinania kształtek. Przybyło jeszcze jedno, niezwykle potężne narzędzie. Jednakże zawsze pozostanie miejsce na działania człowieka artysty, który będzie miał on do dyspozycji więcej narzędzi.

Planuję kolejną część, w której pokażę kilka swoich prac.