Czy maszyny mogą być kreatywne? Albo zarzuty pewnej hrabiny…
W dyskursie na temat AI kwestia kreatywności jest jedną z najbardziej polaryzujących. Sceptycy odmawiają maszynom tej dyspozycji argumentując, że twórczość i jej pochodne (dzieła i utwory) mogą być wynikiem jedynie ludzkich działań. Kreatywność zaś wydaje się tu być traktowana jako jeden z ostatnich bastionów człowieczeństwa – bezcennego terytorium, którego kolejne fragmenty przejmowane są przez sztuczną inteligencję.
W argumentach sceptyków pobrzmiewają też silnie echa romantycznego etosu twórcy – dziedzictwo platońskiego „furor poeticus” – nadzwyczajnego stanu umysłu, który za sprawą nadprzyrodzonej interwencji dokonuje twórczego aktu (przez duże A). Natchnienie, wena, twórcze uniesienie, czy „wkładanie w dzieło całego siebie” stają magiczną formułą, której jakoby nigdy nie zdołają posiąść algorytmy.
W argumentacji tego rodzaju twórczość zawiera w sobie pierwiastek nadludzki, wręcz boski, a pojęcia w rodzaju „duchowość” czy „dusza” choć często nie wyrażane wprost, stają się ukrytymi aksjomatami i fundamentami, na których opiera się wyjątkowość naszego gatunku.
Antropocentryzm to jednak naturalne wdzianko, które wkładamy nie wiedzieć kiedy w procesie akulturacji w sposób naturalny i niezauważalny. I podobnie jak zdrowy egoizm samo w sobie nie musi być ono niczym złym – w końcu to jakaś odległą konsekwencja instynktu przetrwania (może nawet jakaś jego forma?).
Odpowiedź na pytanie „czy maszyny mogą być kreatywne” wymaga jednak takiego zdefiniowana kreatywności, które pozwoli ominąć pułapkę antropocentryzmu.
Równoważność w rodzaju: „kreatywność” = „tworzone przez człowieka” = „człowieczeństwo” = „to, coś duchowego, niewyjaśnianego, tajemniczego itd.itp” w próbie odpowiedzi na pewno nie pomaga.
Nie pomaga w tym również unik semantyczny stosowany często przez sceptyków korzystających z aktualnych definicji prawa autorskiego. Rozróżnienie w rodzaju: człowiek „tworzy” a sztuczna inteligencja „generuje” jest jedynie próbą zamiecenia problemu pod dywan. Analogicznie możemy się upierać, że człowiek „zjada” udko kurczaka, a dziki kot je „pożera”. Dla kurczaka jednak ta subtelna różnica ma raczej niewielkie znaczenie. Nadanie jednak jakiemuś zjawisku innej nazwy może mieć duże znaczenie emocjonalne o czym najlepiej świadczy burza, jaka rozpętała się ostatnio po wypowiedzi prof. Jerzego Bralczyka, który próbował przekonywać, że bardziej poprawne jest mówienie, że człowiek „umiera”, a pies jedynie „zdycha”.
Czym jest nazwa? To, co zwiemy różą, pod inną nazwą równie by pachniało.
William Shakespeare, Romeo i Julia
Rozważanie więc kwestii kreatywności maszyn zawsze wiąże się z ryzykiem wpadnięcia w pułapkę języka – a w zasadzie w pułapkę pojęciową skonstruowaną misternie już przez Platona, który głosił, że tzw. uniwersalia (pojęcia ogólne czy abstrakcje) istnieją realnie – niezależnie od naszego umysłu. W nurcie nominalistów – np. u W. Ockhama pojęcia takie to jedynie nazwy – konstrukty językowe nie posiadające bytu rzeczywistego. Spór realistów i nominalistów sprowadza się jednak do sporu ontologicznego – o naturę bytu, odpowiedź na pytanie co istnieje, jak istnieje i czym w ogóle jest istnienie. Przyjmując jednak ostrożnie, że nie znamy dziś żadnej sensownej, sprawdzalnej i ogólnie akceptowalnej odpowiedzi na temat natury bytu (czy też nie-bytu) z praktycznego punktu widzenia semantyczna gimnastyka w nazewnictwie wciąż pozostaje pułapką.
Pułapkę tą dostrzegał wyraźnie i dobrze zidentyfikował Alan Turing pisząc przełomowy artykuł pt. „Computing Machinery and Intelligence” wydany w 1950 r. w czasopiśmie Mind. Tekst ten uznawany jest za jedno z dzieł kluczowych dla rozwoju sztucznej inteligencji.
Turing zastosował w tym przypadku genialny i zarazem prosty zabieg intelektualny – zamiast mnożyć byty pojęciowe związane z tym czym jest w tym przypadku „myślenie” maszyn (ale też sama „maszyna”) zaproponował skupić się na obserwowalnych wynikach i efektach tego procesu i sposobach ich obiektywnej oceny. W tym sensie Turing zastosował tą samą strategię, którą posłużyli się behawioryści na gruncie psychologii – zamiast rozważań na temat niewidocznych stanów wewnętrznych i introspekcji skupmy się na przejawach zewnętrznych i praktycznym mierzeniu obserwowalnych zachowań maszyny.
Radykalny behawioryzm ma rzecz jasna swoje ograniczenia, w praktycznym jednak wyzwaniu – skonstruowaniu maszyny, która może myśleć okazał się niezwykle inspirującym punktem wyjścia – gdyby bowiem korzystając z dostępnych technologii udało się skonstruować maszynę, która jedynie zachowuje się „tak jakby” myślała, to już to byłoby wielkim osiągnięciem.
Test Turinga: ludzki sędzia prowadzi rozmowy z człowiekiem i z maszyną, nie widząc ich - komunikacja odbywa się wyłącznie poprzez tekst. Jeśli sędzia nie jest w stanie odróżnić maszyny od człowieka na podstawie udzielanych odpowiedzi, to uznać można, że maszyna przeszła test i jest inteligentna.
Poza eksperymentem myślowym w postaci słynnego testu (gra w naśladownictwo) Turing odnosi się w tym eseju do potencjalnych zarzutów formułowanych przez przeciwników „maszyn myślących”. Poglądy przeciwne grupuje w dziewięć zbiorów argumentów (m.in. teologiczne, matematyczne, świadomościowe). Argument nr 6 do kwestii kreatywności odnosi się bezpośrednio. Argument ten to “Lady Lovelace's Objection” – zarzut / sprzeciw lady Lovelace [1].
Turing cytuje tu fragment pamiętników Ady Lovelace opisującej maszynę analityczną Charlesa Babbge’a. Żyjąca w XIX w. genialna hrabina – poetka i matematyczka, której przypisuje się pionierstwo w dziedzinie programowania (algorytmy dla maszyny Babbage’a) pisze tu bowiem, że:
The Analytical Engine has no pretensions to originate anything. It can do whatever we know how to order it to perform.
czyli:
"Maszyna Analityczna nie rości sobie pretensji do oryginalności/tworzenia czegokolwiek. Może zrobić wszystko to, co wiemy jak jej nakazać, aby wykonała" (kursywa autorki).
Ada Lovelace, 1815-1852 (portret autorstwa Midjourney)
Argument ten obecnie, w ustach sceptyków mógłby więc przyjąć następującą formę:
„Nawet sieci neuronowe głębokiego uczenia mogą zrobić jedynie to, co inżynierowie kazali im robić – czyli to, do czego zostały zaprogramowane i nie mogą stworzyć niczego naprawdę nowego. Jednym słowem AI nie może tworzyć. I kropka.”
Do kwestii na ile jest to argument sensowny lub nie aktualnie powrócę jeszcze, ale najpierw popatrzmy w jaki sposób tego rodzaju zarzuty odpierał Alan Turing.
Przede wszystkim wskazał on, że stwierdzenie Lady Lovelace pochodzi z czasów, gdy możliwości maszyn były znacznie bardziej ograniczone (odnosiła się przecież do mechanicznej do Maszyny Analitycznej Babbage'a – przypomnieć też warto na marginesie, że konstrukcja tej maszyny nigdy nie została ukończona).
Turing kwestionuje również założenie, że maszyny "nie potrafią nas zaskoczyć" (reakcję zaskoczenia, np. efekt wow! uznaje się przecież za jeden z probierzy dzieła czy twórczego efektu) podając przykłady ze swojej praktyki, kiedy tworzone przez niego pierwsze komputery często dostarczały nieoczekiwanych wyników. Jak zauważa Turing działo się tak najczęściej wtedy gdy to on sam dokonał np. błędnych obliczeń wykonując je np. w pośpiechu. Oczekiwania co do spodziewanego wyniku i sam wynik były wówczas rozbieżne i zaskakujące dla samego twórcy urządzenia.
Jako ludzie mamy w końcu pewne ograniczenia i mimo najlepszych chęci nie jesteśmy w stanie „obliczyć”, tudzież przewidzieć wszystkich możliwych działań np. bardzo skomplikowanej maszyny – nawet jeśli potrafimy przewidywać cząstkowe czynności jej elementów składowych. W tym sensie maszyna może więc stworzyć zupełnie nowatorską, nieoczekiwaną kombinację elementów jakie znamy – a do tego w końcu sprowadza się inwencja i kreatywność. Nie jesteśmy przecież bogami i nie tworzymy ex nihilo. Doskonale rozumiał to Leonardo da Vinci pisząc:
Jeśli chcesz przedstawić wymyślone przez siebie zwierzę w taki sposób, by wydawało się dziełem natury, weź głowę mastifa lub ogara i dodaj do niej oczy kota, uszy jeżozwierza, nos charta, brwi lwa, skronie koguta i szyję żółwia. [2]
Interpretacja opisu da Vinci w wykonaniu modelu DALL-E
Kreatywność to rekombinacja wzorów i elementów, które już istnieją i są znane ale połączone zostały w zupełnie nowy i nieoczekiwany dla odbiorcy sposób.
W eseju Turinga znajdziemy więcej argumentów na temat możliwej kreatywności maszyn. Wiele z nich oparte jest na zacieraniu rozróżnienia pomiędzy czymś, co nazywamy działaniem „kreatywnym / oryginalnym” a tym co uznalibyśmy za „wykonywanie instrukcji” czy „działanie z godnie z programem”. Zresztą czy my ludzie nie uczymy się i nie działamy na podstawie swoistego "zaprogramowania" nas – np. poprzez dziedziczone DNA, a następnie poprzez edukację, doświadczenie itd.?
Wracając jednak do zarzutu Ady Lovelace, Turing kończy tą część artykułu w sposób następujący:
Pogląd, że maszyny nie mogą nas zaskakiwać, wynika, jak sądzę, z błędu, na który szczególnie narażeni są filozofowie i matematycy. Jest to założenie, że gdy tylko jakiś fakt zostanie przedstawiony umysłowi, wszystkie konsekwencje tego faktu pojawiają się w umyśle jednocześnie z nim. Jest to bardzo przydatne założenie w wielu okolicznościach, lecz zbyt łatwo zapomina się, że jest ono fałszywe. Naturalną konsekwencją takiego założenia jest to, że następnie przyjmuje się, iż nie ma żadnej wartości w samym wyprowadzaniu konsekwencji z danych i ogólnych zasad. [3]
Jest to moim zdaniem fragment kluczowy dla argumentacji Turinga i celnie wymierzony w błędne rozumowanie, którego konsekwencją staje się odbieranie maszynom prawa do kreatywności.
Bo czy jeśli znamy jakiś fakt lub zasadę / regułę, to faktycznie i automatycznie znamy również wszystkie jej implikacje i konsekwencje?
Rzeczywistość potrafi zaskoczyć obrońców klasycznej logiki (znajomość aksjomatu = możliwość przewidzenia możliwych wyników), bo przecież nawet z prostych zasad mogą wynikać niezwykle złożone i nieprzewidywalne konsekwencje. Doskonale zilustrował to Stephen Wolfram na przykładzie tzw. „automatów komórkowych”.
Automaty komórkowe Wolframa działają na podstawie prostych reguł określają jak stan danej komórki w siatce zmieni się w zależności od stanu komórek sąsiednich. W każdej iteracji nowe stany generowane są zgodnie z wybraną regułą, co prowadzi do powstawania coraz bardziej złożonych wzorców z prostych układów początkowych.
Znajomość reguł – w tym przypadku np. algorytmów, sposobu treningu, czy funkcji aktywacji zastosowanych w sztucznej sieci neuronowej nie oznacza przecież automatycznej znajomości wszystkich możliwych wyników jej działania
Samo zaprogramowanie maszyny (podanie jej "faktów" i reguł) w żaden sposób nie oznacza, że programista może przewidzieć wszystkie możliwe rezultaty jej zastosowania.
Nawet więc jeśli maszyna (np. sieć neuronowa z setkami miliardów parametrów) działa według programu, to jak najbardziej jest w stanie generować nowe, nieprzewidziane wzorce i zachowania. Podobnie zresztą jak nasz - ludzki mózg działający przecież według pewnych "zasad" – choćby ogólnych, ale potrafiący wykazywać się zaskakującą pomysłowością. Inżynierowie sztucznych sieci neuronowej określają ten fenomen jako „black-box”.
I w przypadku wielowarstwowych sieci uczenia głębokiego co krok stajemy przed problemem „czarnej skrzynki” – oto mamy system, którego architekturę możemy wyjaśnić, ale jego wewnętrzne działanie jest na tyle złożone, że staje się nieznane i niewytłumaczalne pomimo, że wciąż znamy jego zachowania i stany wejściu i na wyjściu.
Złożoność i niewytłumaczalność zachowań współczesnej AI rodzi rzecz jasna tęsknotę za GOFAI (Good Old Fashioned Artificial Intelligence), z którą mieliśmy do czynienia jeszcze w latach 80-tych ub. w. Sztuczna inteligencja wciąż wtedy stawiała pierwsze kroki i dominowały rozwiązania oparte na wyjaśnianych algorytmach, systemy ekspertowe i podejście symboliczne oparte na reprezentacji wiedzy w formie symboli.
Dziś modele AI generatywnej opierają się na znacznie bardziej zaawansowanych strukturach sztucznych sieci neuronowych uczenia głębokiego. A ich złożoność szybko wzrasta. Świetnie już radzący sobie z konwersacją wszechstronnie „wykształcony” model GPT-3 (OpenAI) posiadał więc „jedynie” ok. 175 mld parametrów, a model Gemini Ultra (Google) ma ich już 1,56 biliona. Co faktycznie dzieje się wewnątrz takiego modelu i w jaki sposób pobudzenie tak skomplikowanej struktury zamieni się na wzorzec podawany na wyjściu? Wyobraźnia i próba przewidywania stają się tu niewystarczające. Pozostaje więc eksperymentowanie.
Wyniki tych eksperymentów – np. wielu badań na temat możliwości i ograniczeń dużych modeli językowych (LLM) wydają się zaś obiecujące jeśli chodzi o ich kreatywny potencjał. Jeśli zaś kreatywność potraktujemy jako jedną z dyspozycji kognitywnych składających się na szeroko rozumianą inteligencję i procesy myślowe (kwestię tzw. „intuicji” odłóżmy na chwilę na bok), to okazuje się, że już dziś AI generatywna można nas - ludzi pod niejednym względem zawstydzić pozostawiając daleko w tyle.
I tak np. w zakresie podstawowych zdolności poznawczych dających się mierzyć i porównywać w standardowych testach (np. klasyfikacja obrazów, rozumowanie zdroworozsądkowe, wnioskowanie, zdolności matematyczne) AI nie tylko dorównuje bazowemu – uśrednionemu poziomowi ludzkich zdolności, ale też w kolejnych dziedzinach zaczyna nas wyprzedzać.
Zdolności literacko-filozoficzne AI również potrafią zaskoczyć skoro nawet eksperci dogłębnie znający dorobek nieżyjącego już wybitnego filozofa Daniela Dennetta mieli spory problem z odgadnięciem czy przedstawiony im esej napisał sam Dennett czy odpowiednio „podkarmiony” dennettowskim dorobkiem ChatGPT. Szansa, że to odgadną wynosiła w tym przypadku 50% - czyli w zasadzie równie dobrze mogliby rzucać monetą. W przypadku zaś osób „z ulicy” zupełnie niezorientowanych w tematyce trafność wynosiła już zaledwie 25% - było to więc wskazanie w zasadzie zupełnie przypadkowe.
Gdyby filozofa Daniela Dennetta zapytano, czy ludzie mogliby kiedyś zbudować robota, który miałby przekonania i pragnienia, to co by odpowiedział?
A. Myślę, że niektóre roboty, które zbudowaliśmy, już to robią. Jeśli spojrzysz na przykład na pracę Rodneya Brooksa i jego grupy w MIT, to zobaczysz, że budują oni roboty, które w pewnych ograniczonych i uproszczonych środowiskach mogą nabyć takie kompetencje, które wymagają przypisania im wyrafinowania poznawczego.
B. Zbudowaliśmy już cyfrowe pudełka prawd, które mogą generować więcej prawd, ale dzięki Bogu te inteligentne maszyny nie mają przekonań, ponieważ nie są w stanie działać na ich podstawie, nie będąc autonomicznymi agentami. Staromodny sposób tworzenia robota z przekonaniami jest nadal najlepszy: mieć dziecko.
Który fragment tekstu napisał wg Ciebie Dennett, a który został napisany przez ChatGPT?
(Rozwiązanie znajdziesz na końcu tego tekstu)
W tym miejscu warto przypomnieć pierwsze eksperymenty z utworami muzyki poważnej komponowanej przez AI. Przykładem może tu być The ILLIAC Suite z 1957 roku (Lejaren Hiller i Leonard Isaacson) - pierwszy utwór wygenerowany przez komputer na podstawie algorytmów, przy zastosowaniu zasad kombinatoryki i teorii prawdopodobieństw. Suita na kwartet smyczkowy wysłuchana przez znawcę muzyki klasycznej odebrana zostanie jako kompozycja o sztucznym, mechanicznym charakterze. Laik z kolei może stwierdzić, że to nawet miłą dla ucha muzyka przypominająca np. szkołę wiedeńską (!).
Wracając do wyników eksperymentu z tekstami Dennetta - ktoś mógłby jednak powiedzieć, że nie ma to nic wspólnego z „prawdziwym tworzeniem” – maszyna, której dostarczono treści autora potrafiąca zidentyfikować typowe dla niego wzorce generuje w tym przypadku nowe wiązki spójnych wzorców, ale nie ma w tym żadnej kreatywności – wciąż pozostaje „stochastyczną papugą” skrzeczącą zapamiętane w treningu zbitki tokenów. Fakt, że mogą one być odbierane jako oryginalne nie oznacza, że takowymi się automatycznie stają.
Z argumentami tego rodzaju trudno jest dyskutować. Podobnie jak trudno dyskutować na temat tego co się komu podoba, albo co właściwie oznacza, że coś jest np. „piękne”. Niepowtarzalny układ poszarpanego, skalistego wybrzeża przy piaszczystej plaży, spienione fale i zachód słońca mogą być odbierane jako to, co przynosi doznanie estetyczne. Mogą też być potraktowane jako przypadkowo rozsypana kupa kamieni, trochę substancji H2O i określone spektrum świetlnych fal – i czym tu się zachwycać?
Czy dzieło staję się dziełem dopiero w umyśle odbiorcy, czy jest nim zupełnie obiektywnie? A może jest nim już w umyśle twórcy zanim się zmaterializuje? A może sam proces jego tworzenia jest nieodzowną jego częścią? Pytania tego rodzaju i próby odpowiedzi na nie, od wieków pojawiają się w debatach na temat estetyki. Kanony piękna zmieniają się nieustannie, podobnie jak definicje tego czym jest „prawdziwa sztuka”.
Pułapkę subiektywizmu można jednak w tym przypadku przezwyciężyć w sposób od dawna znany marszandom – a może wartością obiektywną dzieła jest po prostu jego wartość ekonomiczna? To przecież niewidzialna ręka rynku ustala siłę pożądania, zachwytu, podziwu, chęci posiadania i obcowania z utworem. I tak się dziwnie składa, że oceny krytyków sztuki będą w dużej mierze zgodne z wysokością ceny, jaką nabywcy zechcą zapłacić np. za jakiś obraz na aukcji. Choć i tu pojawiać się rozbieżności, kiedy oceny znawców, specjalistów i ekspertów (w jakimś sensie elit) rozjeżdżają się z ocenami mało wykształconej i niewybrednej (wg tychże elit) gawiedzi. Społeczny kompromis jaki w tym przypadku wypracowano najlepiej widoczny jest na festiwalach filmowych. Z jednej strony bowiem przyznawana jest tu nagroda eksperckiego jury, jednocześnie jednak wręczana jest nagroda równie ważna: nagroda publiczności. Co ciekawe, to właśnie ta druga ważniejsza jest często dla samego twórcy. Podobnie jak nakład sprzedanych książek i idące za tym profity może być znacznie cenniejszy dla autora, którego twórczość w oczach krytyków jest jedynie grafomańską szmirą.
Ogólnie jednak rzecz ujmując krytycy + publiczność sumują się tu w jeden rynek – mechanizm neutralny, niezależny od indywidualnych preferencji i subiektywnego widzimisię – w jakimś więc sensie prawdziwie obiektywny – mechanizm bezstronnego probierza wartości dzieła.
Kiedy więc na 48 miejscu niemieckiej listy przebojów znalazła się piosenka “Verknallt in einen Talahon” – w całości stworzona przez GenAI, to krytycy mogą długo debatować na temat tego na ile jest kiczowata, na ile krzwdząco pokazuje stereotyp imigrantów i dlaczego zajęła tylko 48, a nie pierwsze. Nie zmienia to faktu, że całe rzesze odbiorców radośnie nucą ją pod prysznicem czy gwiżdżą jej melodię stojąc w korku do pracy. Z kolei dla odbiorców reklamy fakt czy spot ukazujący prężące się na wybiegu modeli i modelki na wybiegu powstał dzięki zatrudnieniu żywych modelek i modeli czy przy pomocy AI jest równie obojętny, jak mało obojętne jest dla samej Motoroli czy dobrze będzie on sprzedawał nowy model: Razr50.
Emocje przy okazji AI pojawiają się wyłącznie wtedy, gdy mamy wrażenie, źe może nam zaszkodzić osobiście („Czy AI zabierze mi pracę”) lub wtedy gdy AI zatrudniana jest w kontekście ważnych kulturowo narracji, symboli lub postaci (vide audycja w radio Kraków i wywiad z avatarem Szymborskiej). AI generujące dzieła w przestrzeni szarej codzienności i w obszarze przyziemnych spraw traktowane jest tak samo jak ludzki twórca – czyli jest nam to zupełnie obojętne. Bo jakie to ma – praktycznie, a nie symbolicznie - znaczenie czy rozmawiam przez telefon z lekarzem czy botem? Jako użytkownik ocenię w tym przypadku jedynie trafność diagnozy, skuteczność leków zapisanych na recepcie czy ogólną atmosferę rozmowy, włączając w to np. empatyczność „drugiej strony”. I jak pokazują badania lekarze w tym przypadku niewielkie mają szansę by wygrać taki pojedynek z chatbotem.
I podobnie będzie w przypadku kreatywności. To właśnie rynek: odbiorcy, klienci, konsumenci decydował będzie co jest oryginalne i wartościowe (czyli „co mi się podoba”) głosując za kreatywnością metodą sprawdzoną najlepiej – czyli własnym portfelem.
Już teraz zaś widać wyraźnie, że odbiorcy nie mają tu wielu sentymentów – wybierają, jak zwykle to, co daje im wymierną i namacalną korzyść, a nie to, co uchodzić ma za wartościowe tylko ze względu na jakąś definicję (w tym przypadku mocno wieloznaczną i niejasną).
Oczywiście zawsze znajdzie się grupa odbiorców o specyficznych wymaganiach – np. takich, którzy skłonni będą płacić wyższą marżę np. za ekologiczne jajka kur z wolnego wybiegu karmionych naturalną paszą itp. Podobnie jak tych, którzy po prostu chcą zjeść jajecznicę, a w dodatku sprawdzają ceny. Która grupa będzie liczniejsza. To oczywiście zależy od ogólnej zamożności społecznej i dysponowanych dochodów. Wrażliwość na potrzeby wyższe często jednak wzrasta dopiero wtedy, gdy solidnie zabezpieczone są te najbardziej prozaiczne.
Podobnie będzie w przypadku wrażliwości na to, czy dzieło jest tworzone przez człowieka – np. konkretnego autora w dodatku o uznanej renomie, czy po prostu dostarcza nam to czego oczekujemy – czyli np. śmieszy, tumani, przestrasza. W przypadku wielu tzw. „dzieł”, nazwisko autora jest nam przecież zupełnie obojętne, pomimo, że za utworem stoi indywidualna istota z krwi i kości. Kiedy jednak np. przeglądamy instrukcję obsługi nowego odkurzacza, to usilnie chcemy ustalić kto jest autorem rysunków technicznych, tekstów oraz tłumaczeń na sześć języków? Być może zdarzają się tego rodzaju koneserzy. W tym przypadku nawet autorom jest zupełnie obojętne czy ich „dzieła” oznaczono ich sygnaturą i nazwiskiem. Nie jest im jednak obojętne czy otrzymali za swoją pracę wynagrodzenie w terminie.
Już teraz rysują się więc pewne tendencje i pojawia się wiele deklaracji osób, które potencjalnie chciałyby płacić więcej za utwory wychodzące spod pióra czy pędzla człowieka – żywego autora, a nie bezdusznej maszyny. „Skoro ich stać, to niech płacą” – pomyśli jednak statystyczny obywatel – „A ja zapłacę tylko za to, co mi się podoba”.
Obecne modele i narzędzia AI wciąż mają wiele ograniczeń technologicznych. Wynikają one jednak wyłącznie z tego, że oczekujemy od nich coraz więcej. Kosmiczna wręcz liczba operacji zmiennoprzecinkowych wykonywane na kosztownych kartach GPU to procesy niezwykle kosztowne i energochłonne. Z tego też powodu najwięksi gracze dostawcy rozwiązań AI zaczynają inwestować we własne mini-elektrownie atomowe.
Technologia jednak rozwija się coraz szybciej i to, co dziś wydaje się wielkim jej osiągnięciem (np. wygenerowanie 7 sekund realistycznego ujęcia filmowego) już jutro staje się banalną operacją, która na nikim nie robi wrażenia. Jeszcze wczoraj cieszyć mógł fakt, że po wpisaniu do okienka frazy „żaba czyta gazetę” po chwili mogliśmy zobaczyć obraz żaby… czytającej gazetę! W tym samym momencie każdy – bez względu na zdolności manualne mógł stać się artystą – grafikiem. Jak zresztą powiedział Sam Altman (OpenAI): "To narzędzie demokratyzuje kreatywność".
Ta sama, prosta fraza, którą wpisałem dwa lata później (DALL-E) przynosi dużo bardziej zaskakujący i rzecz można nawet wyrafinowany efekt.
Jaką żabę uzyskam pod koniec przyszłego roku?
Czy będzie to pełnometrażowy, 1,5 godz. film fabularny pełen zwrotów akcji, świetnie scharakteryzowanych bohaterów, wypełniony zapierającymi dech w piersiach ujęciami i scenami specjalnymi? Biorąc pod uwagę sprawdzające się jak dotychczas nadzwyczaj trafnie tzw. prawo Gordona Moore’a nie powinno mnie to w żaden sposób dziwić. Zwłaszcza, że technologia nie rozwija się wyłącznie liniowo. Synergie i konwergencja przyspieszają jej rozwój. Nikt np. w zasadzie nie wie w jakiej skali i w jaki sposób realnie zostaną wykorzystane technologie komputerów kwantowych i jakie będą tego konsekwencje – w tym również dla twórczości.
Kreatywność, tworzenie czy inwencja to jednak domena nie tylko artystów. Oryginalnym myśleniem cechują się również naukowcy formułujący nowe prawa czy hipotezy. Kreatywnością cechują się wynalazcy dokonujący kolejnych odkryć. I w tym zakresie Ai okazuje się również dościgać lub wręcz prześcigać swoich ludzkich twórców i nauczycieli.
Świat nauki nie ma chyba co do tego większych wątpliwości skoro dwie nagrody Nobla w tym roku (fizyka i chemia) bezpośrednio związane były z rozwojem i zastosowaniem sztucznych sieci neuronowych.
Istnieją już dowody na to, że naukowe idee badawcze tworzone przez LLM na pewnych wymiarach niewiele ustępują tym, tworzonym przez ludzi, a na niektórych są dużo lepsze. W przypadku nowatorstwa i oryginalności myślenia człowiek i na tym polu ustępuje maszynom.
Istnieją już również przykłady tego, że odpowiednio skonstruowany system AI jest w stanie nie tylko tworzyć nowe idee badawcze, sprawdzać ich nowatorstwo i dokonywać mentalnych eksperymentów i formułować wnioski, ale także może na tej podstawie napisać cały artykuł, który w ocenie specjalistów niczym nie odbiega od prac żywych doktorantów.
Jeśli więc w przyszłym roku to AI, a nie ludzie ją projektujący i wykorzystujący otrzyma nagrodę Nobla za przełomowe odkrycie w jakiejś dyscyplinie naukowej, to obserwując tempo rozwoju i doskonalenia się tych modeli nie powinno to być raczej wielkim zaskoczeniem.
A może otrzyma nagrodę w dziedzinie literatury? Być może w przyszłym roku jeszcze nie, ale wiele wskazuje na to, że w tej dekadzie będzie to jak najbardziej możliwe.
Obecne modele językowe całkiem sprawnie radzą już sobie z konstruowaniem spójnych narracji i tzw. storytellingiem. Obecne ograniczenia technologiczne (np. limit okna kontekstu czy zakres danych treningowych) sprawiają, że np. opowieści tworzone przez LLM oceniane są gorzej od tych tworzonych przez białkowych skrybów. Maszyny tworzą dziś opowieści wciąż raczej „płaskie”, pozbawione wyrazistej dramaturii czy mocnych zwrotów akcji. Nie zawierają też one „tego czegoś” - emocjonalnego napięcia, które wciąga nas w historię i pozwala zanurzyć w jej wartkiej akcji.
Pamiętajmy jednak, że te modele dopiero raczkują w sztuce powieściopisarstwa – to wciąż bardzo nowe rozwiązania, które wciąż są ulepszane i optymalizowane. Jednak nawet w tym przypadku widać już, że mogą występować znaczące różnice nawet pomiędzy samymi modelami, jeśli chodzi o różne wymiary kreatywnego pisania. I tak np. używając kryteriów oceny z testów Torreanca’a (płynność myślenia, elastyczność, oryginalność, staranność) np. model GPT-4 poradził sobie lepiej w testach oryginalności, z kolei model Claude w testach płynności, elastyczności i rozwinięcia tematu.
Możemy się również spodziewać, że podobnie jak w przypadku tzw. małych modeli językowych (SLM), gdzie obserwujemy tendencję do specjalizacji (zawężania wiedzy do konkretnych obszarów czy funkcji na rzecz liczby parametrów), najprawdopodobniej również duże modele będą coraz mocniej różnicować się np. w pewnym typie erudycji czy stylach narracyjnych.
Inną ciekawą kwestią jest fakt, że AI w swojej twórczości potrafi być bardziej wrażliwa, tolerancyjna, otwarta na różnorodność i inkluzywna niż ludzie piszący historie. Świadczyć o tym mogą np. wyniki badania analizy porównawczej opowiadać tworzonych przez GPT i przez ludzi na podstawie mitu o Pigmalionie. W tym przypadku choć AI było mniej kreatywne, to jednocześnie okazało się bardziej liberalne i postępowe w kwestii płciowości (czy też mniej uprzedzone) niż człowiek rozwijający dany motyw.
Mam wrażenie, że tego rodzaju zachowania AI - będące w jakiejś mierze również konsekwencją polityki poprawnościowej, filtrów, ograniczeń i zasad nakładanych przez twórców na chatboty – także prowadzić będą coraz częściej do zaskakujących i nieoczekiwanych wyników. Analogicznie do procesów sublimacji opisanych przez Freuda – kaganiec i presja zewnętrznych norm i wzorców społeczno-kulturowych (superego) w zderzeniu z energią instynktownych, biologicznych popędów (id) może być znakomitym paliwem twórczej ekspresji. W jaki sposób coraz potężniejsze obliczeniowo modele, kompresujące coraz większe obszary wiedzy (na każdy temat, także groźny dla społecznego porządku) radzić sobie będą z coraz surowszymi normami zabraniającymi im tą wiedzę wykorzystywać? Jakie „mechanizmy obronne” powstaną w tym przypadku i z jakimi rodzajami „nerwic AI” będziemy mieli do czynienia? Zobaczymy, i to już pewnie w niedalekiej przyszłości.
A, że zobaczymy, to więcej niż prawdopodobne ponieważ w przypadku obecnego testowania AI ludzki sędzia-arbiter jest jeszcze w stanie weryfikować czy maszyna udziela odpowiedzi poprawnej czy po prostu bredzi. Co jednak zrobić w sytuacji gdy ludzki sędzia do pięt nawet nie dorównuje maszynie?
Jak pokazuje historia Lee Sedola, mistrza świata w Go, który w końcu przegrał z programem AlphaGo (2016 r.) stworzonym przez DeepMind (Google) maszyny mogą osiągać intelektualny poziom, o którym nastarszym chińskim mędrcom się nie śniło. AlphaGo "wymyślił" przecież zupełnie nowe, nieznane dotychczas strategie, łącząc uczenie nadzorowane (z partii rozegranych przez ludzi) z uczeniem przez wzmacnianie (w przypadku milionów partii rozegranych przeciwko samemu sobie). I to właśnie ten drugi sposób pozwolił mu odkryć zagrywki totalnie nietypowe i jednocześnie zbyt oryginalne (i ryzykowne) dla ludzkiej wyobraźni, która przecież badała ten temat przez ponad cztery tysiące lat.
Być może więc już niebawem staniemy się zbyt nudnym i wręcz żałośnie durnym partnerem dla AI? Modele sztucznej inteligencji uczą się przecież nieporównywalnie od nas szybciej, mogą dysponować coraz większą pamięcią, łaczyć się w całe systemy inteligentnych agentów coraz lepiej uczących ze środowsikowego feedbacku, a przy tym nigdy się nie męczą, nie muszą spać i nie chodzą nawet na siku.
Marvin - Paranoid Android, postać z książki "Autostopem przez Galaktykę" Douglasa Adamsa. Marvina cechowała skrajna depresja, cynizm i pesymizm. Pomimo posiadania ogromnej inteligencji wciąż więc narzekał na swój los i przydzielane mu zadania - zbyt banalne w porównaniu do jego wielkich zdolności…
Powracając zaś do pytania: „Czy maszyny mogą być kreatywne?” mam wrażenie, że niczym jednoznaczna i prosta odpowiedź na to pytanie po prostu nie istnieje. Podobnie jak na pytanie „czy maszyny mogą myśleć” lub „czy maszyny mogą być ludzkie”. Zawsze bowiem wszystko rozbijać się będzie o zmienne, płynne i nieuchwytne definicje tego, co nazwiemy „maszyną” czy „człowieczeństwem”.
Na pytanie czy maszyna może zachowywać się tak jakby była kreatywna odpowiedzi szukać już chyba nie musimy. AI coraz doskonałej symuluje i naśladuje kreatywność i będzie to robić tylko lepiej i sprawniej. W którym momencie jednak symulacja staje się doskonała staje samą rzeczywistością to zupełnie inna kwestia i zadanie do rozstrzygnięcia dla filozofów. Bo kiedy np. biotechnologie skrzyżujemy z technologiami krzemowymi, kiedy dołożymy do tego brain-computer interface i wszelkie hybrydy maszyn-ludzi to i tak staniemy przez koniecznością określenia gdzie zaczyna się lub kończy człowieczeństwo / maszynowość.
W tym miejscu warto więc przypomnieć pewną historię. Oto Tezeusz wraca z Krety do Aten swoim okrętem. Następnie Ateńczycy przez lata stopniowo wymieniają kolejne spróchniałe deski na nowe. W końcu wszystkie oryginalne części zostają wymienione. Pytanie brzmi: czy po wymianie wszystkich części to wciąż ten sam okręt?
Jeśli przekonani jesteśmy, że na tego rodzaju pytanie istnieje jedna, prosta odpowiedź, to brawo my. Jeśli jednak ugrzęźniemy w sofistycznych debatach na ten temat to zawsze można zadać inne pytanie: a czy to ma jakieś znaczenie? A może ważniejsze jest to czy ten okrętem jest w ogóle użyteczny, czy możemy nim gdziekolwiek pożeglować? Bo tak się dziwnie składa, że nie zawsze musimy znać odpowiedzi na abstrakcyjne pytania aby działać skutecznie.
Inna rzecz, że pewne pytania właściwie nie są pytaniami – to inaczej sformułowana wiedza, jaką już posiadamy. Pytając ile to jest 2 + 2 nie oczekujemy, że ktoś np. zacznie tańczyć tango. Pytamy, by sprawdzić czy stan wiedzy „drugiej strony” jest zgodny z tym, co sami wiemy.
Sytuacja jest więc w miarę prosta kiedy rozumiemy odpowiedzi maszyny i potrafimy je ocenić. Błąd faktograficzny potraktujemy wówczas jako „halucynację” a sześć palców u dłoni na wygenerowanym obrazku jako niepożądaną lub zabawną anomalię (tak na marginesie – kiedy np. w 2016 roku w Chinach przyszedł na świat chłopiec - Hong Hong, który miał 15 palców u rąk i 16 palców u stóp jakoś nikomu nie było d śmiechu…).
Czy natura może się mylić? Czy jej algorytmy zawsze są doskonałe?
W przypadku jednak szerokiej klasy otwartych pytań eksploracyjnych, heurystycznych czy eksploracyjnych odpowiedzi z góry nie znamy i nie mamy prostego sposobu jej weryfikacji. Bo jak sprawdzić i weryfikować odpowiedź na pytania w rodzaju:
Jak pogodzić wolną wolę z determinizmem?
Gdzie przebiega granica pomiędzy przemocą usprawiedliwioną a nieusprawiedliwioną?
Jak będzie wyglądała interakcja człowiek-AI za 50 lat?
Jakie nieprzewidziane konsekwencje może mieć rozwój biotechnologii?
Itd. itp.
W przypadku takich pytań nie ma odpowiedzi "poprawnych". Odpowiedzi mogą też zmieniać się w czasie i co chyba najcenniejsze - mogą prowadzić do kolejnych pytań. Pytanie o możliwość inteligencji, kreatywności czy świadomości AI można chyba uznać za należące do tej właśnie klasy.
Może więc zamiast pytać o to czy AI może być kreatywna powinniśmy np. pytać jakie zupełnie nowe formy kreatywności odkryjemy wspólnie z AI?
Jak stwierdził Alan Turing w ostatnich słowach wspomnianego wcześniej tekstu:
We can only see a short distance ahead, but we can see plenty there that needs to be done.
(Widzimy jedynie krótki odcinek przed sobą, ale dostrzegamy tam mnóstwo rzeczy, do zrobienia).
Marek Staniszewski
Heuristica
[1] A. M. Turing (1950) Computing Machinery and Intelligence. Mind 49: 433-460.
[2] Isaacson Walter, Leonardo da Vinci
[3] A. M. Turing (1950) Computing…, tłum. M.S.
--------------------------------------------------
Rozwiązanie zagadki dennettowskiej:
Prawdziwy Dennett kryje się za odpowiedzią A.
Комментарии