Istorija nauke se može proučavati u ključu pomeranja čoveka iz centralnog položaja. Prvo smo shvatili da – doslovno i figurativno –nismo centar univerzuma jer smo prethodno utvrdili da se planete našeg planetarnog sistema okreću oko Sunca, a ne Zemlje. Potom smo izgubili i centralni položaj u prirodi kad smo uvideli da smo samo deo evolucionog lanca, samo jedan od mnogobrojnih primata i sisara sa kojima delimo zajedničkog pretka.
U poslednjih nekoliko decenija izgleda da nam se tlo pod nogama ozbiljno i zastrašujuće trese. Ovog puta ćemo možda izgubiti i ono što nas je jedino činilo posebnim – sposobnost kreativnog korišćenja jezika, koja nedostaje (barem u ovako razvijenom, raznovrsnom i apstraktnom obliku) našim rođacima primatima. Za razliku od prethodnih istorijskih epizoda, kada smo „otkrivali“ da nismo u centru, čini se da se sada sami odričemo naše posebnosti praveći veštačku inteligenciju koja može da nam parira ili bi, u nekoj dalekoj budućnosti, mogla da nas čak i prevaziđe. Šta će, dakle, ostati od čoveka i autentično ljudskog u indiferentnom univerzumu, surovoj i hostilnoj prirodi, i sve kompleksnijem društvu?
Zabrinutost nad razvojem veštačke inteligencije je, u principu, stara vest. Zabrinutost nad uvođenjem mehanizovanosti u sferu ljudskog rada i života je, opet, stara koliko i Industrijska revolucija. Izvestan prezir ili neobuzdani entuzijazam prema mašinama u bilo kojoj formi je gotovo uvek prisutan – „progresivni“ tabor je ushićen promenama koje mašine donose, dok „konzervativci“ izražavaju nepoverenje bilo u promene bilo u mašine.
Tehnologija obrade prirodnog jezika podrazumeva upotrebu statističkih tehnika, poznatijih pod zbirnim nazivom algoritam dubokog učenja, putem kojih se klasifikuje gargantuovska količina podataka.
Mustra je dobro poznata i primenljiva i u slučaju novonastale pompe oko četbota iz kućne radinosti kompanije OpenAI, sada već ozloglašenog ChatGPT-ja. Ovaj četbot je pravi primer konverzacijske veštačke inteligencije i, budući da je upotreba besplatna, već se naširoko koristi u obrazovanju, nauci, videoigrama, ili u svrhe utoljavanja puke ljudske radoznalosti u pogledu toga kako izgleda „ćaskanje“ sa ChatGPT– jem. Cilj ovog članka je da sažeto informiše – kako „progresivce“ i „konzervativce“ tako i nesnađene u pogledu toga kom taboru da se priklone – kako čet-botovi zapravo funkcionišu i razgovaraju sa nama, te samim tim šta uopšte od njih možemo da očekujemo.
ŠTA JE OBRADA PRIRODNIH JEZIKA?
Čet-botovi počivaju na tehnologiji obrade prirodnog jezika (eng. natural language processing), a prirodnim jezikom se naziva bilo koji živi ili klasičan jezik kojim ljudi mogu da komuniciraju. Drugim rečima, čet-botovi predstavljaju konkretne implementacije velikih jezičkih modela (eng. large language models). Preciznije rečeno, ChatGPT je generativni, prethodno obučeni transformer (otud GPT u nazivu bota). Ukoliko mislite da ste čitanjem ovog članka već na dobrom putu da vas „ubije prejaka reč“, ne očajavajte, idemo redom sa objašnjavanjem.
Tehnologija obrade prirodnog jezika podrazumeva upotrebu statističkih tehnika, poznatijih pod zbirnim nazivom algoritam dubokog učenja, putem kojih se klasifikuje gargantuovska količina pre svega tekstualnih, ali katkad i auditivnih i/ili vizuelnih podataka u odnosu na to koji zadatak, to jest kakav izlazni rezultat nam je potreban od modela. Algoritam dubokog učenja se primenjuje u modelu na sledeći način: veštačka neuronska mreža, koja se sastoji iz velikog broja slojeva (otud „duboko“ u nazivu algoritma), a slojevi od jedinica koje imaju različite stepene aktivacije, uči kako da klasifikuje podatke. Kada želimo da proverimo koliko je model, to jest veštačka neuronska mreža, naučila, kao i to da li smo je dobro obučili, onda kao input koristimo nepoznate ili neprecizne podatke i poredimo izlazni rezultat sa onim rezultatima koje smo dobili tokom procesa obučavanja. Krajnji cilj nam je da veštačka neuronska mreža, bez imalo ili uz vrlo malo našeg nadgledanja, obavi određeni zadatak slično nama ili u skladu sa kriterijumima koje smo postavili.
Veliki jezički modeli, ne samo što počivaju na tehnologiji obrade prirodnih jezika, već sadrže i jednu tehnološku inovativnost na osnovu koje se, između ostalog, čini da je ChatGPT superiorniji od prethodnih čet-botova – specifičnu veštačku neuronsku mrežu pod nazivom transformer, koju su programeri razvili i počeli da koriste od 2017. godine. Transformer je, dakle, jedan od „friških“ tipova veštačke neuronske mreže putem kog je moguće obraditi sve tekstualne podatke u inputu odjednom, umesto reč po reč, i uz pomoć takozvanog mehanizma za obraćanje pažnje na kontekst u kom se određeni delovi takvog inputa javljaju. Obučavanje transformera unutar velikog jezičkog modela se odvija u dve faze. U prvoj fazi, koja se može nazvati „predobukom“, programeri „puštaju“ transformer da predvidi sledeću reč u tekstualnom korpusu koji je u inputu, da bi nakon toga podesili parametre tako da transformer odgovori na postavljeni zadatak, odnosno upotrebi prethodno „svareni“ input. Ovo nazivamo polunadgledano obučavanje. U potpunosti nenadgledano obučavanje veštačkih neuronskih mreža isključuje momenat podešavanja parametara, već se kroz niz iteracija model sam „uči“ vlastitoj parametrizaciji.
Međutim, kada konkretno implementiramo velike jezičke modele u četbotove, naše potrebe se menjaju u skladu sa ekonomskim i društvenim faktorima. Ovo se ogleda u specifičnom izboru načina obučavanja i podvrsta algoritma dubokog učenja. Najbolje rezultate ostvaruju oni veliki jezički modeli koji se podvrgavaju nadgledanom obučavanju, to jest kod kojih programeri i „šegrti“ programera direktno obeležavaju, ili anotiraju, skupove podataka, tako da je, prirodno, kompanija OpenAI odabrala upravo ovaj tip obučavanja kako bi realizovala viziju supe- riornog ChatGPT-ja, uz algoritam dubokog podstaknutog (eng. reinforcement) učenja pod nazivom „približna optimizacija polise“ (eng. Proximal Policy Optimization). Koje su društvene i ekonomske implikacije ovakvog metodološkog izbora?
Prvo, skup podataka na kome se ChatGPT obučava čini najrazličitiji sadržaj sa interneta, koji se ručno anotira. ChatGPT može da pruži odgovore na devedeset i pet svetskih jezika. Međutim, ovaj čet-bot nije i ne može biti podjednako uspešan prilikom obrade manje rasprostranjenih jezika u odnosu na obradu jezika koji imaju mnogo govornika. Da bi govornici ovih prvih imali podjednako „funkcionalnog“ čet-bota, potrebno je da postojeće baze i korpusi tekstualnih podataka na tom jeziku budu anotirani, što iziskuje i ozbiljnu finansijsku podršku, koju zemlje u razvoju i nerazvijene zemlje teško da mogu sebi da priušte u rangu sa zemljama Zapadne Evrope ili Sjedinjenim Američkim Državama. Dalji problem je što su među popisanih stotinak jezika u većini slučajeva službeni jezici nacionalnih država, ali ne i jezici specifičnih etničkih grupa, što samim tim znači da su smanjene vidljivost i uključenost takvih grupa. Primera radi, svahili, iako je čak službeni jezik više afričkih država i autohtoni jezik Podsaharske Afrike, usled nedostatka napravljenih tekstualnih korpusa nije deo baze znanja ChatGPT-ja, uprkos tome što ima „tričavih“ 20 miliona govornika.
Drugo, algoritam približne optimizacije polise je „fino podešavan“ direktnim uplivom ljudske aktivnosti. Naime, programeri su bili takoreći treneri ChatGPT-ju tako što su tumačili i ulogu korisnika i veštačke korisničke podrške, i potom podešavali format dijaloga kakav bi ChatGPT trebalo da vodi sa ljudima. Tako, jedna od često zameranih stvari ovom čet botu je upravo tendencija da pruža predugačke i racionalizovane odgovore kao nekakav… bot. To je, međutim, upravo format dijaloga naučen preko algoritma dubokog podstaknutog učenja: programeri su pozitivno afirmisali ovakav vid odgovora jer je, za njih barem, to bio pokazatelj da je čet-bot dobro „svario“ ogromnu količinu podataka. Naravno, ovakav vid obuke je veoma spor i, opet, veoma skup.
Uz to, ovolika količina ljudskog „petljanja“ u unutrašnji mehanizam četbota nas ostavlja sa pitanjem koliko su izlazni rezultati plod njegovog „razmišljanja“, a koliko našeg instruisanja? Da li su četbotovi nesavršeni odraz naših predrasuda ili se naprosto naš savršeni odraz ne može ni pronaći u veštačkoj inteligenciji?
ANTROPOCENTRIČNA ZABLUDA I ZALUDNA ANTROPOMORFIZACIJA
Američki filozof Kameron Bakner, jedan od prvih koji su se zainteresovali za filozofske implikacije dubokog učenja u kontekstu boljeg razumevanja naših viših kognitivnih sposobnosti, kao što su apstrahovanje ili razumevanje jezika, primetio je da su svi modeli bazirani na veštačkim neuronskim mrežama kritikovani na nekoliko predvidljivih načina. Zajednička nit koja povezuje sve četiri kritike je da modeli bazirani na veštačkim neuronskim mrežama ne obavljaju zadatke dovoljno uspešno da bi nam bili slični, to jest nisu dovoljno antropomorfni.
Recimo, gargantuovska količina podataka koja je potrebna da bi veliki jezički modeli uopšte mogli da se takmiče sa ljudima sugeriše već „na prvu loptu“ da su u pitanju „inferiorni“ modeli u odnosu na ljudsku kogniciju, budući da ljudi mogu da uče i na osnovu samo jednog relevantnog primera. Dalje, algoritmi dubokog podstaknutog učenja predstavljaju neprirodan način učenja: putem njih, veštačka neuronska mreža unutar modela ne uči da rešava zadatak, već kako da „krekuje“ sistem, to jest fiksira se na postizanje nagradnog signala koji se algoritmom podstiče svaki put kad tokom obuke neuronska mreža pruži ispravan rezultat. Prema tome, veštačke neuronske mreže ne razumeju zaista zadatak koji treba da obave i nedostaje im takoreći zdravorazumski pristup zadacima koje ljudi imaju.
Naposletku, ne samo što ne učimo na isti način i što postoji suštinska razlika u razumevanju toga što učimo, već kod veštačkih neuronskih mreža nije jasna ni veza između ulaznih podataka i izlaznog rezultata. Netransparentnost svih modela koji su bazirani na veštačkim neuronskim mrežama, samim tim uključujući i velike jezičke modele, izgleda problematično jer je nejasno kako modeli proizvode izlazne rezultate. Drugim rečima, ovi modeli su „crne kutije“ čije unutrašnje mehanizme ne možemo do kraja da razumemo imajući u vidu koliko slojeva i parametara se nalazi u veštačkim neuronskim mrežama koje se obučavaju putem algoritma dubokog učenja. Strukturno gledano, nema svrhe porediti unutrašnje mehanizme ljudske kognicije ili ljudski mozak sa time kako funkcionišu veštačke neuronske mreže – u samom startu reč je o dva nespojiva fenomena koji nisu nalik jedan drugom.
Sve ove opštije kritike, koje se tiču modela baziranih na veštačkim neuronskim mrežama, primenljive su i u slučaju konkretne implementacije takvih modela u oblasti obrade prirodnog jezika, to jest našeg ozloglašenog čet-bota. ChatGPT je obučavan putem 570 gigabajta podataka, transformer koji ga pokreće sadrži 175 miliona parametara i netransparentan je koliko i bilo koja veštačka neuronska mreža. Uz to, budući da počiva na dubokom podstaknutom algoritmu, ovaj čet-bot, prateći nagradni signal, često daje kao izlazni rezultat ubedljive rečenice koje su neistinite ili ne odgovaraju u potpunosti onome što je sadržaj pitanja. Veština ljudske konverzacije je, sudeći prema ovim očiglednim limitima, van domašaja ChatGPT-ja jer smo mi naprosto uspešniji da rekreiramo prirodnu konverzacionu situaciju, a ChatGPT naprosto nije dovoljno kao mi.
Da li su čet-botovi nesavršeni odraz naših predrasuda ili se naprosto naš savršeni odraz ne može ni pronaći u veštačkoj inteligenciji?
Srećom, Kameron Bakner nije filozof koji samo dijagnostikuje problem i klasifikuje tuđa stanovišta, već nudi i izlaz iz takvog dijalektičkog limba. Naime, Bakner smatra da je „krivac“ za prethodno opisane kritike zapravo antropocentrična zabluda koja ophrva filozofe i naučnike da pristrasno porede ponašanje modela veštačkih neuronskih mreža sa ljudskim ponašanjem. Zabluda leži u tome što se poređenje vrši prema uvećanoj, „superiornoj“, slici ljudskog ponašanja. Ovakva predrasuda je već obeležila decenije naučnog rada u komparativnoj psihologiji i kognitivnoj etologiji – ponašanje životinja se uvek tumačilo u odnosu na ljudsko i to tako što je tas vage uvek okrenut u našu korist. Isto se trenutno događa sa veštačkom inteligencijom.
Međutim, analizom psiholoških istraživanja, Bakner pokazuje da smo daleko od antropocentričnog ideala kakav bismo želeli da propagiramo. Ili, podsetimo se uvoda, Bakner nas zapravo suočava sa tim da ne zauzimamo (više?) centralni položaj. Tako, ljudi uče takođe na osnovu ogromnog broja podataka – ako imamo u vidu sva različita pojavljivanja slova, reči, zvukova, tačke gledanja u odnosu na koje posmatramo predmete. Sve ovo se potom pohranjuje u naše pamćenje, odakle može da se prizove po potrebi.
Dalje, i ljudi takođe „krekuju sistem“ i češće jure „nagradni signal“ nego što pokušavaju da razumeju zadatak koji obavljaju, o čemu svedoče studije o tome kako se ljudi ponašaju tokom igranja onlajn videoigara u okviru kojih tumače specifične uloge. Najzad, i ljudi su „crne kutije“ kada je reč o donošenju odluka: socijalni psiholozi su utvrdili da postoji diskrepancija između racionalizacije koju sprovodimo nakon donesene odluke i kauzalnih faktora koji su zapravo uticali na donošenje odluke, jer se pritom vodimo društveno oblikovanim razlozima kao što su prihvatljivost, promovisanje pozitivne slike o sebi, i slično.
Dakle, svaki pokušaj antropomorfizacije modela veštačkih neuronskih mreža, uključujući velike jezičke modele, ispadne da je zaludan posao budući da našeg savršenog odraza – u odnosu na koji se procenjuju kapaciteti modela – nema. S druge strane, ove modele bi pre trebalo posmatrati kao odraze naših predrasuda i nesavršenosti. Ted Ćang, pisac naučne fantastike, koji često inspiraciju pronalazi u veštačkoj inteligenciji i naprednim tehnologijama, u autorskom tekstu za „Njujorker“ opisuje ChatGPT kao mutnu sliku sveg sadržaja na internetu koja se potom „kompresuje“ tako da se na privatni server pohrane sve tekstualne informacije do kojih nam je stalo kako ne bismo „izgubili“ internet. Kada bismo pokušali da rekonstruišemo „originalni“ internet na osnovu „kompresovanog“ sadržaja, suočili bismo se upravo sa nefiltriranim vlastitim nesavršenostima i predrasudama. Statističke regularnosti „kompresovanog“ sadržaja pokazuju do koje mere je ono što mi ostavljamo u tekstualnoj formi na internetu neprecizno, neprovereno, neozbiljno, a nekada čak i toksično.
EMPIRISTIČKA REVOLUCIJA NA POZADINI BESMRTNOG RACIONALIZMA
Pa ipak, ne možemo da se otmemo utisku da mora biti nečeg autentično ljudskog u razumevanju jezika, nečega što mora izmicati bilo kom četbotu. Ovo je intuicija koju su delili i filozof Rene Dekart i lingvista Noam Čomski, iako ih deli tri veka, kao i mnogi savremeni „konzervativci“. Dekart je smatrao da sve i kad bismo konstruisali mašinu koja bi mogla savršeno da nas imitira, takva „skalamerija“ nikada ne bi mogla da kreativno koristi jezik. Za Čomskog, začetnika transformacionogenerativne gramatike, razlikovanje jezičke kompetencije od jezičkog ponašanja isključuje svaku mogućnost da modeli veštačkih neuronskih mreža ovladavaju jezikom kao mi. Jezička kompetencija podrazumeva da smo svi „obdareni“ skupom urođenih pravila koji omogućava deci da ovladaju maternjim jezikom u rekordnom roku uprkos tome što su nadražaji iz okoline neretko pogrešni, neprecizni, neredovni ili nedovoljni. Ovaj argument se naziva argument osiromašenog stimulusa, i podseća upravo na racionalizam Renea Dekarta, to jest stanovište da imamo urođene ideje bez kojih ne bi moglo biti moguće „zauzdati“ sve ono što primamo preko čula.
Vodeća ideja programera koji razvijaju obradu prirodnog jezika preko algoritma dubokog učenja i veštačkih neuronskih mreža, kao što su transformeri, jeste da treba pružiti šansu empirizmu – stanovištu suprotnom racionalizmu, prema kom je iskustvo ključ za učenje i oblikovanje kognitivnih procesa pre nego uro đena pravila. Veštačke neuronske mreže mahom uče na način koji se može opisati kao empiristički, s obzirom na to da na osnovu velikog broja podataka uče da formiraju šablone koji služe kao izlazni rezultat. Možda sada deluje kontraintuitivno, imajući u vidu pompu oko ChatGPT-ja, ali modeli veštačke neuronske mreže su „crne ovce“ isprepletane istorije lingvistike, veštačke inteligencije, i kognitivne nauke i psihologije u dvadesetom veku, i to pre svega modeli za obradu prirodnog jezika.
„Ako četrnaestogodišnje dete može da pokaže na predmete na koje se odnose određene imenice na italijanskom jeziku, da prevodi rečenice tog jezika na neki drugi, sumira niz dokumenata napisanih na italijanskom, ali jedino ima problema sa izvesnim logičkim relacijama, da li biste bili skloni da kažete da dete zapravo ne zna italijanski?“
Od 1958. do početka sedamdesetih godina dvadesetog veka, u periodu najvećeg uticaja Noama Čomskog, delovalo je prirodno da modeli putem kojih će se obraditi prirodni jezik i sami moraju biti strukturirani onako kako je i sam jezik – dakle, pravila moraju biti u prvom planu. Prvi modeli obrade prirodnog jezika su, stoga, bili simbolički: na osnovu ručno kodi- ranih pravila, modelom se obrađivala sintaksička struktura određenih rečenica u manjim korpusima, što bi dalje obezbedilo automatizaciju prevoda sa jednog jezika na drugi. Cilj je bio da se predvidi da li su rečenice u korpusu gramatične ili negramatične, i da se potom favorizuje formiranje gramatičnih rečenica. Jedan od prvih četbotova, ELIZA, zasnivao se na simboličkom modelu obrade prirodnog jezika i stvarao je utisak razgovora sa psihoterapeutom. Popularno poređenje ovog četbota sa ChatGPT– jem je problematično baš zbog metodologije – modeli veštačkih neuronskih mreža stupaju na scenu nakon konstruisanja četbota ELIZA i u suprotnosti su sa svim pretpostavkama i implikacijama simboličkih modela.
Osamdesetih i devedesetih godina prošlog veka, stohastički ili statistički modeli veštačkih neuronskih mreža prave empirističku revoluciju u oblasti obrade prirodnog jezika jer, umesto ručno kodiranih mnogobrojnih pravila, ovi modeli uče na osnovu algoritma da predvide sledeću reč ili rečenicu u korpusu. Dvehiljaditih, napredak u dizajniranju različitih tipova neuronskih mreža omogućava i raznovrsnije obavljanje zadataka – grupisanje reči sličnog značenja, analizu diskursa, generisanje opisa slika.
Ono što je, međutim, poenta ove krajnje sažete istorije obrade prirodnog jezika je da su isti negativni stavovi prema našem ozloglašenom četbotu bili upućivani i stohastičkim modelima od samog momenta njihovog nastanka i upotrebe, kao i u svim narednim momentima njihovog razvoja. Takvim modelima se negira mogućnost da u principu razumeju jezik, odnosno da simuliraju našu semantičku kompetenciju. Razlog za to je upravo ona distinktivna karakteristika ovih modela – ambicija da se u potpunosti izbegnu unapred kodirana pravila. Jezik je hijerarhijski strukturiran fenomen koji nam je u dobroj meri urođen i bez gramatičkih pravila, na osnovu sirovih podataka iz sredine, i nije moguće dostići specifično ljudski semantički nivo.
Profesor na odeljenjima za informatiku i filozofiju Kopenhaškog univerziteta Anders Sogard tvrdi da stohastički modeli nisu bez semantike: reči koje se često pojavljuju zajedno u kontekstu, a koje detektuju stohastički modeli obrade prirodnog jezika, ujedno se koriste radi označavanja predmeta i fenomena koji se u našem iskustvu javljaju združeno. Drugim rečima, ako se pretpostavi da postoji izomorfizam između naših kognitivnih mapa i toga šta se i kako nalazi u svetu, onda se može pretpostaviti i da učestalost i konktekstualna uvezanost reči u korpusima preko kojih se obučavaju veštačke neuronske mreže ipak odražavaju semantiku. Kako Sogard, u naučnom radu od pre koji mesec, kaže: „Ako četrnaestogodišnje dete može da pokaže na predmete na koje se odnose određene imenice na italijanskom jeziku, da prevodi rečenice tog jezika na neki drugi, sumira niz dokumenata napisanih na italijanskom, ali jedino ima problema sa izvesnim logičkim relacijama, da li biste bili skloni da kažete da dete zapravo ne zna italijanski?“
Tekst je izvorno objavljen u 32. broju časopisa Elementi.
Vanja Subotić je istraživačica-saradnica na Institutu za filozofiju Filozofskog fakulteta Univerziteta u Beogradu. Bavi se filozofijom kognitivne nauke, filozofijom lingvistike, eksperi- mentalnom filozofijom i opštom metodologijom nauke. Trenutno završava doktorsku tezu na temu da li modeli zasnovani na algoritmu dubokog učenja (deep learning) – kao što su, recimo, veliki modeli procesiranja prirodnog jezika – mogu da pomognu u odgonetanju pitanja da li je jezičku kompetenciju bolje shvatiti kao urođenu ili stečenu.