Историја науке се може проучавати у кључу померања човека из централног положаја. Прво смо схватили да – дословно и фигуративно –нисмо центар универзума јер смо претходно утврдили да се планете нашег планетарног система окрећу око Сунца, а не Земље. Потом смо изгубили и централни положај у природи кад смо увидели да смо само део еволуционог ланца, само један од многобројних примата и сисара са којима делимо заједничког претка.
У последњих неколико деценија изгледа да нам се тло под ногама озбиљно и застрашујуће тресе. Овог пута ћемо можда изгубити и оно што нас је једино чинило посебним – способност креативног коришћења језика, која недостаје (барем у овако развијеном, разноврсном и апстрактном облику) нашим рођацима приматима. За разлику од претходних историјских епизода, када смо „откривали“ да нисмо у центру, чини се да се сада сами одричемо наше посебности правећи вештачку интелигенцију која може да нам парира или би, у некој далекој будућности, могла да нас чак и превазиђе. Шта ће, дакле, остати од човека и аутентично људског у индиферентном универзуму, суровој и хостилној природи, и све комплекснијем друштву?
Забринутост над развојем вештачке интелигенције је, у принципу, стара вест. Забринутост над увођењем механизованости у сферу људског рада и живота је, опет, стара колико и Индустријска револуција. Известан презир или необуздани ентузијазам према машинама у било којој форми је готово увек присутан – „прогресивни“ табор је усхићен променама које машине доносе, док „конзервативци“ изражавају неповерење било у промене било у машине.
Технологија обраде природног језика подразумева употребу статистичких техника, познатијих под збирним називом алгоритам дубоког учења, путем којих се класификује гаргантуовска количина података.
Мустра је добро позната и применљива и у случају новонастале помпе око четбота из кућне радиности компаније OpenAI, сада већ озлоглашеног ChatGPT-ја. Овај четбот је прави пример конверзацијске вештачке интелигенције и, будући да је употреба бесплатна, већ се нашироко користи у образовању, науци, видеоиграма, или у сврхе утољавања пуке људске радозналости у погледу тога како изгледа „ћаскање“ са ChatGPT– јем. Циљ овог чланка је да сажето информише – како „прогресивце“ и „конзервативце“ тако и неснађене у погледу тога ком табору да се приклоне – како чет-ботови заправо функционишу и разговарају са нама, те самим тим шта уопште од њих можемо да очекујемо.
ШТА ЈЕ ОБРАДА ПРИРОДНИХ ЈЕЗИКА?
Чет-ботови почивају на технологији обраде природног језика (енг. natural language processing), a природним језиком се назива било који живи или класичан језик којим људи могу да комуницирају. Другим речима, чет-ботови представљају конкретне имплементације великих језичких модела (енг. large language models). Прецизније речено, ChatGPT је генеративни, претходно обучени трансформер (отуд GPT у називу бота). Уколико мислите да сте читањем овог чланка већ на добром путу да вас „убије прејака реч“, не очајавајте, идемо редом са објашњавањем.
Технологија обраде природног језика подразумева употребу статистичких техника, познатијих под збирним називом алгоритам дубоког учења, путем којих се класификује гаргантуовска количина пре свега текстуалних, али каткад и аудитивних и/или визуелних података у односу на то који задатак, то јест какав излазни резултат нам је потребан од модела. Алгоритам дубоког учења се примењује у моделу на следећи начин: вештачка неуронска мрежа, која се састоји из великог броја слојева (отуд „дубоко“ у називу алгоритма), а слојеви од јединица које имају различите степене активације, учи како да класификује податке. Када желимо да проверимо колико је модел, то јест вештачка неуронска мрежа, научила, као и то да ли смо је добро обучили, онда као инпут користимо непознате или непрецизне податке и поредимо излазни резултат са оним резултатима које смо добили током процеса обучавања. Крајњи циљ нам је да вештачка неуронска мрежа, без имало или уз врло мало нашег надгледања, обави одређени задатак слично нама или у складу са критеријумима које смо поставили.
Велики језички модели, не само што почивају на технологији обраде природних језика, већ садрже и једну технолошку иновативност на основу које се, између осталог, чини да је ChatGPT супериорнији од претходних чет-ботова – специфичну вештачку неуронску мрежу под називом трансформер, коју су програмери развили и почели да користе од 2017. године. Трансформер је, дакле, један од „фришких“ типова вештачке неуронске мреже путем ког је могуће обрадити све текстуалне податке у инпуту одједном, уместо реч по реч, и уз помоћ такозваног механизма за обраћање пажње на контекст у ком се одређени делови таквог инпута јављају. Обучавање трансформера унутар великог језичког модела се одвија у две фазе. У првој фази, која се може назвати „предобуком“, програмери „пуштају“ трансформер да предвиди следећу реч у текстуалном корпусу који је у инпуту, да би након тога подесили параметре тако да трансформер одговори на постављени задатак, односно употреби претходно „сварени“ инпут. Ово називамо полунадгледано обучавање. У потпуности ненадгледано обучавање вештачких неуронских мрежа искључује моменат подешавања параметара, већ се кроз низ итерација модел сам „учи“ властитој параметризацији.
Међутим, када конкретно имплементирамо велике језичке моделе у четботове, наше потребе се мењају у складу са економским и друштвеним факторима. Ово се огледа у специфичном избору начина обучавања и подврста алгоритма дубоког учења. Најбоље резултате остварују они велики језички модели који се подвргавају надгледаном обучавању, то јест код којих програмери и „шегрти“ програмера директно обележавају, или анотирају, скупове података, тако да је, природно, компанија OpenAI одабрала управо овај тип обучавања како би реализовалa визију супе- риорног ChatGPT-ја, уз алгоритам дубоког подстакнутог (енг. reinforcement) учења под називом „приближна оптимизација полисе“ (енг. Proximal Policy Optimization). Које су друштвене и економске импликације оваквог методолошког избора?
Прво, скуп података на коме се ChatGPT обучава чини најразличитији садржај са интернета, који се ручно анотира. ChatGPT може да пружи одговоре на деведесет и пет светских језика. Међутим, овај чет-бот није и не може бити подједнако успешан приликом обраде мање распрострањених језика у односу на обраду језика који имају много говорника. Да би говорници ових првих имали подједнако „функционалног“ чет-бота, потребно је да постојеће базе и корпуси текстуалних података на том језику буду анотирани, што изискује и озбиљну финансијску подршку, коју земље у развоју и неразвијене земље тешко да могу себи да приуште у рангу са земљама Западне Европе или Сједињеним Америчким Државама. Даљи проблем је што су међу пописаних стотинак језика у већини случајева службени језици националних држава, али не и језици специфичних етничких група, што самим тим значи да су смањене видљивост и укљученост таквих група. Примера ради, свахили, иако је чак службени језик више афричких држава и аутохтони језик Подсахарске Африке, услед недостатка направљених текстуалних корпуса није део базе знања ChatGPT-ја, упркос томе што има „тричавих“ 20 милиона говорника.
Друго, алгоритам приближне оптимизације полисе је „фино подешаван“ директним упливом људске активности. Наиме, програмери су били такорећи тренери ChatGPT-ју тако што су тумачили и улогу корисника и вештачке корисничке подршке, и потом подешавали формат дијалога какав би ChatGPT требало да води са људима. Тако, једна од често замераних ствари овом чет боту је управо тенденција да пружа предугачке и рационализоване одговоре као некакав… бот. То је, међутим, управо формат дијалога научен преко алгоритма дубоког подстакнутог учења: програмери су позитивно афирмисали овакав вид одговора јер је, за њих барем, то био показатељ да је чет-бот добро „сварио“ огромну количину података. Наравно, овакав вид обуке је веома спор и, опет, веома скуп.
Уз то, оволика количина људског „петљања“ у унутрашњи механизам четбота нас оставља са питањем колико су излазни резултати плод његовог „размишљања“, а колико нашег инструисања? Да ли су четботови несавршени одраз наших предрасуда или се напросто наш савршени одраз не може ни пронаћи у вештачкој интелигенцији?
АНТРОПОЦЕНТРИЧНА ЗАБЛУДА И ЗАЛУДНА АНТРОПОМОРФИЗАЦИЈА
Амерички филозоф Камерон Бакнер, један од првих који су се заинтересовали за филозофске импликације дубоког учења у контексту бољег разумевања наших виших когнитивних способности, као што су апстраховање или разумевање језика, приметио је да су сви модели базирани на вештачким неуронским мрежама критиковани на неколико предвидљивих начина. Заједничка нит која повезује све четири критике је да модели базирани на вештачким неуронским мрежама не обављају задатке довољно успешно да би нам били слични, то јест нису довољно антропоморфни.
Рецимо, гаргантуовска количина података која је потребна да би велики језички модели уопште могли да се такмиче са људима сугерише већ „на прву лопту“ да су у питању „инфериорни“ модели у односу на људску когницију, будући да људи могу да уче и на основу само једног релевантног примера. Даље, алгоритми дубоког подстакнутог учења представљају неприродан начин учења: путем њих, вештачка неуронска мрежа унутар модела не учи да решава задатак, већ како да „крекује“ систем, то јест фиксира се на постизање наградног сигнала који се алгоритмом подстиче сваки пут кад током обуке неуронска мрежа пружи исправан резултат. Према томе, вештачке неуронске мреже не разумеју заиста задатак који треба да обаве и недостаје им такорећи здраворазумски приступ задацима које људи имају.
Напослетку, не само што не учимо на исти начин и што постоји суштинска разлика у разумевању тога што учимо, већ код вештачких неуронских мрежа није јасна ни веза између улазних података и излазног резултата. Нетранспарентност свих модела који су базирани на вештачким неуронским мрежама, самим тим укључујући и велике језичке моделе, изгледа проблематично јер је нејасно како модели производе излазне резултате. Другим речима, ови модели су „црне кутије“ чије унутрашње механизме не можемо до краја да разумемо имајући у виду колико слојева и параметара се налази у вештачким неуронским мрежама које се обучавају путем алгоритма дубоког учења. Структурно гледано, нема сврхе поредити унутрашње механизме људске когниције или људски мозак са тиме како функционишу вештачке неуронске мреже – у самом старту реч је о два неспојива феномена који нису налик један другом.
Све ове општије критике, које се тичу модела базираних на вештачким неуронским мрежама, применљиве су и у случају конкретне имплементације таквих модела у области обраде природног језика, то јест нашег озлоглашеног чет-бота. ChatGPT је обучаван путем 570 гигабајта података, трансформер који га покреће садржи 175 милиона параметара и нетранспарентан је колико и било која вештачка неуронска мрежа. Уз то, будући да почива на дубоком подстакнутом алгоритму, овај чет-бот, пратећи наградни сигнал, често даје као излазни резултат убедљиве реченице које су неистините или не одговарају у потпуности ономе што је садржај питања. Вештина људске конверзације је, судећи према овим очигледним лимитима, ван домашаја ChatGPT-ја јер смо ми напросто успешнији да рекреирамо природну конверзациону ситуацију, а ChatGPT напросто није довољно као ми.
Да ли су чет-ботови несавршени одраз наших предрасуда или се напросто наш савршени одраз не може ни пронаћи у вештачкој интелигенцији?
Срећом, Камерон Бакнер није филозоф који само дијагностикује проблем и класификује туђа становишта, већ нуди и излаз из таквог дијалектичког лимба. Наиме, Бакнер сматра да је „кривац“ за претходно описане критике заправо антропоцентрична заблуда која опхрва филозофе и научнике да пристрасно пореде понашање модела вештачких неуронских мрежа са људским понашањем. Заблуда лежи у томе што се поређење врши према увећаној, „супериорној“, слици људског понашања. Оваква предрасуда је већ обележила деценије научног рада у компаративној психологији и когнитивној етологији – понашање животиња се увек тумачило у односу на људско и то тако што је тас ваге увек окренут у нашу корист. Исто се тренутно догађа са вештачком интелигенцијом.
Међутим, анализом психолошких истраживања, Бакнер показује да смо далеко од антропоцентричног идеала какав бисмо желели да пропагирамо. Или, подсетимо се увода, Бакнер нас заправо суочава са тим да не заузимамо (више?) централни положај. Тако, људи уче такође на основу огромног броја података – ако имамо у виду сва различита појављивања слова, речи, звукова, тачке гледања у односу на које посматрамо предмете. Све ово се потом похрањује у наше памћење, одакле може да се призове по потреби.
Даље, и људи такође „крекују систем“ и чешће јуре „наградни сигнал“ него што покушавају да разумеју задатак који обављају, о чему сведоче студије о томе како се људи понашају током играња онлајн видеоигара у оквиру којих тумаче специфичне улоге. Најзад, и људи су „црне кутије“ када је реч о доношењу одлука: социјални психолози су утврдили да постоји дискрепанција између рационализације коју спроводимо након донесене одлуке и каузалних фактора који су заправо утицали на доношење одлуке, јер се притом водимо друштвено обликованим разлозима као што су прихватљивост, промовисање позитивне слике о себи, и слично.
Дакле, сваки покушај антропоморфизације модела вештачких неуронских мрежа, укључујући велике језичке моделе, испадне да је залудан посао будући да нашег савршеног одраза – у односу на који се процењују капацитети модела – нема. С друге стране, ове моделе би пре требало посматрати као одразе наших предрасуда и несавршености. Тед Ћанг, писац научне фантастике, који често инспирацију проналази у вештачкој интелигенцији и напредним технологијама, у ауторском тексту за „Њујоркер“ описује ChatGPT као мутну слику свег садржаја на интернету која се потом „компресује“ тако да се на приватни сервер похране све текстуалне информације до којих нам је стало како не бисмо „изгубили“ интернет. Када бисмо покушали да реконструишемо „оригинални“ интернет на основу „компресованог“ садржаја, суочили бисмо се управо са нефилтрираним властитим несавршеностима и предрасудама. Статистичке регуларности „компресованог“ садржаја показују до које мере је оно што ми остављамо у текстуалној форми на интернету непрецизно, непроверено, неозбиљно, а некада чак и токсично.
ЕМПИРИСТИЧКА РЕВОЛУЦИЈА НА ПОЗАДИНИ БЕСМРТНОГ РАЦИОНАЛИЗМА
Па ипак, не можемо да се отмемо утиску да мора бити нечег аутентично људског у разумевању језика, нечега што мора измицати било ком четботу. Ово је интуиција коју су делили и филозоф Рене Декарт и лингвиста Ноам Чомски, иако их дели три века, као и многи савремени „конзервативци“. Декарт је сматрао да све и кад бисмо конструисали машину која би могла савршено да нас имитира, таква „скаламерија“ никада не би могла да креативно користи језик. За Чомског, зачетника трансформационогенеративне граматике, разликовање језичке компетенције од језичког понашања искључује сваку могућнoст да модели вештачких неуронских мрежа овладавају језиком као ми. Језичка компетенција подразумева да смо сви „обдарени“ скупом урођених правила који омогућава деци да овладају матерњим језиком у рекордном року упркос томе што су надражаји из околине неретко погрешни, непрецизни, нередовни или недовољни. Овај аргумент се назива аргумент осиромашеног стимулуса, и подсећа управо на рационализам Ренеа Декарта, то јест становиште да имамо урођене идеје без којих не би могло бити могуће „зауздати“ све оно што примамо преко чула.
Водећа идеја програмера који развијају обраду природног језика преко алгоритма дубоког учења и вештачких неуронских мрежа, као што су трансформери, јесте да треба пружити шансу емпиризму – становишту супротном рационализму, према ком је искуство кључ за учење и обликовање когнитивних процеса пре него уро ђена правила. Вештачке неуронске мреже махом уче на начин који се може описати као емпиристички, с обзиром на то да на основу великог броја података уче да формирају шаблоне који служе као излазни резултат. Можда сада делује контраинтуитивно, имајући у виду помпу око ChatGPT-ја, али модели вештачке неуронске мреже су „црне овце“ испреплетане историје лингвистике, вештачке интелигенције, и когнитивне науке и психологије у двадесетом веку, и то пре свега модели за обраду природног језика.
„Ако четрнаестогодишње дете може да покаже на предмете на које се односе одређене именице на италијанском језику, да преводи реченице тог језика на неки други, сумира низ докумената написаних на италијанском, али једино има проблема са извесним логичким релацијама, да ли бисте били склони да кажете да дете заправо не зна италијански?“
Од 1958. до почетка седамдесетих година двадесетог века, у периоду највећег утицаја Ноама Чомског, деловало је природно да модели путем којих ће се обрадити природни језик и сами морају бити структурирани онако како је и сам језик – дакле, правила морају бити у првом плану. Први модели обраде природног језика су, стога, били симболички: на основу ручно коди- раних правила, моделом се обрађивала синтаксичка структура одређених реченица у мањим корпусима, што би даље обезбедило аутоматизацију превода са једног језика на други. Циљ је био да се предвиди да ли су реченице у корпусу граматичне или неграматичне, и да се потом фаворизује формирање граматичних реченица. Један од првих четботова, ELIZA, заснивао се на симболичком моделу обраде природног језика и стварао је утисак разговора са психотерапеутом. Популарно поређење овог четбота са ChatGPT– јем је проблематично баш због методологије – модели вештачких неуронских мрежа ступају на сцену након конструисања четбота ELIZA и у супротности су са свим претпоставкама и импликацијама симболичких модела.
Осамдесетих и деведесетих година прошлог века, стохастички или статистички модели вештачких неуронских мрежа праве емпиристичку револуцију у области обраде природног језика јер, уместо ручно кодираних многобројних правила, ови модели уче на основу алгоритма да предвиде следећу реч или реченицу у корпусу. Двехиљадитих, напредак у дизајнирању различитих типова неуронских мрежа омогућава и разноврсније обављање задатака – груписање речи сличног значења, анализу дискурса, генерисање описа слика.
Оно што је, међутим, поента ове крајње сажете историје обраде природног језика је да су исти негативни ставови према нашем озлоглашеном четботу били упућивани и стохастичким моделима од самог момента њиховог настанка и употребе, као и у свим наредним моментима њиховог развоја. Таквим моделима се негира могућност да у принципу разумеју језик, односно да симулирају нашу семантичку компетенцију. Разлог за то је управо она дистинктивна карактеристика ових модела – амбиција да се у потпуности избегну унапред кодирана правила. Језик је хијерархијски структуриран феномен који нам је у доброј мери урођен и без граматичких правила, на основу сирових података из средине, и није могуће достићи специфично људски семантички ниво.
Професор на одељењима за информатику и филозофију Копенхашког универзитета Андерс Согaрд тврди да стохастички модели нису без семантике: речи које се често појављују заједно у контексту, а које детектују стохастички модели обраде природног језика, уједно се користе ради означавања предмета и феномена који се у нашем искуству јављају здружено. Другим речима, ако се претпостави да постоји изоморфизам између наших когнитивних мапа и тога шта се и како налази у свету, онда се може претпоставити и да учесталост и конктекстуална увезаност речи у корпусима преко којих се обучавају вештачке неуронске мреже ипак одражавају семантику. Како Согард, у научном раду од пре који месец, каже: „Ако четрнаестогодишње дете може да покаже на предмете на које се односе одређене именице на италијанском језику, да преводи реченице тог језика на неки други, сумира низ докумената написаних на италијанском, али једино има проблема са извесним логичким релацијама, да ли бисте били склони да кажете да дете заправо не зна италијански?“
Текст је изворно објављен у 32. броју часописа Елементи.
Вања Суботић је истраживачица-сарадница на Институту за филозофију Филозофског факултета Универзитета у Београду. Бави се филозофијом когнитивне науке, филозофијом лингвистике, експери- менталном филозофијом и општом методологијом науке. Тренутно завршава докторску тезу на тему да ли модели засновани на алгоритму дубоког учења (deep learning) – као што су, рецимо, велики модели процесирања природног језика – могу да помогну у одгонетању питања да ли је језичку компетенцију боље схватити као урођену или стечену.