Az analóg és a digitális világ szintézise a természetes és formális nyelvek kapcsolatában is megtalálható, amelyben a mesterséges intelligencia hívószava a nagy nyelvi modellek világát is sejtelmes köpennyel borítja be. A marcipándíszítés alatti torta rétegeinek keresztmetszetét Prószéky Gábor nyelvész-matematikus segít elképzelni.
Prószéky Gábor a hazai számítógépes nyelvészet megalapozója, akinek a nevéhez legutóbb a PULI nevű nagy magyar nyelvmodell – avagy a magyar ChatGPT – kapcsolódik, hiszen ő az ezt létrehozó intézmény, a Nyelvtudományi Kutatóközpont vezetője, és aki pályafutása során végigkövette a számítástechnika szinte teljes fejlődését. Ezen időszak tapasztalatairól egy végtelenül izgalmas interjú kivonata következik:
Bognár Melinda: Pályája során kezdetektől elkísérte a digitalizáció fejlődése. Hogy látja, milyen mérföldköveket lehet kiemelni a számítógépek alkalmazásának elterjedése során?
#számítástechnika fejlődése
Prószéky Gábor: A hetvenes években kezdtem, amikor maga a számítógép is egészen más volt. Például Fortran nyelven programoztunk, lyukkártyák segítségével. A számítógépek fejlődésében az interaktivitás volt az első nagy lépés a nyolcvanas években, majd a nagymennyiségű adatok elérhetővé válása. Az internet a kilencvenes évektől egy kommunikációs pluszt biztosított, a web pedig mint felület jelentett többletet. Az utóbbi 10 év pedig megint egy egészen más korszak a számítási kapacitás jelentős növekedésével és a grafikus kártyák központi processzor mellé integrálásával, ami egyúttal lehetővé tette a többrétegű neurális hálók működését.
A Fortran általános célú programozási nyelv, melyet elsősorban matematikai számítások (például mérnöki alkalmazások) megkönnyítésére fejlesztettek ki. Maga a Fortran szó a The IBM Mathematical Formula Translating System névből jön (=matematikai képletet fordító rendszer).
Ma már sokszor csak a marcipánréteggel foglalkozunk a torta tetején, mert annyira összetetté vált a számítástechnika. Egyre kevesebben vannak, akik a marcipánköpeny alatti torta rétegéit, az alapokat is jól ismerik.
BM: Hogyan alakult ki az elképzelés a nyelv és a számítástechnika összekapcsolására?
#számítógépes nyelvészet
PG: Személyes történetemen keresztül közelíteném meg ezt a kérdést. A hetvenes évek első felében nem vettek fel az egyetemre, s adatrögzítőként kezdtem el dolgozni. Ott megtanítottak programozni is, majd a katonaságnál írnokként folyamatos nyelvi problémákkal szembesültem, és valahol ott jött az indíttatás, ott alakult ki az érdeklődésem a nyelvészet, különösen a gépi nyelvészet iránt.
A katonaság után az ELTE TTK-n két csoporttársammal együtt kitaláltuk, hogy írhatnánk egy programot, ami fordít, például angolról magyarra. A történethez hozzátartozik, hogy a 60-as évek elején volt Magyarországon egy gépi fordítási láz, de mivel eleinte nem hozta meg a várt sikert, a fejlesztésekre szánt forrásokat megvonták. A 70-es évek végén innen vettem fel a fonalat. Beíratkoztam a Bölcsészkarra nyelvészetet tanulni, miközben elvégeztem a Természettudományi Karon programozó, majd a programtervező matematikus szakot
A Zenetudományi Intézetben töltött néhány izgalmas év után elkészült a gépi nyelvészeti világ akkori állását és jövőbeli kutatási terveimet is is összefoglaló doktori disszertációm, Számítógépes nyelvészet címen, mely meg is jelent könyv formájában. 1991-ben informatikus kollégáimmal megalkottuk a MorphoLogicot, az első magyarországi nyelvtechnológiai vállalkozást: elkészítettük az első magyar helyesírási programot, majd szótárprogramokat írtunk, aztán a 2000-es évek elején az első működő angol-magyar fordítóprogramot. Ma az általam vezetett Nyelvtudományi Kutatóközpont Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézetében foglalkoznak a kollégáim hasonló kérdésekkel.
BM: Matematikus – nyelvészként hogyan látja a természetes és formális nyelvek logikájában a kapcsolódási pontokat? Struktúrájuk megfeleltethető egymásnak valamilyen szinten? Hogyan működnek a fordítóprogramok?
#nyelvi logika
PG: Az 50-es és a 90-es évek között a fordítóprogramok szabályok alapján működtek aszerint, hogy egy adott kifejezés minek felel meg egy másik nyelvi rendszerben. Ez az idiomatikus kifejezésekre is igaz, például, ha azt mondom, hogy „ott van a kutya elásva", azt tudni kell, hogy nem kutyaként és ásásként kell a benne levő szavakat lefordítani.
Az internet kora óta a fordítás statisztikai alapon működik, tehát ami sokszor előfordult egymás ekvivalenseként a kétnyelvű szövegkorpuszokban, az megjelent az ebből tanuló gépi fordító rendszerek kimenetén is. Nehéz viszont lefordítani statisztikai alapon a szövegekben ritkán megjelenő abszurdumokat. Például az a szerkezet sokkal többször fordul elő, hogy „a kutya megharapta a postást", mint az, hogy „a postás megharapta a kutyát". A statisztikai módszernek az előnye, hogy készítőinek kevésbé kell érteniük a nyelvészethez: a tudás inkább a matekhoz, statisztikához kell.
Kimondható, hogy a legújabb fordítórendszerek már igazán jól működnek. A neurális hálók a big data alapján könnyen le tudják fordítani a fentiekhez hasonló nyelvi sajátosságokat is.
Neurális hálók: mesterséges neuronháló vagy ANN (artificial neural network) biológiai ihletésű szimuláció. Fő alkalmazási területe a gépi tanulás, melynek célja ezeknek a hálóknak a tanuló rendszerként történő gyakorlati alkalmazása.
Mélytanulás: A mélytanulás a gépi tanulás egy részhalmaza, amely lényegében egy egynél több rétegből álló neurális hálózat. Ezek lehetővé teszik, hogy a gép nagy mennyiségű adatból „tanuljon", de az élő idegsejtekkel való analógia csak távoli. Jelenleg többféle területen alkalmaznak gépi tanuló módszereket, példáu a természetesnyelv-feldolgozás, q képfelismerés, vagy épp a genetika területén.
A számítógépes nyelvészet kezdetén vonzónak tűnhetett, hogy egy formális nyelv, pl. egy programozási nyelv szépségét az adja, hogy a szabályokat az határozza meg, aki létrehozza a nyelvet. Az emberi nyelv máshogy logikus: az már „készen" adott, ott azt kell leírni, ami már létezik. A természetes nyelvekben viszont nem lehet mindig mindenre ugyanazokat a sémákat ráhúzni. Tehát a kapcsolódási pont, hogy mindkettőben van logika, de tudni kell, hogy mikor milyen leíró módszert kell alkalmazni, és nem szisztematikusan mindig ugyanazt a logikát mindenre. A matematikai gondolkodásnak tehát van helye a humán tudományokban is, de nem lehet vonalzóval húzni a vonalakat. Az emberi nyelvet azért is nehéz logikusan leírni, mert minden nyelvi megnyilvánulásban ott van a tartalom, a kulturális háttér.
BM: A természetes és formális nyelvek rendszerébe be tud valahogy kapcsolódni a vizuális nyelvek világa? El lehet őket helyezni ugyanabban a rendszerben?
PG: A természetes nyelv egydimenziós, míg a „vizuális nyelv" minimum kétdimenziós, az építészet pedig három, időnként 2D-s leképezésekkel. Ezekben a tartalom elrendeződése nem nyelvi. Az írott és a hangzó nyelv egyaránt lineáris. Az építészetben észrevehetjük bizonyos szimbólumok szabályszerű elrendezését, de nem egyetlen dimenzióban, ám ez szubjektív, sokszor metaforikus, azaz az analógia meglehetősen távoli.
BM: A PULI egy mesterséges intelligenciaként emlegetett, Önök által fejlesztett nagy nyelvi modell, ami hasonló a napjainkban igen népszerű ChatGPT-hez. Hogyan alakult ki, és hogyan működik ez a magyar nyelvi modell?
#PULI
PG: Amiért sok mindent mesterséges intelligenciának mond ma a világ, az abból adódik, hogy valami olyan jelenség keletkezett, aminek a képességei sokszorosan meghaladták az addigiakét, sőt sok esetben az egyetlen emberét is. Olyan eszköz nem volt eddig, amely ilyen nyelvi képességekkel bírt volna. Az emberek könnyen feltételezhetik azt, hogy ha valami nyelvileg ilyen jó, az mindenben ilyen jó. Tehát olyasmi, mint a humanoid robot, ami pislog, beszél, hall, mozog, és egyszerűen hiszünk neki. Ez egy természetes emberi dolog, hogy ami antropomorf, azt spontán módon túlértékeljük. A mesterséges intelligenciának hívott nyelvi rendszerek is ilyenek. Ugyan testük nincs, de a nyelvi képességük annyira meggyőző, hogy azt gondoljuk, hogy sokkal több van mögötte, pl. szándék vagy intuíció, de ez nem igaz.
Ezek a ma népszerű generatív mesterséges intelligenciák olyan neurális hálók, amelyek úgy tanulnak meg az iszonyú mretű tanítóanyaguk segítségével lehetséges nyelvi mintázatokat, hogy például képesek lefordítani az a korábban emltett példát is, hogy „a postás harapta meg a kutyát". Tehát nem a nyelvi szerkezetek abszolút gyakoriságát nézik, mint a korábbi statisztikai rendszerek, hanem ezek a szoftverek tulajdonképpen tanulni tanulnak meg. Van, amelyik a nyelvet tanulta meg; van, amelyik képeket tanult meg felismerni; de van, amelyik banki tranzakciókat ismer, tehát ez sok-sok különböző tanuló rendszer. Ezek a szofverek rengeteg mintából előállítanak valami olyat, ami addig még nem volt, de minden eleme előfordult már. Lényeges, hogy ezeknek a szoftvereknek nincs intuíciójuk, csak a meglévőt használják fel. Nincs szándékuk, tehát nem rendelkeznek azzal az emberi plusszal, ami miatt sokan félnek tőlük. Ezeknek a rendszereknek egy mechanikus összerakó képességük van, a meglevő rengeteg mintázatból csinálnak egy újat, és azzal nyűgözik le az embert, hogy olyan reakciókat adnak, amik az eddigi gépi megnyilvánulásokhoz képest váratlanok.
GPT: Generative pre-trained transformer: A generatív előtanított transzformer a nagy nyelvi modellek (LLM) egyik típusa, és a generatív mesterséges intelligencia kiemelkedő keretrendszere. Ezek mesterséges neurális hálózatok, amelyeket természetes nyelvi feldolgozási feladatokban használnak. A GPT-k a transzformer architektúrán alapulnak, címkézetlen szövegek nagy adathalmazával vannak betanítva, és képesek új, emberszerű tartalmat generálni.
Az általunk kifejlesztett PULI hétmilliárd paraméteres, azaz ennyi súly van a rendszerben, ennyiféleképpen, ennyi helyen lehet szavak lehetséges egymás után következésével számolni. Bármilyen kezdőszövegből, amit promptnak hívnak, "rávesszük" a modellt, hogy generáljon valamilyen magyar szöveget, és erre ő reagál abból a lehetséges, szinte korlátlan mennyiségű nyelvi tudásból, amit megtanult. Ez a nyelvi modell.
Prompt: számítógépes rendszernek (például szöveg-kép mesterséges intelligenciának) kiadott utasítások írott vagy beszélt nyelv formájában.
Ami lényeges: a nyelvmodell nem világmodell. Minden ember fejében van egy világkép, amit kialakítottunk magunknak. Ez rengeteg absztrakt objektumból áll és közöttük mindenféle relációkból. Az emberek ennek a fejükben levő ismeretnek a segítségével nyelvileg meg tudják fogalmazni, amit akarnak. Mivel nem a világot tároljuk a fejünkben, csak a véleményünket a világról, a gép csak az ezekből a véleményeket megfogalmazó szövegekből hozhat létre szövegeket, méghozzá olyat, ami valószínűleg még senkinek a fejében sincs ebben a formában, de sok esetben akár lehetne. Azaz a nagy nyelvmodell nem ismeri magát a világot, csak annak a nyelvi leképezését. Ezért is szokták sokszor azt mondani, hogy a gép hallucinál, mivel egy nyelvmodell maga nem tudhatja, hogy logikailag helyes-e, amit összerak, csak az várható el tőle, hogy nyelvileg helyes legyen. Ám ami nyelvileg helyes, nem biztos, hogy értelmes is, hiszen amit a program leír, az nyelvileg általában rendben van, maximum a tartalma nem egyezik az én világképemmel, azaz azzal, amit látok-hallok-érzek mint ember. A nyelvi rendszerek nem tévednek el, nem hibáznak akkor, amikor mi azt mondjuk, hogy hallucinálnak, csak azt csinálják, amit a nyelv megenged.
A nyelvészek régóta tudják, hogy minden természetes nyelv minden szava azért jelent valamit, mert egy adott környezetben megjelenik, tehát az egyes kifejezések jelentését a környezetük határozza meg. A neurális hálót úgy kell elképzelni, mint egy többszáz dimenziós vektorteret, melyben azok a nyelvi kifejezések, szerkezetek, amelyek bármilyen (hangtani, formai vagy tartalmi) okból hasonlítanak egymásra, közel vannak egymáshoz, s amelyek pedig nem, azok távol. A dimenziók valójában független szempontok, ahogy a barkochba jaátékben is úgy szokás kérdezni, hogy mi a kitalálandó dolog színe, anyaga, formája, stb. Ezek egymással nem kifejezhető, merőleges szempontok, azaz különféle dimenziók: attól ugyanis, hogy valami zöld, nem biztos, hogy kicsi vagy hogy puha, s így tovább. Ha a neurális háló például 500 dimenzióban „gondolkozik", az azt jelenti, hogy van 500 független szempontja, amit emberként mi nem tudunk elképzelni, hogy mik lehetnek ezek, de működik. Az utóbbi 10 évben tehát az az egyik igazi újdonság, hogy nem mi mondjuk meg a nyelvi elemek kategorizálási szempontjait a programunknak, hanem az a szempontokat is maga találja ki.
Ami még nagyon fontos, hogy ezek a nyelvi modellek nem determinisztikusak. A tudomány világában igen fontos, hogy minden kísérlet megismételhető legyen. Itt, ha megnyomunk egy gombot, a gép generál egy választ, s ha újra megnyomjuk, nem biztos, hogy ugyanazt wmondja. Azaz: nem determinisztikus, mivel valószínűségekkel dolgozik. Nehéz tehát egy-egy szövegről megmondani, hogy ember vagy valamely nyelvmodell hozta létre, bizonyítani pedig egyelőre nincs módunk.
BM: Mit jelent egy nyelv és egy kultúra számára, ha bekerül a large language model-be? Ez segíti a kulturális fennmaradást is?
PG: Meggyőzősésünk, hogy igen. Ugyan azt nem tudjuk pontosan, hogy mit tanítottak meg a ChatGPT-nek a magyar nyelvről, csak azt hogy 127 millió magyar szónyi anyag van a tanítókorpuszában A PULI ezzel szemben több mint 40 milliárd magyar szónyi szövegkorpuszból tanult, amit a mi kutatóink kontrollálnak, így tudjuk ellenőrizni a PULI eredményeit, amit a ChatGPT esetében csak a modellt készítő OpenAI munkatársai tudnak, ám ez sajnálatosan nem publikus információ.
A Nyelvtudományi Kutatóközpontban létrehozott PULI GPTrio rendszer a magyar mellett már angolul és kínaiul is tud, ami nyugat felé és kelet felé is kiterjeszti a magyar nyelven meglévő tudásából adódó kulturális világképét. Ráadásul tanítóanyagának össz-szókincse időközben akkora lett, mint a ChatGPT tanítóanyaga.
Egyelőre kevés olyan természetes nyelv van, aminek van saját nagy nyelvi modellje: a magyar nyelv bent van az első tíz ilyenben. S azokról a nyelvekről, amelyeknek nincs saját modelljük, a ChatGPT ugyan még mindig tudhat valamit a többnyelvű tanítóanyaga alapján, de ez közel sem lesz annyira átfogó, mint egy specifikusan az adott nyelvvel, esetünkben a magyarral foglalkozó modell, amilyen a PULI is.
A PULI GPTrio modellnek nemrég készült el az alap PULI-rendszernél „okosabb", szövegértelmzést végző változata, a ParancsPULI, melytől már csak egy fejlesztési lépés a beszélgető, azaz a teljesen ChatGPT-szerű modell. Ezen dolgozunk most.
Az építészfórum digitalizációval és mesterséges intelligenciával foglalkozó tematikus cikksorozatának célja a szakmai közönség megismertetése a mesterséges intelligencia gyökereivel, és lehetséges alkalmazási területeivel. A sorozat egyik fontos eleme, a szakma párbeszédre hívása, és gyakorló építészek, építőipari szereplők, szoftverfejlesztők valamint a mesterséges intelligenciával foglalkozó szakemberek álláspontjainak megismerése. A következő írásokban a technológiai fejlődésének építészeti vonatkozásai kerülnek fókuszba. A sorozat következő cikkjében Reicher Péterrel arról beszélgettünk, hogy a Graphisoftnál hogyan látják átfogóan a digitális fordulat és építészet viszonyát, a szoftverek, különösen az ArchiCAD szerepét a technológiai fejlődésben. Valamint, hogy a mesterséges intelligenciának milyen alkalmazási területeirei körvonalazódnak, hogyan valósulhat meg a szoftveres integrációjára, s mit tus az új AI visualizer tool.
Bognár Melinda
A cikk az Építészet és digitális elmélet című sorozatunk része. A sorozat további részei itt érhetőek el. A cikksorozat támogatója az NKA. Sorozatszerkesztő: Bognár Melinda