AR ŽINAI, KAD...

ES piliečių teisė laisvai judėti, gyventi ir dirbti visoje Sąjungoje lengvai gali būti palaikyta savaime suprantamu dalyku. Tačiau siekiant užtikrinti, kad piliečiai galėtų visiškai pasinaudoti šia teise, būtina sukurti ir palaikyti veiksmingą pagrindinių teisių ES viduje apsaugos sistemą.


DARBOTVARKĖ


 Įrašų prenumerata

Algirdas Saudargas: ar leisime išgūglinti lietuvių kalbą


2010-06-09


Žurnalas "Apžvalga", 2010 m. Nr. 5 (9) (490), 57 psl.

Ką reiškia gūglinti šiandien žino darželinukai. Jie gūglina pokemonus, bakuganus, pantipinus ir kitus siaubūnėlius. Kas gūglina lietuvių kalbą? Pats Google. Pamatyti, kaip jis tą daro, visiškai nesunku. Tereikia nueiti į Google vertimo svetainę: http://translate.google.lt - ir gūglink kiek patinka. Keli pavyzdžiai. Neseniai visoje žiniasklaidoje aidėjo sensacinga žinia, kad amerikiečių mokslininkų grupė, vadovaujama J. Craig Venter, sukūrė dirbtinę ląstelę. Vieno pranešimo antraštė anglų kalba atrodo taip: „Synthetic Genome Brings New Life to Bacterium". Lietuviškai ji skamba maždaug taip: „Sintetinis genomas atneša naują gyvenimą bakterijai". Google į mus prabyla tokiu „sakiniu": „Sintetiniai genomo atveria naujas gyvenimas su bakterija". Tą patį sakinį VDU sukurta vertimo programa (http://vertimas.vdu.lt) išverčia teisingai: „Sintetinis genomas atneša naują gyvenimą bakterijai". Kur Google bėda? Jie vartoja statistinį vertimo metodą, o VDU - gramatinį. Akivaizdu, kad Google apie lietuvišką gramatiką nieko nenutuokia, todėl siūlo mums pradėti „naują gyvenimą su bakterija". Tai gal VDU programa jau tinkama vartojimui. Toli gražu. Duokime sunkesnį uždavinį iš to paties straipsnio. Angliškas sakinys: „to build a genome from scratch" reiškia maždaug „sukurti genomą nuo nulio". Šiame sakinyje yra idioma: daryti ką nors „from scratch" reiškia daryti, neturint dar nieko padaryta, pradėti nuo pradžios, nuo nulio. VDU programa neatpažįsta posakio ir pateikia tiesioginį daiktavardžio „scratch" vertimą: „įbrėžimas". VDU išverstas sakinys skamba taip: „pastatyti genomą iš įbrėžimo". Tikrai nekaip. Keista, bet Google šiuo atveju prasmę perteikia tiksliau: „statyti genomo nuo nulio". Gramatika, be abejo, liko išgūglinta, bet posakio lietuvišką atitikmenį, matyt, rado kokiame nors tekstyne. Google turi priėjimą prie Jungtinių Tautų ir Europos Parlamento daugiakalbių tekstynų ir sugeba jais efektyviai pasinaudoti, nes turi milžinišką mašinų parką. Lietuva pateko į šio milžino akiratį tik todėl, kad yra ES narė.


Tai tik keletas pavyzdžių, kad būtų aiškiau apie ką kalbama. Jų galima pririnkti tūkstančius. Bet ko mums rūpintis? Specialistai laikui bėgant parengs vis geresnes mašininio vertimo programas, kuriomis galėsime naudotis. Tegu jos bus netobulos, bet galima bus susidaryti įspūdį, kas rašoma tame ar kitame pranešime. Jau dabar galima daug sužinoti apie pranešimo turinį, nors jis ir iškraipomas. Kuo vertimas bus tobulesnis, tuo daugiau pritrauks vartotojų. Ir tai jau vyksta. Google vertimais į 52 kalbas naudojasi šimtai milijonų vartotojų per savaitę. Kovo mėnesį „New York Times" paskelbė, kad Google ketina imtis gramatikos, o savo tekstynų apimtis išplėsti iki šimtų milijardų žodžių. Jei VDU ar kitos Lietuvos mokslininkų grupės nespės savo programų patobulinti, atriedės milžinas Google su savo vertimo mašina. Beje, tai ne vienišas milžinas - vertimo programas intensyviai kuria IBM, Microsoft, Yahoo ir daugelis kitų. Tarp jų ir kaimyninėje Latvijoje įsikūrusi Tilde. Jų vertimo kokybė neabejotinai pagerės ir masinio vartojimo banga atriedės ir į Lietuvą. Juk puiku atsiversti internetą ir užsienietiškus tekstus skaityti lietuviškai. Juk esame greitaeigio interneto lyderiai pasaulyje! Tegu bus trečdalis, o gal tik ketvirtadalis turinio iškreipta, bet daug informacijos bus galima sužinoti. Kartu su žiniomis mus užplūs Mašinos Gaminti Tekstai (MGT). Štai čia ir glūdi pavojus, kuris kol kas nelabai suvokiamas. Jis tikrai nepalyginamai didesnis už tą pavojų gimtajai kalbai, kurį kelia šiandien taip karštai diskutuojamas užsieniečių pavardžių rašymas. MGT yra beprasmiai, nes mašina prasmės nesuvokia ir suvokti negali. Tai labai klastingi tekstai, nes jie atrodo prasmingi.


Mėginimai panaudoti kompiuterius vertimui iš vienos kalbos į kitą prasidėjo prieš pusę amžiaus, kartu su pirmaisiais kompiuteriais, kurie tuomet lietuviškai buvo vadinami elektroninėmis skaičiavimo mašinomis. Pradžioje buvo tikėtasi greitų rezultatų, bet jų nebuvo. Pasišaipė iš kurioziškai išverstų tekstų ir nutraukė finansavimą. Praėjo dešimtmečiai, kompiuterių greitis ir atminties apimtis išaugo neįsivaizduojamai, o mašinino vertimo kokybė pradėjo gerėti tik pastaraisiais metais. Kaip jau minėjome, šiandien milžiniškos pajėgos metamos sukurti vartotojui priimtinus produktus
Suskirstykime programas į tris kartas. Pirmosios kartos programos naudoja arba statistinius (Google), arba formaliosios gramatikos (VDU) metodus. Tokius tekstus, kurie kalbą negailestingai darko („Sintetiniai genomo atveria naujas gyvenimas su bakterija"), reikėtų tiesiog uždrausti. Žinoma, niekas to nepadarys ir belieka tikėtis Google ar Tilde pažadų ištesėjimo, kad jų produktai bus gramatiškai sutvarkyti. Žinoma, tuo pačiu metu reikia tikėtis, kad VDU sustiprins ir išplėtos tekstynus. Kaip ten bebūtų, šis etapas yra laikinas ir galime palaukti antrosios kartos programų.


Antrosios kartos programos bus mišrios, naudojančios formaliuosius metodus, sutvarkančius gramatiką, ir statistinius metodus, pasitelkiančius didelės apimties dvikalbius tekstynus. VDU mašininio vertimo programa yra tokio produkto prototipas. Statistinį ir gramatinį metodą sujungus į vieną programą bus galima gauti tikrai neblogus rezultatus. Tą rengiasi daryti Google, neseniai tokius planus paskelbė Tilde, intesyviai dirba daug kitų galingų kompanijų. Tai netolimos ateities technika. Antrosios kartos programos vartos ribotą, formaliąja logika pagrįstą, semantikos analizę. Tokie produktai pasirodys netrukus ir bus vartojami ir tobulinami artimiausią dešimtmetį. Mus užplūs beprasmiai MGT.
Dera nors kiek paaiškinti, kodėl MGT vadiname beprasmiais. Juk matėme pavyzdį sakinio, kurį mašina išvertė visiškai tiksliai ir tas sakinys turi prasmę. Sunkumas glūdi tame, kad bet koks žodis, sakinys ar tekstas, paimtas kaip toks, kokią formą jis beturėtų - ištartą garsu, užrašytą raštu ar perteikiamą gestų kalba, pats savaime jokios prasmės neturi. Jam prasmę suteikia žmogus. Kai vienas žmogus ką nors pasako kitam žmogui, tai visuomet būna bent dvi prasmės: ta, kurią įdėjo į sakinį sakytojas ir ta, kurią tam sakiniui suteikė klausytojas. Jei abi prasmės artimos, žmonės susišneka. Kai žmonės kalba skirtingomis kalbomis, jie vienas kito nesupras, nes nesugebės suteikti prasmės svetimos kalbos sakiniams. Kiekvienam turbūt yra pasitaikę patekti į aplinką žmonių (pavyzdžiui medikų), kurie, nors kalbėdami ta pačia mums suprantama kalba, vartoja specialius tik jiems žinomus terminus. Jų tariami sakiniai atrodo suprantami, bet negalime suprasti pokalbio prasmės. Tokiais atvejais reikalingas vertėjas. Tai jau trečias žmogus, kuris suteikia sakiniui dar vieną - trečią prasmę. Vertėjas pakeičia sakinio formą iš vienos kalbos į kitą. Mašina jokios prasmės sakiniui nesuteikia, o tik sugretina abiejų kalbų sakinius. Vertėjas žino kontekstą ir turi prasmės modelį. Kai kontekstas labai painus, klysta ir vertėjas.


Kitas pavyzdys. Mokiniai, kurie mėgsta viską mintinai išmokti, dažnai nesuprasdami prsmės to, ką sako, vadinami „kalikais". Gali atsitikti, kad mokytojas liepė raštu įrodyti matematikos teoremą. „Kalikas", viską mintinai išmokęs, surašys teisingai, neturėdamas jokio supratimo, ką rašo. Matematiką suprantantis mokinys, pats įrodinėdamas teoremą, gali padaryti klaidų. Kurio mokinio tekstas bus prasmingas? Jei mokytojas mokinius pažįsta, jis žinos, kaip vertinti. Jeigu teksto kūrėjų nepažįstam, tai sunku bus atskirti, kurį tekstą pateikė asmuo, suprantantis ką rašo. Štai tokie „kalikai" šiandien kuria copy/paste (kopijuok/klijuok) kultūrą. Ne tik rašinėlius rašo, bet bakalauro ir magistro darbus. Jei tai ištįsinis plagijatas, dar galima pričiupti. Jeigu copy/paste išmoningai sukurpta iš daugelio šaltinių, prigauti sunkiau. Tiesa, šiuo atveju plinta tekstai, kažkada turėję prasmę, bet nuo karpymo ir klijavimo ji taip sujaukta, kad pirminę prasmę atsekti sunku. Galutinis produktas vėl sušukuojamas, kad atrodytų prasmingai.


Gramatiškai sutvarkyti MGT, bus tokie, kad skaitytojas galės jiems suteikti prasmę ir ji dažnai (kaip prognozuojama 60 % ar 70 %) bus arti tos prasmės, kurią suteikė autorius. Šis etapas gali ilgiau užtrukti, nes trečiosios kartos programos, apie kurias pakalbėsime toliau, dar turi daug spręstinų problemų. Be to, ši vertimo paslauga ir toliau, matyt, bus nemokama, o kokybė patenkinama. Galima prognozuoti, kad, visų pirma, angliškų tekstų skaitymas internete per šį filtrą taps masiniu reiškiniu. Taigi mūsų laukia antrosios kartos mašinos sukurtų tekstų antplūdis, kurio įtakos gimtajai kalbai nebegalėsime ignoruoti. Ją reikia labai gerai ištirti ir įvertinti.


Kalba bus siaurinama. Šios kartos mašininio vertimo programos sakinio prasmės modelio nekuria, bet ieško labiausiai tikėtino vertimo ir todėl parenka dažniausiai vartojamus žodžius. Todėl į šiuos tekstus pateks tik patys populiariausi žodžiai, skverbsis svetimžodžiai, plis žargonas. Kalba bus susinama. Dauguma žodžių yra daugiaprasmiai, bet į šiuos tekstus pateks tik pagrindinės, dažniausiai sutinkamos tekstynuose reikšmės. Jei šis periodas ilgai netruks, ilgalaikių pasekmių gal bus galima išvengti. Jam užsitęsus, besimokanti karta, kurioje plinta mūsų minėta copy/paste kultūra, šiuos tekstus daugins neribotai ir jais užterš visas įmanomas erdves. Kils grėsmė kalbai prarasti savo šaknis, o lietuvių kalba tam ypač jautri.


Kad šie samprotavimai neatrodytų perdėm abstraktūs, padarykime vieną eksperimentėlį. Pateikime Google vertėjui sakinuką iš eilinės orų prognozės: „Pajūryje, aišku, bus vėsiau." Anglišką tekstą gausime visai neblogą, nors gramatika ignoruojama: „Coast, of course, will be cooler." Išvertę tuo pačiu vertėju atgal į lietuvių kalbą, skaitome: „Pakrantėje, žinoma, bus aušintuvas." Čia problema kyla dėl vienodai skambančio angliško daiktavardžio „cooler" (aušintuvas) ir veiksmažodžio „cool" (šaltas, vėsus) palyginamojo laipsnio. Bet įdomiausia ne tas aušintuvas. Palengvinkime jam užduotį ir paprašykime išversti: „will be cool" (t. y. bus vėsu). Atsakymas tikrai įdomus: „bus smagu". Todėl, kad žodžio „cool" reikšmes „šaltas, vėsus" nustelbė savo dažnumu tekstynuose jaunimo mėgstamas „cool" - smagu, puiku. Tokių pavyzdžių bus tūkstančiai. Kūūl.


Viskas spręsis trečiajame etape. Jo trukmės numatyti šiandien neįmanoma. Parengiamieji darbai jau vyksta ir labai intensyviai. Tai semantinių tinklų ir specialiųjų ontologijų kūrimas. Semantiniai tinklai kaupia kompiuteriui suprantama forma viską, ką iš kalbos galima ištraukti apie žodžių reikšmių tarpusavio ryšius ir jų vartosenas. Specialiosios ontologijos aprašo mašinai suprantamu būdu specialias žinijos sritis, kurias galima nusakyti griežtai apibrėžtais terminais. Taip į kompiuterius perkeliama gydytojų, teisininkų ar kurios nors mokslo srities tyrinėtojų žinija. Mašinos galės suteikti prasmę savo gaminamiems tekstams. Žinoma, tai ne ta pati prasmė, kurią sakiniams suteikia žmogus, bet tai prasmės modelis, kurį supranta kompiuteris. Trečiosios kartos mašininio vertimo programos galės paaiškinti, kodėl parinko vieną ar kitą variantą arba pateikti kelis, besiskiriančius ne tik vartojimo dažnumu, bet savo prasme. Kitaip tariant, mašina turės savo teksto interpretaciją. Be to, trečiosios kartos programos, turėdamos prasmės modelį, galės ne tik tekstus versti iš vienos kalbos į kitą, bet formuluoti klausimą ir pati parinkti bei suformuluoti atsakymą. Iš esmės tai bus tiesioginiu dialogu prieinamos žinijos saugyklos.


Perėjimas nuo antros kartos mašinų prie trečiosios kartos turės lemiančios įtakos kiekvienos kalbos likimui. Čia jau galima tiesiai tvirtinti, kad išliks tik tos kalbos, kurias jomis kalbantieji perkels ir perkoduos su visomis prasmėmis. Trumpai tariant, ateityje išliks tik tos kalbos, kuriomis skaitmeninėje erdvėje bus prieinama visa pasaulio kultūra per gimtąją kalbą. Likusios kalbos bus išgūglintos, tai yra jų bus tiek, kiek globaliniai milžinai, tokie kaip Google ar jų paveldėtojai teiksis perkelti. Neabejotinai vienintelis interesas bus komercinis, o komerciniai tikslai gimdo vadinamąsias pidžin kalbas, kurios rasdavosi ir plisdavo uostuose, kad įvairiakalbiai pardavėjai ir pirkėjai galėtų susikalbėti. Taigi mums paaiškėjo, ką reiškia „išgūglinti" kalbą. Tai reiškia kalbą paversti vietine pidžin kalba, skirta patenkinti svetimtaučių prekybininkų interesus.


Ką galime prognozuoti Lietuvai? Čia kalbėjome tik apie patį vertimą. Lygiagrečiai reikia spręsti ir garsinės formos perkėlimą į skaitmeninę formą ir balso atpažinimo uždavinį. Esame paradoksalioje padėtyje. Lietuvos mokslininkų pasiekimai visose šiose srityse yra neblogi ir atitinka pasaulinį lygį. Kita vertus, antros kartos programų daug elementų tinka visoms kalboms. Lietuvių kalbos gramatiką formalizuoti ir perkelti į kompiuterį yra didelis, aukštos kvalifikacijos darbas. Tačiau jį gali atlikti ne tik VDU specialistai, kuriems lietuvių kalba gimtoji, bet ir Goole ar Tilde, pasamdę kelis lietuviškai mokančius ekspertus. Gal valstybei neverta į šią sritį investuoti, globalios kompanijos anksčiau ar vėliau padarys ir be mūsų? Tai būtų didžiulė strateginė klaida. Trečios kartos instrumentų nukopijuoti neįmanoma, nes jie atspindi kalbos prasmes, o tuo pačiu ir visą kultūrą. Semantiką perkeldami į skaitmeninę erdvę, deja, atsiliekame beveik dešimtmetį. Tiksliau, niekas dar nepradėta, Lietuva nedalyvauja nė vieno semantinio tinklo kūrime. Baskų kalba yra, bantų yra, lietuvių kalbos nėra. Tai ilgalaikė strateginė investicija, nuo kurios ateityje priklausys daug inovatyvių technologijų. Jei nesukrusime šiandien, ateityje nebeteks verkšlenti dėl augančios emigracijos. Visi tapsime emigrantais savo Tėvynėje su išgūglinta lietuvių kalba.


atgal..