Asociatyvi „Unsplash“ nuotrauka
Ilgą laiką lietuvių kalba buvo neprieinama daugelyje kasdien naudojamų technologijų. Kodėl negalima kalbėti su savo išmaniaisiais įrenginiais lietuviškai, kodėl robotas siurblys nereaguoja į lietuviškas komandas, kodėl balso asistentai mūsų gimtąja kalba yra tokie riboti? Vilniaus universiteto (VU) mokslininkai tam, kad technologijos taptų kuo prieinamesnės lietuvių kalba, dirba daugiau nei dešimt metų.
Šiuo metu gautas finansavimas projektui „Didžiojo lietuvių kalbos garsyno sukūrimas“ (LIEPA-3), kuris yra vienas reikšmingiausių žingsnių lietuvių kalbos technologijų srityje. LIEPA-3 suteiks naujų galimybių mūsų kalbai būti pritaikytai šiuolaikinėse išmaniosiose sistemose. Projektu siekiama, kad lietuvių kalba taptų neatsiejama technologijų dalimi, kuri būtų lygiai taip pat prieinama kaip ir didžiosios kalbos, tokios kaip anglų ar vokiečių.
„Mes gyvename tokiame pasaulyje, kur kalbos technologijos tampa vis svarbesnės kasdieniame gyvenime. Jei lietuvių kalba neišsilaikys šioje srityje, mes liksime nuošalyje. LIEPA-3 yra mūsų šansas išlaikyti lietuvių kalbą gyvybingą ir integruotą į šiuolaikines technologijas“, – sako VU Matematikos ir informatikos fakulteto mokslininkas ir vienas iš projekto LIEPA-3 iniciatorių Gediminas Navickas.
Vienas iš projekto LIEPA-3 iniciatorių Gediminas Navickas. Vilniaus universitetas / Justino Auškelio nuotrauka
Pasak VU matematikos ir informatikos fakulteto (MIF) G. Navicko, šiame projekte ne tik sukuriamos technologijos, bet ir ateities kartoms užfiksuojamas unikalus mūsų kalbos skambesys bei savitumas, kurie ypač svarbūs ir kalbos technologijų kūrimui, ir pačios kalbos tyrimams.
Lietuvių kalbos ateitis technologijose
LIEPA-3 yra tęstinis projektas, kuriuo siekiama užtikrinti lietuvių kalbos išlikimą ir pritaikymą modernioje skaitmeninėje aplinkoje, stiprinant valstybės skaitmeninimo pajėgumus. Šis projektas – ankstesnių projektų LIEPA ir LIEPA-2 sėkmės rezultatas, perimantis jų pasiekimus ir praplečiantis lietuvių kalbos technologijų galimybes.
Projektus LIEPA ir LIEPA-2 taip pat įgyvendino mokslininkai iš VU Matematikos ir informatikos bei Filologijos fakultetų. Abu minėti projektai apėmė dvi esmines kryptis: informacinių technologijų sprendimus – naujas paslaugas visuomenei ir infrastruktūrinius sprendimus, susijusius su lietuvių šnekamosios kalbos garsynu, kalbos sintezatoriais bei šnekos atpažinimo sistemomis.
Gausi mokslininkų komanda jau vykdo naująjį projektą LIEPA-3. Skirtingai nei jo pirmtakai, šis projektas orientuojasi ne į kelias kryptis, o į vieną pagrindinę – plataus masto Didžiojo anotuoto lietuvių kalbos garsyno sukūrimą. Anotuotas garsynas – tai struktūriškai aprašyti garso įrašai (lietuvių šnekos pavyzdžiai), jį sudaro garso įrašai ir juos atitinkantys tekstai su laiko žymėmis. Naujai kuriamas garsynas bus net 10 kartų didesnis nei didžiausias šiuo metu egzistuojantis lietuvių kalbos garsynas ir apims 10 tūkstančių valandų.
Turėdami tokio dydžio garsyną, galėsime turėti lietuvių šnekos atpažintuvus (kai kompiuteriai ir kiti įrenginiai supranta, ką jiems sakome lietuvių kalba), atitinkančius šiuolaikinius kokybės kriterijus.
Nekilnojamojo turto prekeiviai į klausimą, kokie trys svarbiausi komponentai sudaro nekilnojamojo turto vertę, atsako: vieta, vieta ir vieta. Perfrazuojant klausimą: kokie trys svarbiausi komponentai sudaro kalbos technologijų vertę, atsakymas būtų: duomenys, duomenys, duomenys. Iki šiol nėra sukurto įvairiapusiško, išsamaus ir, svarbiausia, didelės apimties lietuvių kalbos garsyno.
Projekto LIEPA-2 metu sukurtas 1000 valandų garsynas yra labai mažas, palyginti su technologiškai pažengusių kalbų garsynais. Be apimties, garsyno kūrimas svarbus ir dar vienu aspektu: kurdami šnekos technologijas kolegos informatikai pasitelkia ir filologus, lingvistus.
VU Filologijos fakulteto profesorius Vytautas Kardelis. Žygimanto Savicko nuotrauka
„Tai gražus ir prasmingas bendradarbiavimo ir tarpdalykiškumo pavyzdys, kuris tęsiasi nuo projekto LIEPA-1 pradžios. Didelės apimties garsynas svarbus ne tik šnekos technologijoms, jis bus puiki bazė ir įvairiems lingvistiniams tyrimams. Ypač svarbu, kad pusę garsyno sudarys spontaninė kalba, ši dalis gerai parodys šiuolaikinės šnekamosios lietuvių kalbos būklę, kurią mes, deja, dabar matome gana fragmentišką būtent dėl išsamių, plačių duomenų trūkumo. Garsynas svarbus ne tik šnekos technologijų ir lingvistinių tyrimų kontekste – gal nebus per drąsu jį palyginti su didžiuoju Lietuvių kalbos žodynu, kur išsaugoti ne tik mūsų kalbos, bet ir tapatybės ženklai – šiuo atveju ne užrašyti, bet pasakyti gyvu žodžiu“, – džiaugiasi VU Filologijos fakulteto profesorius Vytautas Kardelis.
Projektą vykdo VU Matematikos ir informatikos fakultetas bendradarbiaudamas su Filologijos fakultetu kartu su partneriais Vytauto Didžiojo universitetu ir Lietuvių kalbos institutu. „Projektui vykdyti skirtas laikas yra labai trumpas – vos daugiau nei pusantrų metų, nors įprastai tokiam darbui reikėtų bent trejų metų. Tačiau projektą vykdo stipriausias šios srities ekspertų konsorciumas, suburtas iš patyrusių organizacijų, todėl tikime, kad projektas bus sėkmingai užbaigtas“, – sako projekto LIEPA-3 vadovė, VU MIF mokslininkė dr. Gražina Korvel.
Laukiami projekto rezultatai
„Projekto LIEPA-3 pagrindinis tikslas – sukurti 10 tūkst. valandų lietuvių kalbos anotuotą garsyną, kuris bus sudarytas pagal diktorių amžiaus, lyties, tarminio regiono kriterijus. Garsynas atspindės šnekos turinio fonetinę, morfologinę, sintaksinę, stiliaus ir tarminę įvairovę, skirtingos įrašymo įrangos ir aplinkos akustinio fono skirtumus“, – svarbą ne tik mokslui, bet ir visuomenei pabrėžia dr. G. Korvel.
Projekto LIEPA-3 vadovė, VU MIF mokslininkė dr. Gražina Korvel. Vilniaus universitetas / Ugniaus Bagdonavičiaus nuotrauka
Pats garsyno kūrimo procesas reikalauja nemažai darbo: nuo garsinių duomenų rinkimo, apdorojimo ir tikslumo vertinimo iki galutinio duomenų įkėlimo į atviros prieigos platformas, kad projekto rezultatai būtų prieinami visiems besidomintiems. Pasak projekto vadovės, turėdami viešai prieinamą ir išsamų garsyną, mokslininkai galės plėtoti pažangias kalbos atpažinimo, sintezės ir natūralios kalbos apdorojimo metodikas, o tai atvers galimybes dirbtinio intelekto plėtojimui Lietuvoje. Be to, garsynas bus itin vertingas dirbant su moksliniais tyrimais, orientuotais į socialinės įtraukties didinimą – galėsime labiau atsižvelgti į specialiųjų poreikių turinčius žmones ir kurti technologijas, kurios būtų intuityvios ir visiems prieinamos.
Įgyvendinus projektą, atsiras daugybė galimybių praktiškai pritaikyti jo rezultatus. Visų pirma, Lietuvos mokslininkai ir technologijų kūrėjai galės plėtoti pažangias kalbos technologijas ir kurti inovatyvias elektronines paslaugas lietuvių kalba. Be to, viešai prieinami lietuvių kalbos garsyno ištekliai skatins ir kitų šalių mokslininkus, dirbančius kalbos technologijų srityje, įtraukti lietuvių kalbą į savo tyrimus ir taip užtikrinti lietuvių kalbos aktyvumą skaitmeninėje erdvėje bei atverti tarptautinio bendradarbiavimo galimybes.
Pasak G. Navicko, projektu siekiama prisidėti prie Ekonomikos ir inovacijų ministerijos Valstybės skaitmeninimo plėtros programos įgyvendinimo, padidinti kalbos technologijų pasiekiamumą, užtikrinti jų veikimą lietuvių kalba ir padėti modernizuoti visuomenės skaitmeninius įgūdžius: „Per ateinančius porą metų bus sukurtas garsynas, kuris taps viešai ir nemokamai prieinamas ir naudojamas moksliniuose tyrimuose bei kuriant skaitmeninius sprendimus. Taip bus prisidedama prie aukštesnės kokybės elektroninių paslaugų kūrimo ir skaitmeninimo plėtros Lietuvoje.“