Mokslas ir IT

2020.10.23 12:45

Mokslininkai kibernetinio saugumo terminų žodyną rengia pasitelkę ir neuroninių tinklų technologijas

LRT.lt2020.10.23 12:45

Nepaisant didelio aktualumo ir rizikų, vis dar yra kibernetinio saugumo sričių, kurios Lietuvoje vis dar per mažai tyrinėjama. Viena iš jų – suvienodinti specifiniai terminai, kurie užtikrintų efektyvią komunikaciją ne tik tarp kibernetinio saugumo specialistų, bet ir plačiosios visuomenės, rašoma pranešime žiniasklaidai.

Mykolo Romerio universiteto ir Vytauto Didžiojo universiteto mokslininkai, pasitelkę moderniausias neuroninių tinklų technologijas, šiuo metu kuria kibernetinio saugumo terminų duomenų bazę, kuri funkcionuos kaip dvikalbis (anglų-lietuvių kalbų) žodynas.

Šiuo metu prie projekto dirba po tris MRU (Sigita Rackevičienė, Liudmila Mockienė ir Marius Laurinaitis) ir VDU (Andrius Utka, Agnė Bielinskienė ir Aivaras Rokas) mokslininkus.

Viena iš šios idėjos autorių – Mykolo Romerio universiteto Žmogaus ir visuomenės studijų fakulteto Humanitarinių mokslų instituto profesorė Sigita Rackevičienė pasakoja, kad terminologija padeda suvokti, kaip žmonės pažįsta tam tikrą dalykinę sritį, kaip kuriamos to srities sąvokos ir kokiais ryšiais jos susijungia bendroje tos srities sąvokinėje sistemoje.

„Terminijos tyrimai įgalina suvokti mūsų mąstymą, žinių įgijimo bei struktūrinimo procesus, – terminologijos užduotis vardija Sigita Rackevičienė. – Kita svarbi terminologijos tyrimų dalis – išsiaiškinti, kaip tos pačios sąvokos pavadinamos skirtingomis kalbomis, kaip sudaromi ir vartojami terminai skirtingose kalbose. Pagaliau terminologijoje labai svarbi ir taikomoji veikla – terminų tvarkyba, žodynų / duomenų bazių kūrimas“.

Pasak mokslininkės, šiuolaikinė terminologija jau nebeatsiejama nuo technologijų. „Terminai ir jų apibrėžtys renkami iš tekstų automatiniu būdu, pasitelkus kompiuterines programas, kurios suteikia galimybę dirbti su dideliais tekstų kiekiais, nuolat atnaujinti terminų išteklius, tirti terminais nusakomų sąvokų ryšius, terminų vartosenos tendencijas, ieškoti jų atitikmenų kitomis kalbomis ir kt., – pasakoja S. Rackevičienė. – Lietuvių kalbai tokių kompiuterinių įrankių dar labai stinga, todėl didžioji dalis lietuvių kalbos terminų tyrimų ir tvarkybos darbų vis dar atliekama rankiniu būdu. Taigi supratome, kad norint nuveikti terminologijoje kažką naujo ir reikšmingo būtina suvienyti programuotojų ir kompiuterinės lingvistikos specialistų jėgas“.

Mokslininkė sako, kad kibernetinio saugumo terminijos tyrimai buvo pasirinkti dėl kelių priežasčių: „Ši sritis ypatingai aktuali šiandien, nes lietuviška kibernetinio saugumo terminija dar labai „jauna“, besiformuojanti, o kibernetinis saugumas – viena iš svarbiausių valstybės saugumo sričių. Kita priežastis – turėti šių terminų duomenų bazę išsakė tiek ES ir Lietuvos vertėjai, tiek kibernetinio saugumo specialistai.“

Anot S. Rackevičienės, bendradarbiavimas su VDU taip pat neatsitiktinis – šio universiteto mokslininkai yra įgyvendinę terminologijos projektus, skirtus automatiniam švietimo ir mokslo terminų atpažinimui bei apibrėžimui, ir parengė jų žodyną. „Džiaugiuosi, kad su VDU Kompiuterinės lingvistikos centro vadovu doc. dr. Andriumi Utka labai greitai radome bendrą kalbą, o VDU mokslininkams pasirodė svarbu ir įdomu tęsti jų pradėtą darbą ir išbandyti naujausias technologijas terminų rinkimui ir duomenų bazės kūrimui,“ – pasakoja Sigita Rackevičienė.

Terminų bazė ne tik padės išsiversti ir suprasti termino reikšmę, bet ir suteiks vartotojui papildomos informacijos

Šiuo metu mokslininkai atlieka kibernetinio saugumo tekstynų kūrimą, t. y. renka kibernetinio saugumo tekstus ir sistemina juos pagal apsibrėžtus kriterijus. Kuriami dviejų tipų tekstynai – lygiagretusis, kurį sudarys angliški kibernetinio saugumo tekstai ir jų vertimai į lietuvių kalbą (daugiausia ES dokumentai), ir palyginamasis, kurį sudarys angliški ir lietuviški originalūs tekstai (teisėkūros ir administraciniai dokumentai, akademinė literatūra, žiniasklaidos straipsniai ir kt.). Būtent iš šių tekstynų pasitelkus neuroninius tinklus bus renkami angliškus ir lietuviškus terminus.

Kitas labai svarbus pirmojo projekto etapo darbas – auksinio standarto anotuotų tekstynų kūrimas. „Neuroninių tinklų apmokymui būtini kokybiškai rankiniu būdu anotuoti (sužymėti) duomenys. Šiuos duomenis anotuojame mūsų programuotojo MRU alumno Aivaro Roko specialiai projekto reikmėms sukurtu ir nuolat tobulinamu įrankiu „QuickTag“, – pasakoja mokslininkė. – Šis darbas labai atsakingas, todėl nuolat diskutuojame, tariamės dėl to kokius terminus priskirti kibernetinio saugumo sričiai, o kokius laikyti tik susijusiais su šia sritimi, kaip žymėti kelių terminų junginius ar terminus, į kuriuos įsiterpia kiti žodžiai, kaip anotuoti lietuviškuose tekstuose vartojamas angliškas santrumpas bei hibridus - angliškų santrumpų ir lietuviškų žodžių junginius ir kt“. Anot S. Rackevičienės, kuo kokybiškiau bus suanotuoti terminai, tuo tikslesnių ir išsamesnių rezultatų bus galima tikėtis iš neuroninių tinklų, kurie atpažins ir trauks terminus iš didelių tekstynų automatiniu būdu.

Antrajame projekto etape suplanuota atrinkti 300 svarbiausių angliškų terminų ir jų lietuviškų atitikmenų, iš kurių ir bus kuriama terminų duomenų bazė. Atlikus kibernetinio saugumo srities sąvokų sistemos analizę bus nustatytos sąvokų kategorijos ir jų tarpusavio ryšiai.

„Šios žinios būtinos norint tiksliai ir sistemiškai suformuluoti terminų apibrėžtis. Terminų aprašus duomenų bazėje taip pat papildysime terminų vartosenos pavyzdžiais bei statistiniais duomenimis. Taigi terminų bazė ne tik padės išsiversti terminą ir suprasti jo reikšmę, bet ir suteiks vartotojui informacijos, kurie terminai dažniausi ir kaip jie vartojami sakiniuose“, – pasakojo MRU profesorė S. Rackevičienė.