Mokslas ir IT

2019.09.13 09:08

Pokalbis su duomenimis: ką jie man gali pasakyti

LRT.lt2019.09.13 09:08

Prieš dvidešimt metų dirbtinio intelekto sąvoka buvo sutinkama tik fantastikoje. Šiandienos pasaulyje kas sekundę sugeneruojami milžiniški kiekiai duomenų. Tad dirbtinis intelektas tampa kasdieniu didžiųjų duomenų (angl. big data) analitikų įrankiu. Ar galite įsivaizduoti, kad apie 90 proc. duomenų šiuo metų prieinamų internete buvo sugeneruota per pastaruosius keletą metų?

Ir duomenų srauto kūrimas nesustoja. Žmogus be specialių žinių ir dirbtinio intelekto įrankių jų nebepajėgia apdoroti. Vilniaus universiteto (VU) Matematikos ir informatikos fakulteto (MIF) docentai Jurgita Markevičiūtė ir Povilas Treigys kviečia į pokalbį su duomenimis, provokuodami atrasti atsakymą į klausimą: ką jie mums gali pasakyti?

Duomenų amžius: kaip aš prie to prisidedu?

Kasdien prisijungdami prie interneto bei socialinių tinklų, sugeneruojame didelį kiekį duomenų: ieškodami informacijos internete, dalindamiesi nuotraukomis bei įrašais socialiniuose tinkluose, taip pat reaguojami į draugų bei pažįstamų pateiktas nuotraukas ar įrašus. Drąsiai galime teigti, kad gyvename duomenų amžiuje.

Kad suvoktumėte, apie kokius kiekius kalbame, keletas pavyzdžių. Kiekvieną dieną „Snapchat“ vartotojai pasidalija apie 3,5 mlrd nuotraukų (angl., snaps), kas minutę įkeliama 400 valandų video medžiagos portale „YouTube“, kasdien 500 mln. vartotojų aktyviai naudojasi „Instagram“. Didžiausi pasaulio žaidėjai duomenų saugojimo srityje yra „Google“, „Facebook“, „Apple“.

Duomenų apdorojimas: kodėl jis toks svarbus?

Iš pirmo žvilgsnio atrodo, kad kurti turinį ir juo dalintis internete – labai paprasta. Bet juk būna ir taip, kad net didieji pasaulio žaidėjai pateikia nemalonių staigmenų – stringa populiarios platformos, apribojami priėjimai. Didieji duomenys (angl. Big data) yra tokie dideli (kiekio prasme) ir sudėtingi (turinio prasme), kad juos apdoroti tradicinėmis priemonėmis ar įrankiais tampa neįmanoma. Tokie duomenys matuojami terabaitų/petabaitų skalėje, o duomenų srauto perdavimas iš duomenų centrų duomenų naudotojams – zetabaitais .

Susidūrus su dideliais kiekiais duomenų, turime išspręsti daug įvairių problemų. Viena iš jų yra ta, kad apie 80 proc. generuojamų duomenų nestruktūruoti. Kyla klausimas kaip juos struktūruoti, kad duomenis galėtų apdoroti kompiuteriai. Kita ne mažiau svarbi problema – kaip šiuos duomenis saugoti.

Kartu su didžiaisiais duomenimis taip pat įsibėgėja ir kita labai svarbi technologinė naujovė – RPA – robotinių procesų automatizavimas (angl. Robotic Proccess Automation). Valdant didelius duomenų kiekius, susiduriama su daugybe kompiuterinių sistemų, kurios turi keistis duomenimis. Atsižvelgiant į itin spartų technologijų vystymąsi, kai kurios kompiuterinės sistemos yra senesnės, kitos naujesnės, ką tik sukurtos. Kuriant naujas sistemas iškyla integracijos su senesnėmis poreikis, tačiau dažnai integracija būna per sudėtinga. Todėl žengiamas dar vienas žingsnis link dirbtinio intelekto taikymo ir IT srityje, jau leidžiantis programinei įrangai valdyti kitą programinę įrangą.

Statistiniai metodai: kaip prakalbinti duomenis?

Jau sužinojome, kaip paprastai sukuriami dideli kiekiai duomenų ir kokie procesai vyksta, norint juo apdoroti. Laikas duomenis prakalbinti. Šiame etape susiduriame su statistiniais ir/arba matematiniais metodais. Jie mums gali padėti nustatyti, kuo vienas socialinio tinklo vartotojas panašus į kitą. Tai galima padaryti, remiantis daugybe požymių: draugų ratu, informacija kuria dalinasi pats vartotojas ar kuri jam patinka ir pan. Tarkime, norite sužinoti, kuriame miesto rajone įvykdoma daugiausia nusikaltimų. Tokiu atveju irgi reikia remtis duomenų analizės metodais. Turime nustatyti ne tik nusikaltimų skaičių rajone, bet atsižvelgti ir į gyventojų, įstaigų/įmonių skaičių, įvertinti galimus padidintos rizikos taškus ir t.t.

Galbūt jums įdomu, kas laimės kitus rinkimus? Ieškodami atsakymo, galime remtis nuomonių apklausomis. Tačiau galime įvertinti ir rinkėjų nuomonę viešoje erdvėje, analizuodami jų pasisakymus. Ne mažiau svarbi priemonė yra rinkėjų reakcijos į politikų pasisakymus. Reakcija gali būti išreikšta įvairiai: „patiktukų“ skaičius, komentarų skaičius, „teigiamų“ ar „neigiamų“ žodžių komentaruose skaičius ir pan.

J. Markevičiūtė ir P. Treigys kviečia į Mokslo festivalio „Erdvėlaivis Žemė“ metu vyksiančią paskaitą „Pokalbis su duomenimis arba ką jie man gali pasakyti“ rugsėjo 16 d. 13 val. Ukmergės Antano Smetonos gimnazijoje (J. Basanavičiaus g. 7, Ukmergė) ir rugsėjo 18 d. 13 val. Druskininkų Ryto gimnazijoje, (Klonio g. 2, Druskininkai).

Mums svarbus tikslumas ir sklandi tekstų kalba. Jei pastebėjote klaidų, praneškite portalas@lrt.lt.