Vis plačiau naudojami dirbtinio intelekto įrankiai apmokomi pasitelkiant milžinišką duomenų kiekį. Kodėl svarbu, kad pokalbių robotai mokytųsi iš objektyvių šaltinių gausos? Į šį ir kitus klausimus atsako mokslininkai.
Kaip veikia pokalbių robotai? Į šį klausimą LRT KLASIKOS laidoje „Šviesi ateitis“ atsako ekspertai – dirbtinio intelekto asociacijos prezidentas doc. dr. Linas Petkevičius, Roterdamo Erasmus universiteto dirbtinio intelekto ekspertė Goda Mockutė, KTU tyrėjas, dirbtinio intelekto specialistas Mantas Lukauskas.
Kalbos robotų pamatas yra didieji kalbos modeliai (angl. large language models) – dirbtinio intelekto sistemos, kurios sugeba suprasti ir apdoroti įvairiuose šaltiniuose aptinkamą kalbą.
„Tipiškai, jeigu turime sakinį „Lietuvos sostinė yra Vilnius“, iš tokių įvairių sakinių sudaromas unikalių žodžių arba žodžio dalių, vadinamų teksto vienetų, žodynas. Tie unikalūs žodžiai vėliau naudojami apmokyti arba sukurti modelį, kuris prognozuotų, kad jeigu turime tokią sakinio pradžią, koks bus kitas žodis? Jeigu yra toks klausimas, koks galimas atsakymas?“ – paaiškina doc. dr. L. Petkevičius.
„Modeliai veikia pagal tikimybių principą. Generuodami tekstą, naują sakinį, jie pasirenka labiausiai tikėtiną ateinantį žodį pagal ankstesnius žodžius. Kitaip sakant, bando nuspėti, kuris žodis ar frazė geriausiai tiktų toliau tekste, turint omenyje, kas jau įvyko tame tekste, koks yra kontekstas“, – pasakoja dirbtinio intelekto ekspertė G. Mockutė.
Tuomet dirbtinio intelekto robotas įvertina turimus variantus ir pasirenka optimaliausią – pateikia atsakymą.
„Didieji kalbos modeliai būdavo apmokyti neuroniniai tinklai. Nuo 2017 m. atsirado vadinamoji transformerių architektūra, kurios dėmesys skiriamas vadinamajam dėmesio mechanizmui. Jis sugeba viename sakinyje nežiūrėti tik į paskutinį žodį ar kelis paskutinius žodžius, tačiau sakinio pradžioje esantį žodį susieti su sakinio pabaigoje esančiu žodžiu. Ir taip apdoroti visą sakinį“, – nurodo dirbtinio intelekto specialistas M. Lukauskas.
Pirmosios dirbtinio intelekto užuomazgos sukurtos dar 20 a. 6-ajame dešimtmetyje. Pirmuoju kalbos robotu vadinamas 1966-aisiais aprašytas Masačusetso technologijos instituto mokslininko Josepho Weizenbaumo modelis ELIZA. Jos programinis kodas sudarė 420 eilučių.
Šiuo metu populiariausi kalbos robotai yra „Microsoft Copilot“, „Anthropic Claude“, „Perplexity AI“, „Google Gemini“, „Open AI ChatGPT“.

Dabartiniai modeliai vadinami didžiaisiais, nes turi milijardus parametrų ir apmokomi milžiniškais duomenų kiekiais, sako mokslininkas L. Petkevičius.
„Modelis yra tiek protingas, [atsižvelgiant į tai] kokio tipo duomenys buvo duoti jam sukurti“, – mini pašnekovas.
Duomenis renka ir iš jų tekstynus sukuria IT specialistai. „Žmonės surenka milžiniškus tekstinius duomenis, tai gali būti knygos, straipsniai, svetainės, ir tada duoda modeliui, kad jis galėtų iš tų tekstų mokytis. Kyla klausimas dėl duomenų rinkimo iš viešai prieinamų šaltinių, nes tam tikros informacijos rinkimas gali kelti etinių klausimų“, – dalijasi G. Mockutė.
„Jeigu buvo naudoti tokie duomenys, kaip perrašyta istorija, cenzūruoti faktai, tokiais atvejais modelis būtent tų temų ir neatsakys korektiškai“, – pabrėžia L. Petkevičius.

Ypač svarbu, kad pokalbių roboto šaltiniai nebūtų vien šališki ar subjektyvūs.
„Įsivaizduokite, kad turime modelį, kuris mokosi tik iš vienos knygos vaikams apie visas egzistuojančias profesijas. Jeigu visa informacija toje knygoje būtų, kad visi gydytojai yra vyrai, ir jokios informacijos apie gydytojas moteris, tai būtų labai šališkas tekstas. Jeigu mokytume tuo tekstu savo modelį ir klaustume savo modelio (...), kuo užaugusios gali dirbti mergaitės, pagal tikimybių principą šis modelis niekada nesiūlys atsakymo „gydytoja“, – paaiškina G. Mockutė.
Dar vienas iššūkis – populiarieji pokalbių robotai dažniausiai mokomi anglų kalba, todėl lietuvių kalba DI modeliai veikia ne taip gerai, kaip galėtų veikti.




