Máltækni er framtíðin
Í framtíðinni munum við ekki nota mús og lyklaborð heldur stjórna tækjunum okkar alfarið með töluðu máli. En á hvaða tungumáli?
Undanfarin ár hafa Íslendingar ekki farið varhluta af miður upplífgandi fréttum af stöðu íslenskunnar og hafa fræðimenn síður en svo talið horfurnar góðar. Hrafn hefur tekið þátt í nefndarstörfum í fjölda ára til að kanna hver staðan er og þrátt fyrir uggvekjandi niðurstöður hefur lítið verið að gert, fyrr en nú. „Raunverulega hefur verið beðið eftir því í hátt í 20 ár að stjórnvöld setji einhverja fjármuni í þetta svið. Þau hafa verið sammála þessu og á tyllidögum er talað um hvað þetta er mikilvægt, þau geri sér grein fyrir því hver hættan er en svo hafa árin liðið og aldrei hefur neitt gerst. Fyrr en í fyrra, eftir að þessi stóra skýrsla kemur út, eftir að ný ríkisstjórn var mynduð. Þá er áætlunin komin í stjórnarsáttmálann og í fyrsta sinn er heilmikið fjármagn sett í verkefnið.“
Ekkert þýðingartæki til
Að sögn Hrafns inniheldur máltækniáætlunin fjögur kjarnaverkefni sem þarf að vinna að; talgreiningu, talgervingu, málrýni og vélrænar þýðingar. „Talgreining snýst um að greina tal og umbreyta í texta en talgerving breytir texta í talað mál. Talgervingin er afar hentug til dæmis fyrir blinda og þessa tækni er Blindrafélagið að nota í dag.“ Vélrænar þýðingar sem virka vel eru einnig afar mikilvægur þáttur verkefnisins. Í dag er ekkert tæki til sem þýðir íslensku yfir á önnur tungumál, og öfugt. „Við eigum ekkert almennilegt kerfi sjálf til þess að þýða milli íslensku og annarra tungumála. Við höfum verið að nota Google Translate en við vitum ekki einu sinni hvort Google muni þróa það áfram,“ segir Hrafn.
Ekkert tæki skilur íslensku í dag
Flest þekkja það þegar Word stingur upp á málfræðileiðréttingum fyrir enskan texta en í íslensku höfum við hingað til einungis þekkt stafsetningavilluleiðréttingar. „Þetta er það sem kallast málrýni og við eigum ekki til fyrir íslenskuna. Íslenskan er beygingalega flókin en það á í sjálfu sér ekkert að vera meira mál að greina íslensku en önnur tungumál.“ Aðspurður hvort það verði ekki flókið að fara í kringum það sem sumir telja meinlegar villur en aðrir nota í daglegu máli segir Hrafn að það verði alltaf fundnar leiðir í kringum slíkt. „Ef við værum til dæmis með málfræðileiðréttingarforrit í Word þá er alltaf spurningin hvernig villur á að grípa. Á til dæmis að grípa hina nýju þolmynd sem margir krakkar nota „það var barið mig“? Íslenskufræðingar myndu margir segja að þetta sé ekki villa lengur – þetta er komið inn í málið og því verður ekki breytt. Kannski myndi koma upp athugasemd á borð við „athugaðu að þú ert að nota nýju þolmyndina“. Sama með ýmis konar þágufallsnotkun „mér hlakkar til“ – sumir íslenskufræðingar myndu segja að þetta sé komið inn í málið.“ Tæknin mun nýtast til margra verka á öllum sviðum samfélagsins og þar nefnir Hrafn það sem stendur fólki ef til vill næst í daglegu lífi. „Það eru þessi tæki sem fólk er að nota á heimilinum, sem fólk talar við, eins og „spilaðu fyrir mig lag á Spotify“, „dimmaðu ljósin hjá mér,“ eða „dragðu niður gluggatjöldin“. Þetta er allt á ensku, það er ekkert tæki sem skilur íslensku í dag.“
Höfum tapað dýrmætum tíma
Önnur tungumál eru komin töluvert á undan okkur á þessu sviði, ekki síst stóru tungumálin, enska, franska, þýska og spænska og Norðurlöndin hafa einnig gott forskot. „Við erum auðvitað búin að tapa dýrmætum tíma af því að það er ekki eins og þetta sé eitthvað sem við erum að átta okkur á núna, það er búið að benda á þetta í langan tíma. Ef þessi stuðningur er ekki til staðar þá er hættan sú að krakkar alist upp við að eiga samskipti við tölvur og tæki með því að tala ensku. Það hefur sýnt sig í rannsóknum að það er mjög hættulegt þegar það er ekki hægt að nota tungumál lengur á ákveðnu sviði. Það er fyrsta vísbendingin um að það sé farið að grafa undan tungumálinu,“ segir Hrafn og leggur áherslu á að þessi tækni muni alltaf þróast áfram og í nánustu framtíð munum við hætta alveg að nota mús og lyklaborð og einungis tala við tækin okkar.
Gögnin tilbúin fyrir markaðinn
Máltækniáætlunin nær til fimm ára og er hugmyndin sú að að þeim tíma loknum verði búið að byggja grunn sem fyrirtæki geti síðan byggt ofan á það sem hentar þeirra starfsemi. Það kemur í hlut Almannaróms að vera í samskiptum við fyrirtæki, til dæmis tækja- og símaframleiðendur. „Hluti af því sem við erum að gera í máltækni er að búa til gagnasöfn sem eru greining á tungumálinu. Við segjum svo við fyrirtækin að við séum búin að vinna þessa grunnvinnu sem þarf til þess að koma íslenskunni inn í þeirra vöru. Fyrirtæki úti í heimi munu aldrei búa til talgreini fyrir íslensku, þau vita að þau þurfa að eyða svo miklum tíma í undirliggjandi gögn fyrir svona lítinn markað. En við getum sagt; gjörið svo vel, hér eru gögnin, við erum búin að búa þau til, eina sem þið þurfið að gera er að þjálfa líkanið ykkar. Til dæmis gætum við látið Apple hafa gögnin og sagt – hér er allt sem þarf, núna getið þið látið Siri læra íslensku,“ segir Hrafn.
Google stærsta máltæknifyrirtækið
Nú stunda níu manns meistaranám í máltækni, sem er samstarfsverkefni HR og HÍ. Námið hefur verið kennt frá 2007 og segir Hrafn mega bæta enn meira í. „Okkur hefur vissulega vantað fjármagn en annað sem hefur staðið okkur fyrir þrifum er lítill áhugi hjá tæknifólki, hjá þeim sem koma úr BSc-námi í tölvunarfræði. Atvinnuástandið hefur verið svo gott hjá þessum hópi að hann hefur að stóru leyti farið beint á vinnumarkaðinn. Ég vonast til að fá þessa nemendur að einhverju leyti inn í þessi verkefni og það sem er kannski stóra málið, að einhver haldi áfram í doktorsnám. Umræðan er að aukast og stóru fyrirtækin úti í heimi eru farin að nota þessa tækni, sem opnar marga möguleika fyrir þau sem stunda námið. Google er raunar bara stórt máltæknifyrirtæki, þar er verið að vinna með texta, búa til talgreina og þýðingar,“ segir Hrafn en hann er vel að merkja eini íslenski doktorinn í máltækni sem starfandi er á Íslandi um þessar mundir, sem hann segir alltof lítið. „Á næstu árum getum við tekið við fullt af fólki og það er nóg af verkefnum framundan – ef við ætlum að gera íslenskuna gjaldgenga.“