Tímarit HR

Valdar greinar

Tímarit Háskólans í Reykjavík inniheldur fjölbreyttar greinar og viðtöl um rannsóknir og önnur viðfangefni nemenda og kennara við HR, í lífi og starfi. Það kom út í tíunda sinn í nóvember 2018. Hægt er að lesa tímaritið í heild sinni sem flettirit.


  • Jón stendur við súlu inni í HR

Safnar málsýnum fyrir sjálfvirka talgreina

„Ég er alltaf jafn undrandi á því hversu fjölbreytt og skemmtileg tungumál eru. Við höfum ótal mál, mállýskur, mismunandi samhengi og tónfall. Þetta getur allt verið hluti af tjáskiptum með talmáli. Þessi fjölbreytni sýnir hversu samofið mannlífi og hefðum talmálið er.“

Jón Guðnason, lektor við tækni- og verkfræðideild Háskólans í Reykjavík, fór á vormánuðum til eyjarinnar Jövu í Indónesíu til þess að safna upptökum á töluðu máli. Þessar upptökur eru notaðar til að gera talgreini en það er tækni sem gerir tölvum kleift að skilja talað mál. Ferðin var hluti samstarfsverkefnis Háskólans í Reykjavík og Google sem snýr að því að smíða hugbúnað til nota við að safna upptökum á töluðu máli fyrir þjálfun talgreina á fljótlegan og ódýran hátt. Markmiðið er að sem flestir geti talað við tölvur á sínu eigin tungumáli. Söfnun málsýnanna er umfangsmesti og tímafrekasti hlutinn við smíði talgreinis.

Jón dvaldi í tvær vikur á eynni ásamt þeim Matthíasi Péturssyni, sérfræðingi við HR, og Oddi Kjartanssyni, starfsmanni Google og fyrrverandi nemanda HR. 500 sjálfboðaliðar voru fengnir í upptökurnar en þeir voru flestir starfsmenn og nemendur tveggja háskóla í Yogokarta á Jövu. Starfsfólk frá svæðisskrifstofum Google aðstoðaði við að fá sjálfboðaliða og hafa umsjón með söfnuninni. Tilgangur ferðarinnar var að safna gögnum en ekki síður að prófa nýjan hugbúnað sem hefur verið hannaður innan HR og nefnist Eyra. Að sögn Jóns var verkefnið fyrsta alvöru prófunin á forritinu og því gafst þeim tækifæri til að breyta og aðlaga að það að alvöru aðstæðum. Alls safnaði rannsóknarteymið 250.000 upptökum og eru um 450 klukkustundir af upptökum nú aðgengilegar á opnum gagnagrunni. Þessi gögn geta svo nýst þeim sem vilja gera talgreini fyrir javönsku. Þess má geta að um 85 milljón manns hafa javönsku að móðurmáli og gætu nýtt sér talgreini byggðan á tungumálinu til að eiga samskipti við tölvur.

Myndin sýnir fólk safna gögnum á JavaAf hverju talgreinir?

Jón segir talgreina mjög mikilvæga. „Talgreinir gerir tölvu kleift að skilja talað mál. Þetta er samskiptamáti sem hefur hingað til verið alveg lokaður fyrir tölvum. Við höfum notað talmál með tækni eins og símum og talstöðvum, en þessi tæki hafa ekki getað greint innihald talmálsins. Nú geta tölvur greint ritmál nokkuð vel, til dæmis hvort þú sért að fá ruslpóst, fylgst með umræðu eftir ákveðnu orðavali og fleira. Og þá er næsta skrefið að greina það sem sagt er við þær.” Hann segir að ððli talmáls sé öðruvísi en það sem skrifað sé á lyklaborð. “Það er ekki jafn formlegt, það er líka víðtækara og býður upp á meiri möguleika.”

Google styrkir gerð Eyra

Hugbúnaðurinn sem Jón og samstarfsfólk hannaði til að safna málsýnum var þróaður innan HR og heitir Eyra. Google hefur gert talgreini fyrir íslensku í samstarfi við Jón og samstarfsfólk hans og styrkir gerð þessa nýja, opna hugbúnaðar. „Þetta er opið forrit og á að stuðla að því að hægt sé að búa til ókeypis talgreini. Google styrkir gerð Eyra, en forritinu er ætlað að skapa tæknilegar forsendur fyrir því að hægt sé að gera talgreini fyrir sem flest tungumál. Við viljum ekki að enska verði eina tungumálið sem hægt sé að nota.“ Eyra virkar þannig að settur er upp umfangsmikill setningalisti á vefþjóni. Notandi skráir sig inn og fær upp eina setningu í einu. Viðkomandi les svo setninguna upphátt. Þegar búið er að safna nægu magni upplesinna setninga er búið að mynda grunn. „Til þess að geta gert talgreini þarf þrenns konar málföng: mikið magn texta til að gera mállíkan, framburðarorðabók sem varpar orðum yfir í hljóð og svo hljóðupptökur með texta.”

Tungumálin ótrúleg

Tungumál í heiminum í dag eru um sjö þúsund talsins. Innan þessara tungumála eru svo ótal mállýskur. “Ég er alltaf jafn undrandi á því hversu fjölbreytt og skemmtileg tungumál eru. Við höfum ótal mál, mállýskur, mismunandi samhengi og tónfall. Þetta getur allt verið hluti af tjáskiptum með talmáli. Þessi fjölbreytni sýnir hversu samofið mannlífi og hefðum talmálið er.”

Flest tungumál sem til eru eru töluð af 10 þúsund manns eða færri, þannig að íslenskan er í raun ekki það lítið tungumál. Þau tungumál sem töluð eru af meira en milljón manns eru aðeins um 300. “Google hefur gert talgreina fyrir Google Voice Search fyrir um 50 tungumál, þar með talið íslensku,” segir Jón. “Markmiðið er að þróa lausnir til notkunar talmáls fyrir tölvur fyrir að minnsta kosti þessi 300 tungumál. Þetta þýðir að ég þarf að finna eitthvað enn sjálfvirkara kerfi en Eyra. Og skilvirkara!” Nú er verið að leita að næsta hentuga stað fyrir málfangasöfnun en á meðan sinnir Jón verkefnum við HR, meðal annars í samstarfi við Landspítala-Háskólasjúkrahús og Alþingi varðandi notkun talmáls í tövlukerfum stofnananna.

  • Eyra hugbúnaðurinn er opinn og öllum aðgengilegur á Github (github.com/Eyra­is/Eyra).
  • Unnið er að því að koma gögnunum frá Java fyrir á vefsvæðinu www.openslr.org