Að finna mynstrið í gögnunum

Í lokaverkefni sínu til BSc-gráðu í tölvunarfræði við Háskólann í Reykjavík þróuðu þau Carsten Petersen, Róbert Gunnarsson og Sigurrós Soffía Kristinsdóttir aðferð þar sem notast er við vélrænan lærdóm og gervigreind til að flokka gögn úr ársskýrslum íslenskra fyrirtækja.

Að finna mynstrið í gögnunum

„Það var fyrirtæki sem heitir Kóði sem kom með tillögu að lokaverkefni fyrir nemendur og okkur fannst þetta spennandi efni,“ segir Sigurrós Soffía um tilurð verkefnisins. Ársreikningar og árshlutauppgjör segja fjárhagslega sögu fyrirtækis, sögu sem er meðal annars mikilvæg mögulegum fjárfestum. Á Íslandi eru þessar skýrslur aðeins aðgengilegar almenningi á pdf-formi og þær fylgja lauslega skilgreindri uppbyggingu. Kóði býður fjármálafyrirtækjum ýmsar lausnir í upplýsingatækni og vildi geta náð í og unnið úr gögnunum sem eru í þessum skýrslum og gert þau aðgengileg á netinu.  

„Við sáum strax að við værum ekki að fara að vinna að birtingu gagnanna heldur kemur það seinna. Fyrst þurftum við að ná í gögnin.“ Hópnum datt strax í hug að nota vélrænan lærdóm, það sem er kallað machine learning techniques. Reiknirit sem mynda slíkan vélrænan lærdóm finna mynstur í gögnum og geta svo gert spár sem eru byggðar á þessum mynstrum. Þannig eiga hönnuðir kerfisins ekki að þurfa að sjá fyrir og koma með lausnir fyrir allar mögulegar aðstæður. Gert er módel með æfingagögnum sem svo er notað til að gera spár og til að draga lærdóm af þeim. „Módelið sem við gerðum var byggt á 300 ársreikningum. Við notuðum svo um 1200 skýrslur í textagreiningar (e. natural language processing) í forvinnslu á gögnum.“

Við byrjuðum með 1000 ársskýrslur sem Kóði lét okkur í té og við notuðum fyrirfram ákveðið reiknirit. Við bjuggumst við því að geta náð í að minnsta kosti 70% af gögnunum úr þremur aðalköflum hverrar ársskýrslu; efnahagsreikningi, rekstrarreikningi og sjóðstreymi,  en komumst að því að við gátum náð í 90%.“ Þau Carsten, Róbert og Sigurrós þurftu að útbúa sérstakt módel fyrir hvern kafla. „Mesta vinnan var við forvinnslu gagna þar sem við þurftum að flokka þau sjálf til að þjálfa algoriþmann, eða reikniritið, og sjá hvort hann lærði að lesa rétt úr gögnunum.“

Eitt af vandamálunum sem þurfti að leysa var hvernig haga skyldi flokkun gagnanna og skilgreina þurfti hópa sem reikniritið myndi læra að flokka eftir. Svo þurfti hópurinn að lýsa þessum flokkum á réttan hátt. Gögnin voru á pdf-sniði, sum voru á textaformi en önnur höfðu verið skönnuð. Þessar skýrslur urðu til með hjálp mismunandi hugbúnaðar svo að erfitt reyndist að ná í upplýsingarnar. „Við ákváðum að nota ekki skannaðar skýrslur og einblína á textaskrár á íslensku. Við forunnum textann með IceNLP, (e. natural language processing toolkit) fyrir íslensku sem var meðal annars þróað af Hrafni Loftssyni hér í HR.“

Hópurinn notaði WEKA (Waikato environment for knowledge analysis) til að búa til módelið. WEKA er opið Java-forrit sem er þróað af Háskólanum í Waikato í Nýja-Sjálandi. Það hefur yfir 100 reiknirit fyrir lærdómsreiknirit (e. learning algorithms). Reikniritið sem hópurinn notaði til að prófa gögnin var J48 sem býr til ákvörðunartré og þar að auki reikniritið Random Forest. 

Sigurrós Soffía starfar í sumar hjá Kóða og heldur áfram að þróa hugbúnaðinn sem verður notaður hér á landi eftir nokkur misseri. Gögnin verða í framtíðinni birt á vefsíðu fyrirtækisins hérlendis og erlendis.


Var efnið hjálplegt? Nei