Frá House of Cards til Spotify
Allt byggist á gögnum. Grein eftir Yngva Björnsson, forseta
tölvunarfræðideildar
Notkunarmöguleikar greinds tölvubúnaðar til gagnagreiningar eru margvísilegir og viðfangsefnin óþrjótandi. Slík tækni er þegar farin að hafa víðtæk áhrif þó svo að þau séu aðeins að litlu leyti sýnileg almenningi.
Sú undirgrein tölvunarfræði sem hefur á undanförnum áratug vaxið einna mest í mikilvægi og vinsældum er svokölluð gagnagreining (e. data mining), þ.e. notkun reiknifræðilegra aðferða til að greina mynstur í stórum og flóknum gagnasettum.
Öldum saman hefur kerfisbundin söfnun og greining gagna nýst mannkyninu við að taka upplýstar ákvarðanir um mikilvæg málefni, ásamt því að gera okkur kleyft að gera uppgötvanir um þann heim sem við búum í, s.s. um gang himintunglanna. Slíkt var aðeins mögulegt með þróun tölfræðilegra greiningaaðferða, s.s. aðfallsgreiningu, til að finna samhengi í tölulegum gögnum. Með tilkomu tölvunnar jókst enn frekar geta okkar til að safna og greina gögn, jafnframt því að fjölbreytileiki þeirra gagna sem hægt var að vinna með jókst, sb. myndir og texti. Á undanförnum árum og áratugum hafa svo nýjar og enn öflugri greiningaraðferðir litið dagsins ljós sem nýta sér til fulls reiknigetu tölvunnar og sem bygga á þverfaglegri nálgun frá mörgum fagsviðum, þ.m.t. gervigreind, gagnasafnsfræði og hagnýttri tölfræði.
Hraði nútímasamfélags og það magn gagna sem er í umferð er einfaldlega orðið slíkt að það er erfitt, jafnvel ómögulegt, fyrir okkur mannfólkið að öðlast nægilega yfirsýn til að taka upplýstar ákvarðanir um mörg mikilvæg málefni án aðstoðar tölvu. Þess vegna eru fyrirtæki og stofnanir í síauknu mæli að nýta sér hugbúnað byggðan á gervigreindartækni til að greina gögn með því sjónarmiði að finna verðmætar upplýsingar í þeim sem geta nýst til bættar ákvarðanatöku.
Aðferðafræði við gagnagreiningu
Gagnagreining nýtist við margskonar ákvarðanatöku, sem getur verið jafn fjölbreytt og vandamálin eru mörg, og því engin ein greiningaraðferð sem alltaf hentar best. Hins vegur hefur með fenginni reynslu þróast þekking á því hvernig best er að standa að slíkri greiningarvinnu. Sú aðferðafræði sem flestir byggja á í dag er samkvæmt staðli sem nefndur er Cross-Industry Standard Process for Data Mining (CRIPS-DM) og byggist á eftirfarandi sex skrefum (sjá einnig mynd):
(1) Skilgreina vandamálið
(2) Nálgast og skilja gögnin
(3) Forvinnsla gagna
(4) Líkanagerð
(5) Mat á gæðum líkans
(6) Miðlun niðurstöðu
Í stórum dráttum er ferlið eftirfarandi:
Mikilvægt er að byrja á að skilja hvaða vandamál er verið að leysa, þ.e. hvaða spurningum er verið að reyna að fá svör við. Þegar það er ljóst þarf að athuga hvort hægt sé að nálgast gögn sem ætla mætti að gætu svarað viðkomandi spurningum. Þau gögn, sem hugsanlega geta komið úr mörgum áttum, þarf svo að að samþætta og forvinna á sniðmót sem hentar til líkanagerðar og aðeins þá getur líkanagerðin sjálf hafist, þar sem mismunandi greiningarlíkön eru útbúin byggð á gögnunum. Við þá vinnu er mikilvægt að fá hlutlægt mat á gæði líkananna sem verða til, helst með gögnum óháðum þeim sem notuð voru til að smíða líkönin. Að lokum, ef allt gengur að óskum, getur miðlun á niðurstöðu greiningarvinnunnar hafist, en sú miðlun getur einfaldlega verið í formi skýrslna með upplýsingum fengnum úr greiningarlíkaninu eða allt upp í að vera umfangsmikiðinnleiðingaferli á hugbúnaði byggðum á nýútbúnu greiningarlíkani.

Yfirlitsmynd yfir gagnagreiningarferlið samkvæmt CRISP-DM aðferðafræðinni. Mynd fengin frá Wikipedia.
Einnig, eins og sést á myndinni, þá eru skrefin sex í ferlinu ekki línuleg, heldur getur reynst nauðsynlegt að ítra hin mismunandi skref á ýmsum stigum ferlisins. Sem dæmi, ef ekki er mögulegt að nálgast nauðsynlegt gögn þá þarf hugsanlega að endurskoða spurningarnar, ef nýtt innsæi verður til við líkanagerðina gæti það kallað eftir nýju gögnum, eða ef ekkert viðeigandi líkan finnst þá þarf jafnvel að endurhugsa allt ferlið upp á nýtt.
Frá House of Cards til Spotify
Notkunarmöguleikar greinds tölvubúnaðar til gagnagreiningar eru margvísilegir og viðfangsefnin óþrjótandi. Slík tækni er þegar farin að hafa víðtæk áhrif þó svo að þau séu aðeins að litlu leyti sýnileg almenningi. Sem dæmi má nefna að þegar við erum að vafra eða versla á netinu þá er margskonar hugbúnaður bæði leynt og ljóst að fylgjast með hegðunarmynstri okkar og bera það saman við hegðun annarra einstaklinga og samfélagshópa. Markmiðið með slíkri upplýsingaöflun og greiningu getur verið margþætt, t.d. að birta einstaklingsmiðaðar auglýsingar eða flokka viðskiptavini í ákveðna markhópa sem er veitt mismunandi þjónusta.
Velþekkt er sagan af verslunarkeðjunni Target í Bandaríkjunum sem nýtti upplýsingar um breytingar á kaupvenjum kvenkyns viðskiptavina sinna til að spá fyrir um hvort þær væru orðnar óléttar, og sendi þeim svo auglýsingabæklinga með smábarnavörum í framhaldinu (og sem fékk gárungana til að búa slagorðið “Target knows before it shows”).
Annað nýlegra dæmi er þegar Netflix gagnaveitan tryggðu sér sýningarréttinn á þáttaröðinni Spilaborg (e. House of Cards) árið 2012 án þess að það væri svo mikið sem búið að útbúa einn einasta prufuþátt (e. pilot), eins og venjan er að gera fyrst. Í staðinn var upplýsingum um fyrirhugaða leikstjóra, leikara og söguþráð send í heimatilbúið gagnagreiningartól sem var búið að greina áhuga viðskiptavina veitunnar á margskonar gerð myndefnis, og sem spáði réttilega fyrir um vinsældir þáttanna. Þegar þættirnir voru fyrst auglýstir þá voru mismunandi stiklur sýndar mismunandi viðskiptavinum, sem byggði á áþekkri greiningarvinnu.
Að lokum má nefna að mörg fyrirtæki, stór sem smá, þ.m.t. Google, Facebook, Snapchat, Spotify og fleiri, byggja viðskiptamódel sín að stóru leyti á því að skapa verðmæti með því að greina hegðunarmynstur viðskiptavina sinna.