MSc thesis (60 ECTS) defence- Benedikt Geir Jóhannesson- Department of Computer Science.
On Friday the 27th of May at 10:00, room M 104, Benedikt Geir will defend his MSc thesis. Everybody welcome to attend.
Abstract:
Entity Linking (EL) is the task of automatically disambiguating named entities (NEs) (Person, Organisation, Location, and Miscellaneous) in texts based on the context in which they appear. EL is considered a challenging task since NEs appearing in texts may be ambiguous and may often have many surface forms.
Zoom link to the event: https://eu01web.zoom.us/j/68717108817
The goal of this thesis is three-fold: First, to develop an annotated EL corpus for Icelandic. Second, to establish a baseline EL model for Icelandic that can be used for comparison purposes in future research. Third, to incorporate an entity-aware mechanism into an Icelandic language model for the purpose of better representing entities within it.
We annotate roughly 25 thousand NEs in the MIM-GOLD-NER corpus with Wikipedia links and, as a result, publish the first EL corpus, MIM-GOLD-EL, for Icelandic. We use mGENRE, a multilingual sequence-to-sequence EL model, to annotate MIM-GOLD-EL and improve our results using Wikipedia API Search. Using our combined methods, we are able to cover 53.9% of MIM-GOLD-NER.
We fine-tune and evaluate three types of Transformer-based models on the MIM-GOLD-EL corpus. We develop baseline models, by fine-tuning ConvBERT-base and ELECTRA-base, which achieve an accuracy of 74.69% when using up to 16 candidate entities per entity mention.
We continue the pre-training of an Icelandic language model, IceBERT-igc, using an entity-aware mechanism and an entity-annotated corpus from Wikipedia, and call the resulting model IceLUKE. Two versions are pre-trained, one focused on entity-related natural language processing (NLP) tasks, and the other focused on EL. We find that IceLUKE, pre-trained for entity-related NLP tasks, achieves an F1 score of 82.55%, outperforming IceBERT-igc by 6.24 percentage points when fine-tuned and evaluated on MIM-GOLD-NER containing eight NE types. Finally, using IceLUKE pre-trained for EL, we obtain an accuracy score of 88.37% and 90.13% for the local and global context versions of MIM-GOLD-EL, respectively.
Our experiments show that MIM-GOLD-EL can be used for the training and evaluation of EL models for Icelandic. They also show that the entity-aware IceLUKE outperforms IceBERT-igc by 15.10 percentage points when evaluated on MIM-GOLD-EL.
Útdráttur
Nafnaeinræðing (e. Entity Linking) er svið innan máltækni sem felst í því að einræða nafnaeiningar (mannanöfn (Person), fyrirtæki og stofnanir (Organisation), staði (Location), og ýmislegt (Miscellaneous)) í texta á sjálfvirkan hátt. Nafnaeinræð- ing þykir erfitt verkefni að leysa þar sem nafnaeiningar eiga það til að vera tvíræðar og geta komið fyrir í texta á mismunandi formi.
Markmið þessarar ritgerðar er þríþætt. Í fyrsta lagi að marka íslenska málheild fyrir nafnaeinræðingu. Í öðru lagi að koma á fót grunnlíkani (e. baseline model) fyrir framtíðarrannsóknir á þessu sviði. Í þriðja lagi að innvinkla nafna-meðvitaða (e. entity-aware) aðferð í íslenskt mállíkan í þeim tilgangi að gefa nafnaeiningum meira vægi.
Við mörkum rúmlega 25 þúsund nafnaeiningar í MIM-GOLD-NER málheildinni með tengingu í Wikipedia og gefum út fyrstu íslensku málheildina fyrir nafnaeinræðingu, MIM-GOLD-EL. Við nýtum okkur mGENRE, fjöltyngt runu-til-runu nafnaeinræðingarmállíkan, við að marka MIM-GOLD-EL og bætum svo niðurstöður okkar með notkun á Wikipedia API Search. Með því að nota þessar tvær aðferðir tekst okkur að marka 53,9% af MIM-GOLD-NER.
Við notum MIM-GOLD-EL til þess að fínstilla og leggja mat á þrjár tegundir íslenskra Transformer mállíkana. Við þróum grunnlíkön, ConvBERT-base og ELECTRA-base, sem ná 74,69% nákvæmni þegar notast er við allt að 16 kandídata til einræðingar.
Við höldum áfram forþjálfun á íslensku mállíkani, IceBERT-igc, með því að nota nafna-meðvitaða aðferð og nafnamarkaða málheild sem fengin er frá Wikipedia. Mállíkanið sem af þessu leiðir köllum við IceLUKE. Tvær útgáfur eru forþjálfaðar, sú fyrri beint að nafna-miðuðum máltækni verkefnum, og sú seinni sérstaklega beint að nafnaeinræðingu. Enn fremur, með því að nota fyrri útgáfu IceLUKE á MIM-GOLD-NER málheildina, tekst okkur að ná 82,55% F1 skori, 6,24 prósentustiga aukningu samanborið við IceBERT-igc. Að lokum, með því að nota seinni útgáfu IceLUKE tekst okkur að ná nákvæmni upp á 88,37% þegar notast er við útgáfu af MIM-GOLD-EL sem tekur tillit til staðbundins samhengis (e. local context), og 90,13% þegar notast er við útgáfu af MIM-GOLD-EL sem tekur tillit til svæðisbundins samhengis (e. global context).
Tilraunir okkar sýna fram á að hægt sé að nota MIM-GOLD-EL til þess að fínstilla og meta íslensk nafnaeinræðingarlíkön. Þær sýna einnig að við náum fram 15,10 prósentustiga aukningu á nákvæmni við það að innvinkla nafna-meðvitaða aðferð þegar íslenskt mállíkan er forþjálfað, fínstillt og metið á MIM-GOLD-EL.
Committee members:
· Hrafn Loftsson, Associate Professor, Reykjavik University, Supervisor
· Jón Guðnason, Associate Professor, Reykjavik University, Advisory role
· Stefán Ólafsson, Assistant Professor, Reykjavik University, Advisory role.