Multilingual Text Robots for Abstract Wikipedia – Using Grammatical Framework to generate multilingual articles on Swedish localities
Abstract
The vast amount of Wikipedia articles and languages has resulted in a high cost of
Wikipedia, i.e. the required time and dedication for making every article available in
every language. This paper describes the development of a multilingual text robot
that will use data from the database Wikidata to generate articles on Swedish localities
in various languages and how such a text robot can be beneficial for reducing
the cost of Wikipedia.
The text robot has been developed using the functional programming language
Grammatical Framework, the query language SPARQL, and Python. The topic of
Swedish localities was selected due to the large number of localities in Sweden, the
sparseness of currently existing Wikipedia articles on the topic (excluding Swedish
articles), and the fact that the same structure, with only slight variation, can be
used to describe all of the localities.
The results were articles containing approximately five sentences describing the locality,
a bullet list of events occurring in the locality, and corresponding media, such
as a picture of the locality or a weather forecast for the upcoming week. Based on
the results, one can deduce that the use of a text robot might be a good approach
for reducing the cost of Wikipedia since it produces over a thousand articles in several
different languages. Another notable fact is that all project group members are
bachelor’s students with no previous knowledge of Grammatical Framework or linguistics,
which shows that it is possible to develop a text robot with limited previous
knowledge.
Degree
Student essay
Other description
Den stora mängden wikipedia-artiklar och språk har resulterat i en hög kostnad för
Wikipedia, det vill säga den tid och det engagemang som krävs för att göra varje
artikel tillgänglig på varje språk. Denna artikel beskriver utvecklingen av en flerspråkig
textrobot som kommer att använda data från databasen Wikidata för att
generera artiklar om svenska tätorter på olika språk och hur en sådan textrobot kan
vara till nytta för att minska kostnaderna för Wikipedia.
Textroboten har utvecklats med det funktionella programmeringsspråket Grammatical
Framework, query-språket SPARQL samt Python. Ämnet svenska tätorter
valdes med hänsyn till det stora antalet tätorter i Sverige, det nuvarande ringa antalet
wikipedia-artiklar om ämnet (bortsett från svenska artiklar), och det faktum
att samma strukturkan användas för att beskriv alla orter med endast liten variation.
Resultaten var artiklar innehållande cirka fem meningar som beskriver tätorten,
en punktlista över händelser som inträffat i tätorten och motsvarande media, såsom
en bild på orten eller en väderprognos för den kommande veckan. Baserat på resultatet
kan man dra slutsatsen att användningen av en textrobot kan vara ett bra
tillvägagångssätt för att minska kostnaderna för Wikipedia eftersom den producerar
över ett tusen artiklar på flera olika språk. Ett annat anmärkningsvärt faktum är
att alla gruppmedlemmar är kandidatstudenter utan förkunskaper i Grammatical
Framework eller lingvistik, vilket visar på att det är möjligt att utveckla en textrobot
med begränsade förkunskaper.
Collections
View/ Open
Date
2023-03-03Author
Diriye, Omar
Folkesson, Filip
NIlsson, Erik
NIlsson, Felix
NIlsson, William
Osolian, Dylan
Keywords
Text robot
Natural Language Generation
Grammatical Framework
Multilingual Natural Language Generation
Abstract Wikipedia
Wikidata
Language
eng