Rekonstruktion av stavningsvarianter i SAOB med normaliseringsregler från nusvenska till nysvenska
Abstract
Svenska Akademins ordbok skall bli färdigställd under 2023. En återstående del är att
återskapa äldre ord. Här härleder jag normaliseringsregler för att rekonstruera ortografiska
varianter av ord som förekommit från 1500-talet till 1900-talet. I ordboken finns det korta
sekvenser kopplade till orden med information om stavning som tidigare förekommit.
Problemet att identifiera positionerna i orden där dessa sekvenser skall substitueras in har
hittills ansetts olösbart. För detta problem har jag tagit fram en algoritm som bestämmer
vilken kombination av normaliseringsregler informationen består av och var den skall
substitueras in. Vissa ord är uppdelade i för- och efterled. När något av dessa led saknas,
ställs det andra ledet mot huvudordet för att dela detta i två delar. Här används
normaliseringsregler och metoden edit distance. Normaliseringsreglerna är framtagna från
etablerad språkhistorielitteratur. Vid sökning med textord i ordlistan efter tillägg av de
genererade orden minskar mätvärdet precision något, medan recall och F-score höjs
ordentligt. Sökningen efter nysvenska ord förbättras. En lista med återskapade ord
presenteras.
Degree
Student essay
View/ Open
Date
2023-09-22Author
Löfstrand, Charlotte
Keywords
Nysvenska, normaliseringsregler, edit distance, Natural Language Processing, NLP, normalisation, normalisering, ortografi, ortografihistoria, språkteknologi, språkhistoria, ordbok, återskapa, NLTK, regex, SAOB, svenska, Python
Language
swe