Hur betraktar vi en tavla?
En spatio-temporal matematisk modell för ögats attraktionsområden på en
tavla
What do we see when we look at art?
A spatio-temporal mathematical model of the eye’s regions of attraction on a
painting
Kandidatarbete inom civilingenjörsutbildningen vid Chalmers
Examensarbete för kandidatexamen i matematisk statistik vid Göteborgs
universitet
Simon Alacam
Nils Grimbeck
Måns Gustafsson
Simon Nordlund
Institutionen för Matematiska vetenskaper
CHALMERS TEKNISKA HÖGSKOLA
GÖTEBORGS UNIVERSITET
Göteborg, Sverige 2024
Hur betraktar vi en tavla?
En spatio-temporal matematisk modell för ögats attraktionsområden på en tavla
Simon Alacam
Nils Grimbeck
Måns Gustafsson
Simon Nordlund
© Författarna, 2024
Institutionen för Matematiska vetenskaper, Chalmers Tekniska Högskola & Göteborgs Universitet
Göteborg, 2024
Omslagsbild: Claude Monet, La terrasse à Sainte-Adresse. Public domain. Källa: The Metropolitan Museum
of Art.
Erkännanden, dedikationer och liknande personliga uttalanden återspeglar författarens egna åsikter.
Hur betraktar vi en tavla?
En spatio-temporal matematisk modell för ögats attraktionsområden på en tavla
Examensarbete för kandidatexamen i matematisk statistik vid Göteborgs universitet
Simon Alacam
Kandidatarbete i matematik inom civilingenjörsprogrammet Teknisk matematik vid
Chalmers
Nils Grimbeck Simon Nordlund
Kandidatarbete i matematik inom civilingenjörsprogrammet Maskinteknik vid
Chalmers
Måns Gustafsson
Handledare: Aila Särkkä Institutionen för Matematiska vetenskaper
Institutionen för Matematiska vetenskaper
CHALMERS TEKNISKA HÖGSKOLA
GÖTEBORGS UNIVERSITET
Göteborg, Sverige 2024

Förord
I detta kandidatarbete inom matematisk statistik ämnar vi att utforska hur man matematiskt kan
modellera ögats rörelsemönster på en tavla. Arbetet har skrivits under handledning av Aila Särkkä,
institutionen för matematiska vetenskaper vid Chalmers och Göteborgs universitet.
Vi vill först och främst uttrycka vår tacksamhet till vår handledare Aila Särkkä som kontinuerligt
stöttat och väglett oss under arbetets gång.
Under arbetets gång har det förts en veckovis dagbok innehållande individuella och gemensamma
bidrag. Ansvaret för denna har skötts genom ett rullande schema. Varje medlem har även fört en
tidslogg för antalet timmar som investerats i arbetet. Nedan finns även en tabell där huvudförfattare
för respektive del står listad. Samtliga medlemmar har även reviderat hela rapporten. Det finns
också en tabell för respektive medlems bidrag till modelleringsarbetet, vars källkod finns tillgänglig
via https://github.com/NilsGrimbeck/KandidatarbeteMVEX11-24-05.
Avsnitt Huvudförfattare
Förord Simon N & Nils
Populärvetenskaplig presentation Måns & Simon N
Sammandrag Simon A
Inledning Nils
Syftesbeskrivning och avgränsningar Nils
Ögonrörelsedata Nils
Data från universitetet i Jyväskylä Nils, Simon A
Betraktarens blick förändras över tid Nils
Etiska och samhälleliga aspekter Måns
Metoder och inledande dataanalys Nils
Spatiala mönster av fixeringar Simon A
Punktprocesser och intensitet Simon A
Kärnskattning Simon A
Fixeringspunkters förskjutning relativt förväntade attraktionsområden Nils
Fördelningar för fixeringstid, sackadtid, och sackadlängd Simon A
Modellering Måns & Simon N
Definition av ROI:er genom mean-shift-klustring Nils (om mean-shift), Måns &
Simon N (sista stycket & figurer)
Markovkedjor för att återskapa fokusförflyttningar mellan ROI:er Nils & Simon A
Punktgenerering Måns & Simon N
Statistikor Måns & Nils
Resultat och diskussion Nils
Slutsatser Nils
Appendix A Nils & Simon A
Appendix B Simon A
Appendix C Nils
Appendix D Simon N
Appendix E Nils
Modelldel Implementerat av Revision
Analys av fördelningar Simon A Nils
Mean-shift-klustring Nils Simon A
Markovkedjemodell Nils Simon A
Övergångssannolikheter Simon A Nils
Definition av ROI:er Måns Nils
Punktgenerering Måns, Nils, Simon N Simon A
Fixeringspunktsmönstermodell Nils
Intensitetsytor Simon A, Måns, Simon N Nils
Statistikor Nils, Måns, Simon N
Visualisering av ROI:er Måns, Simon N
Populärvetenskaplig presentation
När vi människor betraktar tavlor så rör sig blicken instinktivt och näst intill omedvetet över
tavlans olika delar. Vissa områden och komponenter lockar blicken mer och vissa detaljer får oss
att stanna upp för att titta lite extra. Hur våra ögon rör sig över tavlor kan säga mycket om vad
den innehåller och ge insikter kring betraktarens kognitiva processer och egna preferenser. Frågan
är vad som faktiskt lockar ögat och om det går att återfinna ett mönster hos olika personer. Går det
att återskapa dessa rörelser med en modell genom att undersöka de processer som beskriver ögats
rörelser? I detta arbete har ögats rörelser på en tavla undersökts och, med hjälp av matematisk
statistik, modeller skapats för att återskapa hur ögat rör sig.
Ögats rörelser kan i huvudsak delas upp i fixeringar och sackader som sker i en alternerande
sekvens. En fixering innebär att ögat är stilla och sackader är de korta ryck eller hopp som görs
mellan fixeringar. För att undersöka ögonrörelser används idag avancerad teknik för att spåra
ögats rörelser och position, så kallad eye-tracking. Eye-tracking utgår oftast från en kamera som
spelar in ögats rörelser och använder algoritmer som översätter informationen från kameraflödet
till hanterbara datapunkter. Datapunkterna är ofta koordinater, som anger var på det observerade
objektet en person fäster sin blick och tidsstämplar som anger när fixeringarna ägde rum och hur
länge de varade.
Detta arbete använder data från en tidigare studie där man jämfört ögonrörelser hos studenter
från universitetet i Jyväskylä, Finland. I den studien betraktade studenterna sex olika tavlor i
tre minuter vardera, medan eye-tracking-utrustningen spelade in ögonrörelserna. Vi undersöker
ögonrörelsedata från en specifik tavla, nämligen Claude Monets Terrassen vid Sainte Adresse (1867)
som syns i figuren nedan. Vi valde även att utgå ifrån data för de första trettio sekunderna för vår
modell.
Grundidén för modellen utgår från premissen att ögat tenderar betrakta vissa delar av tavlan mer
intensivt än andra. För Claude Monets Terrassen vid Sainte Adresse kan man ställa sig frågan,
var kommer blicken dras? Är det på den franska flaggan, paret vid räcket, mannen och kvinnan
som sitter ner eller kanske någon av båtarna vid horisonten? Ett sådant område med många
fixeringspunkter benämns som attraktionsområde. När man fastställt tavlans attraktionsområden
gäller det att bestämma exakt var inom detta område fixeringen bör hamna.
Claude Monets Terrassen vid Sainte Adresse. Public domain. Källa: The Metropolitan Museum of Art.
Sammantaget fungerar modellen som följande; först definieras alla attraktionsområden, sedan
beräknas sannolikheten att blicken går från ett specifikt attraktionsområde till ett annat.
Slutligen bestäms var fixeringen mest sannolikt bör hamna inom ett attraktionsområde eller i
resterande del av tavlan. På så sätt kan vi efterlikna hur ögat rör sig på tavlan. Resultatet från
modellen jämförs sedan med faktiska data med några statistiska mått.
Förhoppningen med modellen är att få en inblick i hur vi betraktar en tavla och utveckla nya
verktyg för ögonrörelseanalys. Vår modell lyckas efterlikna ögats rörelser för denna tavla, men för
att få en uppfattning om hur väl modellen efterliknar ögonrörelser generellt krävs att den valideras
på andra tavlor och för ett större antal personer.
Sammandrag
I detta arbete undersöks ögonrörelser på tavlan Terrassen vid Sainte Adresse (1867) av
Claude Monet, med hjälp av en stokastisk modell som simulerar hur betraktarens blick
förflyttas på tavlan. Modellen baseras på ögonrörelsedata från 20 försökspersoner som
observerade tavlan i tre minuter, där modelleringen begränsats till de första 30 sekunderna. I
analysen används sackader och fixeringar för att beskriva ögonrörelser. Sackader refererar till
snabba ögonrörelser mellan fixeringspunkter, medan fixeringar avser perioder när ögonen
fokuserar på en specifik punkt.
Inledningsvis används mean-shift-klustring för att identifiera de intressanta områdena på
tavlan. Därefter tillämpas Markovkedjor för att modellera övergångarna mellan dessa
områden, och slutligen används en skattning av intensiteten av fixeringsmönstret och
sackadlängderna för att positionera fixeringarna inom varje attraktionsområde. Huvudsyftet
med arbetet är att utveckla en modell som återskapar fixeringspunktmönster med hänsyn till
fokusförflyttningar mellan tavlans olika attraktionsområden och därmed introducera nya
verktyg för ögonrörelseanalys. Analys av attraktionsområden genom klustring av
fixeringspunkter är inget nytt inom konstvetenskaplig analys av betraktarens fokus men det
har inte tidigare kombinerats med punktprocesser. För att bedöma hur väl modellen
återskapar faktiska ögonrörelser, utvärderas modellen genom två statistikor, den totala
sackadlängden och det konvexa höljet av fixeringspunkter. Resultaten visar att den
utvecklade modellen framgångsrikt kan återskapa de grundläggande mönstren i
fixeringspunktdata.
Abstract
This thesis examines eye movements on the painting Terrace at Sainte Adresse (1867) by
Claude Monet using a stochastic model to simulate how an observer’s gaze moves on the
painting. The study is based on eye movement data from 20 participants who observed the
painting for three minutes, where the modelling is limitied to the first 30 seconds. The
analysis utilizes saccades and fixations to describe eye movements. Saccades refer to rapid
eye movements between fixation points, while fixations refer to periods when the eyes focus
on a specific point.
Initially, mean-shift clustering is used to identify the regions of interest on the painting.
Subsequently, Markov chains are applied to model the transitions between these regions, and
finally an estimation of the intensity of the fixation pattern and the saccade lengths is used
to position the fixations within each region of interest. The main purpose of the thesis is to
develop a model that recreates the fixation patterns with regard to the focus transitions
between different regions of interest on the painting and to introduce new tools for eye
tracking analysis. Analysis of areas of attraction by clustering of fixation points is not new in
art analysis of the observer’s focus but it has not previously been combined with point
processes. To assess how well the model recreates actual eye movements, the model is
evaluated using two statistics, the total saccade length and the convex hull of fixation points.
The results show that the developed model successfully recreates the fundamental patterns
in fixation data.
Innehåll
1 Inledning 1
1.1 Syftesbeskrivning och avgränsningar . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Ögonrörelsedata 3
2.1 Data från universitetet i Jyväskylä . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Betraktarens blick förändras över tid . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 Etiska och samhälleliga aspekter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 Metoder och inledande dataanalys 5
3.1 Spatiala mönster av fixeringar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.1 Punktprocesser och intensitet . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.2 Kärnskattning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2 Fixeringspunkters förskjutning relativt förväntade attraktionsområden . . . . . . . 6
3.3 Fördelningar för fixeringstid, sackadtid, och sackadlängd . . . . . . . . . . . . . . 7
4 Modellering 11
4.1 Definition av ROI:er genom mean-shift-klustring . . . . . . . . . . . . . . . . . . . 11
4.2 Markovkedjor för att återskapa fokusförflyttningar mellan ROI:er . . . . . . . . . . 12
4.3 Punktgenerering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4 Statistikor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
5 Resultat och diskussion 15
6 Slutsatser 18
Referenser 19
A Individuella fixeringspunktmönster i
B Statistiska skattningar och diagnostiska plottar iv
C Glasögons påverkan på fixeringspunktmönster viii
D ROI:er för samtliga individer ix
E Realisationer av modell B xiii
1 Inledning
Redan i slutet av 1800-talet upptäckte Javal, Brown, och Hering separat [1] att ögat rör sig i
korta ryck, kallade sackader, mellan vilopunkter, fixeringar, där ögat är relativt stilla [1, 2, 3]
och ögonrörelser kan därför representeras som en alternerande sekvens av sackader och fixeringar
[2, 3]. Vidare genereras tre till fyra sackader per sekund, under vilka synen hämmas, och de är
nödvändiga för att förflytta centralgropen, ögats detaljcentrerande område på näthinnan [4], till
relevanta områden i synfältet eftersom skärpan snabbt avtar mot periferin [3]. Dessa rörelser är ett
resultat av en kognitiv process och har därför analyserats inom en rad områden så som psykologi,
språk- och not-läsning, marknadsföring, och konstvetenskap [2]. I detta arbete är vi intresserade
av ögonrörelser på tavlor.
Redan 1935 publicerades How People Look at Pictures: a study of the psychology of perception in
art, en av de första systematiska eye-tracking studierna, av Guy Buswell där 200 försökspersoners
ögonrörelser dokumenterades under betraktande av fotografier och målningar [5]. Buswell
dokumenterade knappt 2000 fixeringspunktmönster på 55 fotografier vilka analyserades
kvalitativt snarare än statistiskt. Enligt Nicholas J. Wade [5] drar Buswell slutsatserna att
fixeringspunktmönster tenderar att klustra kring intresseområden i fotografiet, snarare än att
drivas av slumpen, vilket även senare kvantitativa studier bekräftat [3, 6]. Vidare drar Buswell
slutsatsen att olika individers fixeringsmönster tenderar att vara mer lika initialt än under
observationens fortskridande samt att fixeringslängderna tenderar att öka med tiden och att
skillnaden mellan personer med konstnärlig träning och noviser är liten [5].
På senare tid finns det en debatt kring vilka processer som i högst utsträckning definierar
ögonrörelser under en estetisk upplevelse, delvis på grund av hur olika studier lägger olika vikt
vid bottom-up och top-down processer. Massaro m.fl. [6] beskriver dessa processer som beroende
av komposition, balans, färg, symmetri, etc. respektive åskådarens kulturella bakgrund, intresse,
och erfarenhet. Ögonrörelserna visar därför även åskådarens selektion, och är en sammanställning
av vad som observerats och åskådarens intresse [3]. Fixeringspunkternas klustring visar därmed
vilka områden som skapar mening och eftersom detta delvis beror på uppgiften, så ändras även
åskådarens ögonrörelser mellan olika uppgifter [3, 6, 7]. Sådana områden kommer fortsatt
benämnas attraktionsområden och förkortas ROI från engelskans Region Of Interest.
Ögonrörelser kan avslöja mycket kring åskådarens visuella upplevelse, även om variationen är
stor mellan olika tavlor, uppgifter, och individer. De senaste 10 åren har det gjorts försök att
analysera detta som en realisering av en punktprocess eftersom fixeringspunkterna kan betraktas
som ett spatio-temporalt punktmönster, se bland annat Barthelmé m.fl. [3] och Ylitalo m.fl. [2].
I den senare studien presenteras även en enkel spatio-temporal punktprocessmodell i vilken de
slumpar en startpunkt från tavlans intensitetsyta genom att normalisera intensiteten till en bivariat
sannolikhetsfördelning varpå en sackadlängd l slumpas från en gammafördelning. Därefter väljs
nästa fixeringspunkt från den betingade sannolikhetsfördelningen av intensitetsytan på avstånd
l från nuvarande punkt. Fixeringstiden dras sedan från en fördelning för denna och processen
upprepas för önskat tidsintervall.
För att validera modellen använder de tre statistikor: det konvexa höljet, arean som täcks av
diskar runt fixeringspunkterna, och den totala längden av sackaderna. De två första beskrivs väl av
modellen medan den totala sackadlängden tenderas att underestimeras och de drar slutsatsen att
de långa sackaderna som sker i samband med fokusförflyttning mellan attraktionsområden i tavlan
inte tas hänsyn till i modellen.
1.1 Syftesbeskrivning och avgränsningar
Detta projektet syftar till att med avstamp i Ylitalo m.fl.s modell utveckla en stokastisk modell
som även återskapar påverkan på fixeringsmönstret från fokusförflyttningar mellan tavlans
ROI:er. Genom att förenklat anta att nästa ROI enbart beror på den föregående ämnar vi
modellera fokusförflyttningarna med Markovkedjor genom att skatta kedjans övergångsmatris
från ögonrörelsedata och i respektive ROI betrakta en realisering av en punktprocess för att
generera ett fixeringspunktmönster vilket implementeras på två olika sätt. I modell A föreslås
1
Figur 1: Claude Monets Terrassen vid Sainte Adresse. Public domain. Källa: The Metropolitan Museum
of Art.
nästa punkt likformigt i respektive ROI medan punktens placering i modell B föreslås på ett
avstånd l som skattas från ögonrörelsedata om nästkommande punkt är i samma ROI. Vid
övergång mellan ROI:er föreslås punkten så som i modell A.
Eftersom modellen endast baseras på fixeringspunktsdata, och inte direkt på tavlans komponenter,
kan detta arbete inte besvara hur bottom-up respektive top-down processer samverkar. Fokus
ligger därför på att återskapa de mekanismer som styr ögats rörelser på en populationsnivå och
på så sätt skapa en modell ur vilken vidare undersökning av betraktande av konst kan baseras.
Modellutvecklingsarbetet baseras på Claude Monets Terrassen vid Sainte Adresse (figur 1) och
vi har valt att fokusera på en tavla eftersom det huvudsakliga syftet med detta arbete är att
introducera nya verktyg för ögonrörelseanalys. Vidare är de data som detta arbete baseras på,
vilka beskrivs i avsnitt 2.1, inte ett oberoende stickprov och resultaten kan inte utan validering
med ögonrörelsedata från andra källor generaliseras till en hel population. Denna rapport bör därför
ses som en förstudie där modellutvecklandet presenteras.
2
Figur 2: Fixeringspunkter över Claude Monets Terrassen vid Sainte Adresse, för samtliga
försökspersoner. För individuella fixeringspunktmönster, se appendix A.
2 Ögonrörelsedata
Utifrån de grundantaganden som beskrivs i avsnitt 1.1 används ögonrörelsedata från en studie
utförd vid universitetet i Jyväskylä, Finland, vilken även Ylitalo m.fl. [2] använt, för att skatta
modellens parametrar. I detta avsnitt presenteras dessa data och avgränsningar samt etiska och
samhälleliga aspekter av arbetet diskuteras.
2.1 Data från universitetet i Jyväskylä
I försöket vid Jyväskylä deltog 20 studenter som fick i uppgift att observera sex olika tavlor i tre
minuter vardera medan de verbalt beskrev tavlornas stämning. Samtidigt registrerades deras
ögonrörelser utifrån vilket fixeringspunkter, fixeringstider, och sackadtider beräknades, se Ylitalo
m.fl [2]. Modelleringen i detta arbete baseras på dessa tre mått och modellen avgränsas därmed
såvida att tavlans komposition endast indirekt tas i beaktande genom fixeringspunkternas
fördelning, vilka visualiseras i figur 2. Under försöket delades försökspersonerna upp i två
grupper: experter, bestående av tio studenter med konstintresse, och noviser, vilket inkluderade
tio studenter utan specifik konstbakgrund. Av de tjugo försökspersonerna var fem män och
femton kvinnor varav tre män och sju kvinnor var noviser, vilket detta arbete inte tar hänsyn till.
Ylitalo m.fl. [2] hittade i deras artikel inte några större skillnader mellan grupperna och vi
behandlar därför inte grupperna separat i modelleringsarbetet. Vissa individers data innehåller
några fixeringspunkter som registrerats utanför tavlan och dessa filtreras bort för att enbart
fånga det estetiska engagemanget utan störningar från omgivningen.
3
2.2 Betraktarens blick förändras över tid
I The Vienna Integrated Model of Art Perception som utvecklats av Palowski m.fl. [8] vid
universitetet i Wien argumenterar författarna för hur en åskådare ser på konst förändras under
betraktandet. Enligt dem domineras de första 6-8 sekunderna av bottom-up-processer varpå
top-down-processer blir allt mer dominerande och efter 30-60 sekunder påverkar betraktarens
övergripande tankestruktur i allt högre grad. Empiriska analyser av de data som används i detta
arbete stödjer denna hypotes genom att bland andra Berntsson m.fl. [9] och Ylitalo m.fl. [2] visat
att fixeringstiderna tenderar att bli signifikant längre efter 30 sekunder än under de initiala 30
sekunderna. Vidare visade Smith m.fl. [10] att betraktares engagemang med en tavla generellt
avtar efter cirka 30 sekunder och Massaro m.fl. [6] visade att om en tavla innehöll människor så
innehöll de två första ROI:erna deras ansikten bland 92.6% av betraktarna, och övriga delar av
tavlan utforskades senare under betraktandet. Med denna bakgrund avgränsar vi därför
modelleringen till de första 30 sekunderna av observationsfönstret på tre minuter från vilket data
finns tillgängligt.
2.3 Etiska och samhälleliga aspekter
Vid forskning som innefattar mänskliga försökspersoner finns en rad bestämmelser kring etiska
riktlinjer. De grundläggande etiska principerna för forskning kan kort sammanfattas till att
forskningen bör göra nytta, undvika skada och respektera försökspersonernas integritet och
autonomi [11]. Denna sammanfattning grundar sig i de villkor kring forskningsetik som beskrivs i
Lag (2003:460) om etikprövning av forskning som avser människor [12]. Där beskrivs de
utgångspunkter som finns vid etikprövning och vad som måste uppfyllas för att godkännas vid en
prövning. För detta arbetets del, då endast data från Ylitalo m.fl. används, bör främst
försökspersonernas integritet och rätt till anonymitet tas i beaktning.
Det finns stora framsteg inom ögonspårning och hur tekniken kan användas till
användaridentifikation. Kröger m.fl. [13, Kap. 15, ss. 226–241] beskriver hur ögonspårningsdata
kan användas för att på olika sätt identifiera en person. De skriver om studier som gjorts där man
använt ögonspårningsdata från personer när de exempelvis betraktat stillbilder från romantiska
filmer och under online-shopping, från vilket det var möjligt att avgöra könet på en person.
Eftersom detta arbete inte använder data från specifik media som valts ut i ett särskilt syfte att
identifiera en person bör möjligheten till identifikation av försökspersonerna vara försumbar.
Risken att inskränka på försökspersonernas integritet eller anonymitet anses därför vara mycket
liten.
En annan potentiell risk med arbetet är huruvida resultatet kan användas av någon utomstående
för något som inte är i försökspersonernas intresse. Specifikt gäller detta om modellen som skapas
kan användas som ett verktyg vid marknadsföring eller i andra kommersiella syften. Det skulle
krävas att modellen i sådant fall är applicerbar på den typ av media som är intressant för en
utomstående aktör och inte endast den tavla som arbetet är baserat på. Risken för detta anses
också mycket låg eftersom modellen endast baseras på fixeringspunktmönster från försökspersoner
och inte på tavlans komponenter, även om det finns en korrelation mellan dessa.
4
3 Metoder och inledande dataanalys
I modelleringen, vars grundläggande antaganden presenterats i avsnitt 1.1 och vars
implementering presenteras i detalj i avsnitt 4 används sannolikhetsfördelningar och metoder från
spatial statistik för att generera fixeringspunktmönster. Detta avsnitt syftar därför till att passa
lämpliga sannolikhetsfördelningar för fixeringstid, sackadtid, och sackadlängd samt skatta
intensiteten för data från Ylitalo m.fl. [2] som presenterats i avsnitt 2.1.
3.1 Spatiala mönster av fixeringar
I denna del av rapporten betraktar vi fixeringspunktmönstren, som observeras när individer
betraktar konstverket, specifikt som realiseringar av spatiala punktprocesser. Detta möjliggör en
kvantitativ analys och visualisering av de områden på konstverket som oftast fångar betraktares
uppmärksamhet.
3.1.1 Punktprocesser och intensitet
En punktprocess är en modell för en samling av punkter som är slumpmässigt fördelade över ett
område och används för att beskriva spatiala punktmönster. I denna studie använder vi
punktprocessmodellen för att beskriva och analysera fixeringar inom det visuella fältet av
konstverket. Genom att modellera dessa fixeringar som en punktprocess kan vi kvantitativt
undersöka och visualisera de områden på konstverket som mest frekvent drar till sig betraktares
uppmärksamhet [14, Kap. 6, ss. 128–129].
Intensitetsfunktionen λ(x) av en punktprocess, anger det förväntade antalet punkter av processen
per enhetsarea vid varje punkt x inom det undersökta området. För en homogen punktprocess,
där intensiteten λ är konstant över hela området, kan detta uttryckas som:
N(W )
λ = , (1)
|W |
där N(W ) är det förväntade antalet punkter av processen inom området W , och |W | är arean av
W . För icke-homogena punktprocesser varierar λ(x) över ytan. Det är denna variation i intensitet
som vi avser att utforska och kvantifiera genom kärnskattning, en metod som är användbar för att
skatta och visualisera variationen i intensitetsfunktionen [14, Kap. 6, ss. 157–160].
3.1.2 Kärnskattning
Kärnskattning, eller kernel density estimation (KDE) från engelskan, är en icke-parametrisk
metod för att uppskatta intensitetsfunktionen baserat på ett punktmönster. Matematiskt kan
kärnskattningen för en uppsättning punkter x1,x2 . .(. xn ∈ W)representeras som:
1 ∑n x− xi
f̂(x) = K , (2)
nh h
i=1
där f̂(x) är den uppskattade intensiteten vid punkten x ∈ W , K är kärnfunktionen som oftast är
Gaussisk och h är bandbredden som avgör kärnans bredd och därmed hur slät
intensitetsuppskattningen blir [15, Kap. 5, ss. 126–127].
För att hantera komplexa eller multivariata datastrukturer kan bandbredden h ersättas med en
bandbreddsmatris H. Denna anpassning gör det möjligt att anpassa kärnskattningen för varje
dimension. Formeln för kärnskattning i det multiva(riata fallet är:∑n1 )
f̂(x) = K H−1/2(xi − x) , (3)
n|H|1/2
i=1
där |H|1/2 är kvadratroten av determinanten av bandbreddsmatrisen H, vilket normaliserar
kärnfunktionen över dimensionerna av data [16].
5
Valet av bandbredd är avgörande, eftersom en för liten bandbredd kan leda till en brusig
representation, medan en för stor bandbredd kan dölja strukturer hos data. I vår analys av
ögonrörelser används kärnskattning för att skapa en intensitetsyta som visuellt representerar de
områden på konstverket som drar mest uppmärksamhet. Ögonrörelsedata omvandlas till
punktmönster i R genom att använda objektet ppp (planar point pattern) från spatstat-paketet,
vilket anpassar data för spatial analys [14, Kap. 3, s. 54]. Därefter appliceras
density()-funktionen för att utföra kärnskattningsanalysen, denna funktion tillämpar
kärnfunktionen K och den valda bandbredden h för att generera en kontinuerlig intensitetsyta
över det definierade området [14, Kap. 6, ss. 168–170].
Bandbredden h bestäms initialt i vårt fall genom funktionen bw.diggle(), som använder
korsvalidering för att hitta en optimal bandbredd. Denna initiala skattning ger oss en grund att
utgå ifrån, men ytterligare manuell justering av bandbredden har också utförts baserat på en
noggrann visuell granskning av intensitetsytan för att finjustera resultatet [14, Kap. 6, s. 171].
Effekten av olika bandbredder h, inklusive valet av h = 20 som visade sig ge en optimal balans
mellan detaljnivå och släthet, illustreras tydligt i figur 3.
(a) h = 10 (b) h = 20
(c) h = 40
Figur 3: Intensitetsytor över Claude Monets Terrassen vid Sainte Adresse, baserat på samtliga
försökspersoner med olika val av bandbredd h.
3.2 Fixeringspunkters förskjutning relativt förväntade
attraktionsområden
Enligt Massaro m.fl. [6] lokaliseras majoriteten av fixeringspunkterna kring mänskliga objekt,
särskilt ansikten, under den inledande observationen. Eftersom figur 3b visar intensiteten för de
första 30 sekunderna för samtliga individer överlagd på Claude Monets Terrassen vid Sainte
Adresse är det därför att vänta att intensitetsytans maximipunkter bör sammanfalla med de fyra
mänskliga objekten, men detta är inte fallet för kvinnan med parasollet och mannen i fåtöljen.
Fixeringspunkternas koordinater kan därför antas vara något förskjutna. Detta bör dock inte
påverka modellen som presenteras i kommande avsnitt eftersom den endast baseras på
fixeringspunktdata, och inte på tavlans komposition. Därför genomförs ingen korrigering för
6
denna misstänkta förskjutning, men med konsekvens att visualiseringar av faktiska och erhållna
fixeringspunktmönster inte till fullo återger vad som betraktats.
Det framgår även av undersökningsprotokollet att fem av 20 försökspersoner använt glasögon
under betraktandet av de sex tavlorna och att reflektioner i glaset kan påverka
ögonrörelseinspelningen. För att undersöka detta jämförs intensitetsytorna för olika individer i
appendix C. Inga större skillnader mellan intensitetsytorna kan visas och därför inkluderas
samtliga individers fixeringspunktmönster i analyserna.
3.3 Fördelningar för fixeringstid, sackadtid, och sackadlängd
För att identifiera lämpliga fördelningar för fixeringstider, sackadtider och sackadlängder under de
första 30 sekunderna av observationsfönstret på tre minuter, genomförs en inledande dataanalys.
Denna analys inkluderar alla fixeringar som registrerats på tavlan och de visualiseras med hjälp
av histogram i figur 4.
(a) Histogram över fixeringstider i ms för alla (b) Histogram över sackadtider i ms för alla
individer individer
(c) Histogram över sackadlängder i pixlar för alla
individer
Figur 4: Histogram för fixeringstid och sackadtid i ms, och sackadlängder i pixlar.
Vi jämför olika statistiska fördelningar, nämligen gamma-, weibull-, lognormal- och
exponentialfördelningar, för att bestämma vilken som bäst representerar de observerade
datamönstren. För att ge en grundlig förståelse för dessa fördelningar, presenterar vi här
definitionerna för de förekommande fördelningarna i vår analys.
Definition 1 (Exponentialfördelning) En kontinuerlig stokastisk variabel X sägs vara
exponentialfördelad med intensitetsparamete{r λ > 0 om dess täthetsfunktion ges av
λe−λx för x ≥ 0,
f(x;λ) = (4)
0 för x < 0,
7
där väntevärdet och variansen för en exponentialfördelad stokastisk variabel ges av E(X) = 1λ
respektive V ar(X) = 1λ2 [17, Kap. 3, ss. 98–99].
Definition 2 (Lognormalfördelning) En positiv kontinuerlig stokastisk variabel Y sägs vara
lognormalfördelad om dess logaritm ln(Y ) är normalfördelad, alltså om ln(Y ) ∼ N(µ, σ2). Detta
innebär att täthetsfunktionen för Y ges av
1 (ln y−µ)2
fY (y) = √ e− 2σ2 för y > 0, (5)
yσ 2π
där µ är medelvärdet och σ är standardavvikelsen för ln(Y ) som bestämmer fördelningens form
[17, Kap. 3, ss. 111–112].
Definition 3 (Gammafördelning) En kontinuerlig stokastisk variabel X sägs vara
gammafördelad för x ≥ om dess täthetsfunktion ges av
βα
f (x) = xα−1e−βxX för x ≥ 0, (6)
Γ(α)
där α > 0 är formparametern, β > 0 dess intensitetsparameter och Γ(α) är gammafunktionen [17,
Kap. 3, ss. 113–114].
Definition 4 (Weibullfördelning) En positiv kontinuerlig stokastisk variabel X sägs vara
weibullfördelad om den har täthetsfunktio(nen)α−1
α x α
f (x) = e−(
x
X λ
) för x ≥ 0, (7)
λ λ
där α > 0 är formparametern och λ > 0 är skalfaktorn [18].
För att bestämma de parametervärden som mest sannolikt har genererat observerade data,
tillämpas Maximum Likelihood-metoden för parameterskattning. Detta uppnås genom att
maximera loglikelihoodfunktionen,
∑n ( )
l(θ) = log f(xi|θ) , (8)
i=1
där f(xi|θ) är täthetsfunktionen för observation xi givet parametern θ. Man maximerar med
avseende på θ, med syftet att identifiera det värde på θ som maximerar sannolikheten för all
observerad data, vilket indikerar bäst anpassning mellan modellen och data [17, Kap. 7, ss.
280–281].
Vi kompletterar denna metod med bootstrap-analyser för att generera konfidensintervall för de
skattade parametrarna. Bootstrap är en statistisk teknik där man upprepat drar stickprov från
den empiriska fördelningen med återläggning, så att varje stickprov innehåller samma antal
observationer som originaldata, för att beräkna skattningar och konfidensintervall [17, Kap. 8, ss.
409–410]. Resultaten från dessa analyser presenteras i appendix B.
Med konfidensintervallen från bootstrap-analyserna som bekräftar parametrarnas stabilitet,
tillämpas även Kolmogorov-Smirnovs-test för att ytterligare validera fördelningens anpassning.
Testet kvantifierar avvikelsen mellan de teoretiska och empiriska fördelningarna, vilket ger en
kvantitativ bedömning av fördelningens anpassning. För att formellt definiera detta test,
presenteras följande:
Definition 5 (Kolmogorov-Smirnovs-test) Kolmogorov-Smirnov goodness of fit-testet är en
icke-parametrisk metod som används för att bestämma om en samling oberoende observationer
x1, . . . , xn överensstämmer med en specifik sannolikhetsfördelning. Testet jämför den empiriska
kumulativa fördelningsfunktionen Fn(x) med den teoretiska kumulativa fördelningsfunktionen F (x).
Teststatistikan D definieras som:
D = sup |Fn(x)− F (x)|, (9)
x
8
vilket är det maximala avståndet mellan Fn(x) och F (x), där sup betecknar supremum. Ett högt
värde på D indikerar en större avvikelse mellan de empiriska och teoretiska fördelningarna, vilket
kan tyda på att den föreslagna modellen inte passar data väl. För att avgöra om nollhypotesen om
att Fn(x) kommer från F (x) bör förkastas, kan kritiska värden från Kolmogorov-Smirnov-tabeller
användas [19][14, Kap. 10, ss. 381–382].
Teststatistikans värden visas i tabell 1. Kolmogorov-Smirnov-testet ger även p-värden, men för
alla fördelningar gällande fixerings-, sackadtider och sackadlängder erhåller vi p-värden < 0.05,
vilket vanligtvis indikerar en dålig passform eftersom att nollhypotesen förkastas för p-värden
under signifikansnivån. Denna tolkning kan dock vara missvisande i stora datamängder, där även
minimala avvikelser från den teoretiska fördelningen kan leda till mycket små p-värden. Detta
beror på att testets känslighet ökar med antalet datapunkter och därför bör dessa p-värden inte
användas isolerat för att bedöma fördelningens passform.
Tabell 1: Kolmogorov-Smirnov goodness of fit-statistik för de olika fördelningarna för fixeringstider,
sackadtider och sackadlängder.
Kolmogorov-Smirnov Gamma Weibull Lognormal Exponential
Fixeringstider 0.1626 0.1392 0.2318 0.1589
Sackadtider 0.1257 0.1284 0.0641 0.1566
Sackadlängder 0.0459 0.0463 0.0664 0.0395
(a) Diagnostiska plottar för exponentialfördelning av (b) Diagnostiska plottar för lognormalfördelning av
fixeringstider sackadtider
(c) Diagnostiska plottar för gammafördelning av
sackadlängder
Figur 5: Diagnostiska plottar inkluderande Q-Q-plot, P-P-plot samt jämförelser av empiriska och
teoretiska fördelningsfunktioner.
9
För att komplettera den kvantitativa analysen, används diagnostiska plottar för att visualisera
hur väl de teoretiska fördelningarna överensstämmer med observerade data. Från de diagnostiska
plottarna i figur 5 presenteras de valda fördelningarna som lämpar sig ganska väl för dessa data.
För fixeringstider väljer vi exponentialfördelningen, även om både weibull- och gammafördelningen
också visade goda passformer. Valet av fördelning baseras inte på signifikanta skillnader mellan
modellerna, utan snarare på att de presterade likvärdigt.
För sackadtider framstår lognormalfördelningen som den mest lämpliga modellen, även om
exponentialfördelningen också skulle kunna vara ett lämpligt alternativ. När det gäller
sackadlängder, visar gamma-, weibull- och exponentialfördelning goda passformer. Vi väljer
gammafördelningen baserat på en helhetsbedömning av dess egenskaper i de diagnostiska
plottarna, trots att skillnaderna mellan fördelningarna är marginella. Dessa val grundar sig på en
noggrann analys med fokus på visuella bedömningar från Q-Q- och P-P-plottar. I varje fall har
en av de mest passande fördelningarna valts baserat på dessa bedömningar. Detaljerna för dessa
analyser, inklusive alla relevanta diagnostiska plottar och resultat, finns tillgängliga för fördjupad
granskning i appendix B.
10
4 Modellering
Modellen består i huvudsak av tre komponenter: klustring, Markovkedjor och punktgenerering.
Först utgår modellen från ett slumpmässigt valt tillstånd utifrån en Markovkedja, där tillstånden
består av ROI:er och bakgrunden, vilka definierats genom en klustringsalgoritm. Därefter
genereras en punkt slumpmässigt inom det givna området med avseende på den skattade
intensitetsytan. Två olika algoritmer för punktgenerering presenteras. Dessa resulterar i en mängd
modellbaserade fixeringspunkter på tavlan som jämförs med faktiska data med hjälp av två
statistikor, vilka presenteras i avsnitt 4.4.
4.1 Definition av ROI:er genom mean-shift-klustring
För att definiera ROI:erna i tavlan utgår vi från den klustringsmetod, mean-shift (MS), som föreslås
i Robust Clustering of Eye Movement Recordings for Quantification of Visual Interest av Santella
m.fl. [7].
MS-klustring är en icke-parametrisk metod som identifierar kluster av punkter, i detta fall
fixeringspunkter, genom att iterativt flytta punkter mot områden med högre densitet. Detta
uppnås genom att beräkna ett lokalt masscentrum, där punkterna viktas med en kärnfunktion
K(x). De punkter som konvergerar mot lokala maxima, där punkttätheten är som högst, anses
tillhöra samma kluster. Denna metod är beräkningsmässigt kostsam men effektiv för att hantera
avvikande data och brus, vilket gör den väl lämpad för klustring av ögonrörelsedata [7]. Vi
implementerar detta genom ms-funktionen i LPCM paketet i R, vilken baseras på Ameijerias-Alonso
m.fl. [20, 16] vars resonemang återges här:
Definition 6 (Mean-shift-klustring) Betrakta en stokastisk vektor X med täthetsfunktion f :
R2 → R och medelvärde µ = (µ1,µ2) från vilken vi har n realisationer x1,x2,...xn. Låt H =
diag(h21,h22) vara en diagonal matris med positiva bandbredder hi och låt K(x) vara en kärnfunktion.
I de lokala maximipunkterna är gradienten av intensitetsytan f̂ av f , som ges av ekvation (3), lika
2
med noll. Genom att lösa ut x ur gradienten med en Gaussisk kärnfunktion K(x) = √1 e−||x|| /2
2π
erhålles ∑∑i∈N K(H−1/2(xi − x))xix = − := µ(x). (10)
i∈N K(H
1/2(xi − x))
Det framgår av (10) att x är lika med det viktade medelvärdet av punkter i omgivningen av x.
Genom att iterativt beräkna x(n) = µ(x(n−1)) nås lösningen av (10) och alla punkter i dessa data
som tillhör samma maxima sägs tillhöra samma kluster [16].
Valet av bandbredder H är därför en avgörande faktor i klusterformationen eftersom det avgör
hur stor omgivning som tas hänsyn till i varje iteration och därmed även klusterseparationen
[7, 16]. En vanlig utgångspunkt för att välja bandbredden H är att använda standardvärde om
5% av observationsfönstret. Detta erbjuder en praktisk början för bandbreddsval, som sedan kan
anpassas genom kvalitativa eller empiriska tester för att bättre passa de specifika egenskaperna hos
datamängden [7][14, s. 168–174]. Genom en kvalitativ analys av erhållna kluster valdes h1 och h2
till 4.5% av tavlans dimensioner och eftersom Terrassen vid Sainte Adresse ej är kvadratisk är h1 =
45.6 ̸= h2 = 34.6. Detta skiljer sig från kärnskattningen av intensitetsytan i avsnitt 3.1.2 där en
bandbredd, h = 20, används i båda dimensioner. h är mindre än h1 och h2 eftersom intensitetsytan
i figur 3b används som en sannolikhetfördelning i avsnitt 4.3 vilket kräver en högre upplösning.
MS-klustringen används istället för att finna övergripande områden med många fixeringar vilket
kräver en större bandbredd som även tar hänsyn till tavlans dimensioner för att inte generera
kluster med ett fåtal fixeringar.
De ROI:er som erhålls från MS-klustringen är geometriskt irreguljära, se figur 6a, och för att
förenkla beräkningarna antas varje ROI kunna modelleras som en cirkel med mittpunkt i klustrets
centrum. Cirkelns radie anpassas så att de inte överlappar varandra och radien, definierad av en
basradie rb och en skalningsfaktor rs, justeras dynamiskt beroende på antalet fixeringspunkter n
i ett givet kluster, enligt formeln r = rb + rs · 2log(n) . För Claude Monets Terrassen vid Sainte
Adresse valdes rb = 15 och rs = 1.4 och dessa visas på tavlan i figur 6b.
11
(a) ROI för samtliga individers data (b) Cirklar innehållande tavlans ROI:er
Figur 6: Jämförelse mellan ROI-kluster och de ROI-cirklar som används i modellen.
4.2 Markovkedjor för att återskapa fokusförflyttningar mellan ROI:er
För att återskapa fokusförflyttningen mellan olika ROI:er i tavlan används Markovkedjor, och vi
antar därför att Markovegenskapen kan betraktas som uppfylld under de 30 första sekunderna i
denna process. Denna egenskap definierar vi enligt:
Definition 7 (Markovkedjor) Låt S vara en diskret mängd vilken vi benämner tillståndsrum.
En Markovkedja är en sekvens av stokastiska variabler X0, X1,... ∈ S med markovegenskapen
P (Xn+1 = j|X0 = x0,...,Xn−1 = xn−1,Xn = i) = P (Xn+1 = j|Xn = i), (11)
för alla x0,xn−1,i,j ∈ S och n ≥ 0 [21, s. 41].
Övergångssannolikheten mellan två tillstånd i och j och definieras därmed som
pij = P (Xn+1 = j | Xn = i). (12)
Dessa sannolikheter sammanställs i övergångsmatrisen P , som är en m ×m dimensionell matris
med m antal unika tillstånd där varje element pij ≥ 0 och uppfyller
∑m
pij = 1 ∀i = 1, 2, ...,m, (13)
j=1
vilket säkerställer att varje rad i P utgör en diskret sannolikhetsfördelning [21, 22].
Vi låter ROI:erna utgöra tillståndsrummet S och antar att den Markovkedja som genereras utifrån
detta antagande återskapar betraktarens fokusförflyttningar mellan ROI:er. För att generera ett
antal fixeringar som återspeglar individdata slumpas fixerings- och sackadtider från fördelningarna
för dessa som valts i avsnitt 3.3 för varje fixeringspunkt så att den totala tiden blir 30 sekunder.
Den yta på tavlan som inte omsluts av en cirkel benämns som bakgrund och definieras som ett eget
tillstånd i Markovkedjan och här inkluderas även de fixeringspunkter som tillhör kluster med färre
än elva fixeringspunkter. Utifrån detta beräknas övergångsmatrisen där varje övergångssannolikhet
pij är proportionell mot antalet övergångar från tillstånd j till i.
12
4.3 Punktgenerering
Punktgenereringen implementeras på två olika sätt, metod A och metod B. Båda metoder avser
att generera punkter utifrån intensitetsytan genom att använda rejection sampling, se [23, Kap. 5,
ss. 132–133], men implementationen skiljer sig åt.
Metod A implementeras genom att först slumpmässigt generera en fixeringspunkt likformigt
inom det tillstånd som valts från övergångsmatrisen. Sedan normaliseras intensitetsytan med det
största intensitetsvärdet λmax i området som definieras av tillståndet. Därefter beräknas
intensitetsvärdet λ(x) för positionen. Om λ(x) ≥ X ∼ unif [0,1] accepteras punkten, annars
förkastas den och processen börjar då om tills en punkt har antagits inom det valda tillståndet.
Ett större intensitetsvärde innebär alltså en större sannolikhet att fixeringspunkten antas och är
kriteriet som rejection samplingen utgår från.
Metod B bygger på samma principer kring rejection sampling som metod A, men tar den föregående
punktens position i beaktande likt metoden i Ylitalo m.fl. [2]. Om det aktuella tillståndet är
samma som för den tidigare genererade punkten eller bakgrundstillståndet genereras punkten på
en radie ifrån den förra punkten. Radien beräknas genom att slumpmässigt välja en längd, l, från
gammafördelningen av sackadlängderna från kapitel 3.3. Om den genererade fixeringspunkten skulle
hamna utanför det valda tillståndet genereras en ny fixeringspunkt. Fixeringspunkten accepteras
eller förkastas sedan enligt samma kriterier för intensitetsytan som i metod A. Metod A ger sedan
modell A och metod B ger modell B, där algoritmen för respektive modell beskrivs översiktligt i
tabell 2 och 3.
Tabell 2: Översikt över punktgenereringsalgoritm A.
Punktgenereringsalgoritm A
1 Generera en sekvens ROI:er, samt fixerings- och
sackadtider med Markovkedjan enligt 4.2
2 Föreslå en punkt x likformigt inom en ROI
3 Acceptera x om unif(0,1) ≤ λ(x), återgå annars till steg 2
4 Upprepa steg 2 & 3 för alla ROI:er i sekvensen
Tabell 3: Översikt över punktgenereringsalgoritm B.
Punktgenereringsalgoritm B
1 Generera en sekvens ROI:er, samt fixerings- och
sackadtider med Markovkedjan enligt 4.2
2 Föreslå en punkt x likformigt inom en ROI vid byte av tillstånd.
Vid fortsatt samma tillstånd eller övergång till bakgrund,
föreslå en punkt x på avstånd l, slumpat från sackadlängdsfördelningen
3 Acceptera x om unif(0,1) ≤ λ(x), återgå annars till steg 2
4 Upprepa steg 2 & 3 för alla ROI:er i sekvensen
4.4 Statistikor
För att jämföra modellens resultat med faktiska data använder vi två olika statistikor, den totala
sackadlängden och det konvexa höljet av fixeringspunkter. En sackadlängd definieras som det
euklidiska avståndet mellan två efterföljande fixeringspunkter och mäter alltså hur långt ögat
färdas mellan två fixeringspunkter. Den kumulativa summan av sackadlängder för en tid ti
definieras för en ordnad mängd x = {x1,...,xn } av nt fixeringspunkter av Ylitalo m.fl. [2] somt
n∑t−1
L(t) = li1(ti+1 ≤ t), (14)
i=1
där li är den euklidiska längden mellan fixeringspunkterna xi+1 och xi.
13
Det konvexa höljet är den totala arean av den polygon som omsluter ett givet antal punkter och
definieras av Ylitalo m.fl. [2] somantalet pixlar i mängden∑ nt ∑nt 
Cx(t) =  αixi : αi ≥ 0 ∀i & αi = 1 . (15)
i=1 i=1
För att beräkna detta användes cxhull-paketet i R. Det konvexa höljet mäter alltså hur stor
area av tavlan som observeras och beräknas kumulativt för varje ny fixeringspunkt. Jämförelse
av modellens resultat med data sker visuellt genom att plotta statistikorna och jämföra hur väl
statistikornas värden för modellen och data sammanfaller.
14
5 Resultat och diskussion
I detta avsnitt jämförs hur väl de två varianterna av modellen som presenteras i avsnitt 4 kan
återskapa försökspersonernas fixeringspunktmönster genom att applicera de statistikor som
presenteras i avsnitt 4.4.
Tabell 4: Medelantal fixeringar och medelandel av observationstiden som spenderas i varje ROI, där ROI
0 utgör bakgrundstillståndet.
ROI #fixeringar simulerad #fixeringar data andel fixeringstid simulerad andel fixeringstid data
0 55.73 55.20 0.519 0.514
1 27.30 25.50 0.247 0.254
2 8.67 8.35 0.076 0.072
3 5.99 5.70 0.050 0.052
4 2.15 2.20 0.023 0.022
5 8.52 7.85 0.074 0.073
6 1.00 0.95 0.010 0.012
I figur 6b visas de sex erhållna ROI:erna och tabell 4 presenterar medelvärdet av den relativa vikt
som försökspersonerna samt 100 realisationer av modellen lägger i respektive ROI, vilket mäts i
antalet fixeringar och i andelen av den totala fixeringstiden. Det är tydligt att detta återskapas
mycket väl av Markovkedjan, vars övergångssannolikheter skattas från antalet övergångar mellan
ROI:er, och fixeringstidsfördelningen från avsnitt 3.3. Detta indikerar även att
fixeringstidsfördelningen är någorlunda densamma i samtliga ROI:er och att betraktarna
spenderar majoriteten av tiden i bakgrunden (ROI 0) och i ROI 1, vilket är paret i mitten av
tavlan.
Valet av fördelningar för fixeringstid, sackadtid, och sackadlängd bör dock påverka resultatetet.
Det framgår från figur 4a att det förekommer ett antal korta fixeringar med en fixeringstid på
under 40 millisekunder som ger upphov till två tydliga toppar. Denna observation tyder på att en
bimodal fördelning skulle kunna vara mer lämplig än den använda exponentialfördelningen för att
beskriva fixeringstider. Det är även troligt att dessa korta fixeringar kan betraktas som artefakter
snarare än faktiska fixeringar på grund av deras kortare varaktighet än övriga fixeringar i data och
i litteraturen [6]. Vi har i detta arbete valt att inkludera dem i analysen för att fånga den fulla
dynamiken i ögonrörelsemönstren, men detta skiljer sig från Ylitalo m.fl. [2], där sådana korta
fixeringar exkluderats med argumentet att de är artefakter. Den valda fördelningen återskapar
dock den relativa fixeringstiden i respektive ROI väl och anses därför lämplig för att modellera
fixeringstidsdata där korta fixeringar ej exkluderats.
15
(a) Det konvexa höljet, modell A (b) Kumulativ sackadlängd, modell A
(c) Det konvexa höljet, modell B (d) Kumulativ sackadlängd, modell B
Figur 7: Sammanfattande statistikor för modell A och B för individdata i rött och 100 realiseringar av
modellen i svart.
Utifrån den sekvens av ROI:er som produceras av Markovkedjan används
punktgenereringsalgoritm A och B som presenteras i avsnitt 4.3 för att generera fixeringspunkter.
Utifrån modellrealisationens fixeringspunktmönster beräknas det kumulativa konvexa höljet och
den kumulativa sackadlängden, vars definitioner presenteras i avsnitt 4.4. I figur 7 presenteras
dessa för individdata i rött och för 100 realisationer av respektive modell i svart. Det framgår att
modell B bättre återskapar fixeringspunktmönstren än modell A vars realiseringar ger mycket
högre värden på båda statistikor. Detta är att vänta eftersom i punktgenereringsalgoritm A
föreslås en punkt med likformig sannolikhet i hela ROI:n vilket leder till långa sackader, speciellt
i ROI 0 som täcker hela bakgrunden. Algoritm B tar med inspiration från Ylitalo m.fl. [2] också
hänsyn till sackadlängdsfördelningen hos individdata när nästa punkt föreslås vilket begränsar
den totala sackadlängden och individdata i rött återskapas mycket väl av modellen under de
första 15 sekunderna. För t ∈ [15,30] överestimerar modellen båda statistikor något, men
modellen återskapar båda statistikor någorlunda väl i detta tidsintervall.
Notera att i figur 7d rör sig en individs öga ett mycket större avstånd än övriga försökspersoners
efter ca. 10 sekunder vilket kan påverka parameterskattningen för sackadlängdsfördelningen. Det
är därför tänkbart att en exklusion av denna individ skulle resultera i en bättre modellpassning
för övriga individer när t ∈ [15,30]. Det är även tänkbart att processerna som styr ögats rörelse
förändras efter 10-15 sekunder och att denna modell endast återskapar mekanismerna bakom den
första. För detta finns det visst stöd i litteraturen där Pelowski m.fl. [8] argumenterar i sin modell
The Vienna Integrated Model of Art Perception för att bottom-up processer dominerar under de
första 6-8 sekunderna varvid top-down processer och individens övergripande tankestruktur tar
över i större utsträckning.
16
(a) Försökspersoner (b) 20 realiseringar av modell B
Figur 8: Intensitetsytor av fixeringspunktmönster.
Utöver att återskapa den relativa vikten i respektive ROI, det konvexa höljet, och hur långt ögat
rör sig på tavlan är även fixeringspunkternas placering av intresse. I figur 8 visas därför
intensitetsytan för samtliga individer och för 20 realiseringar av modell B. Det framgår att de
områden med hög intensitet, vilka visas i rött, gult och grönt, överensstämmer med
ROI-cirklarnas placering och återskapas väl av modellen. De områden med låg intensitet, vilka
visas i blått samt utan färgöverläggning, återskapas inte till fullo. Exempelvis ser vi att modellen
genererat fler fixeringspunkter i området till höger om paret än försökspersonerna.
Det är inte oväntat att modellen återskapar dessa perifera områden med lägre intensitet sämre
eftersom modellen endast baseras på försökspersonernas fixeringspunktmönster och inte på tavlans
komposition. Bakgrundstadiet (ROI 0) är stort och det finns många möjliga punkter att välja. I
modell B föreslås punkter i bakgrundstadiet på ett avstånd l från fördelningen för sackadlängder
oavsett om tidigare punkt tillhör bakgrunden eller en ROI och riktningen i vilken ögonrörelsen
övergår från en ROI till bakgrunden avgörs via rejection sampling. Eftersom intensiteten är nollskild
på nästan hela tavlan kan fixeringspunkter antas i områden med låg intensitet vilket resulterar
i fler fixeringspunkter i vissa områden, och färre i andra, än vad försökspersonerna genererat.
Överlag återskapar modellen dock fixeringspunktmönstret väl sett till de högintensiva områdena
och intensitetsytan i figur 8b bör se annorlunda ut om den baserats på 20 andra realiseringar av
modellen. Några realisationer av modell B presenteras i appendix E.
17
6 Slutsatser
Vi har i detta arbete utvecklat en modell för ögonrörelser vid betraktande av Claude Monets
Terrassen vid Sainte Adresse som utifrån ögonrörelsedata från 20 individer återskapar
fixeringspunktmönstret genom att kombinera den modell för fixeringspunktgenerering som
presenteras i Ylitalo m.fl. [2] med fokusförflyttningar mellan attraktionsområden (ROI) på tavlan.
Analys av ROI:er genom klustring av fixeringspunkter är inget nytt inom konstvetenskaplig
analys av betraktarens fokus [6, 7] men det har inte tidigare kombinerats med punktprocesser.
Ögonrörelsedata innehåller stor variabilitet mellan individer samtidigt som individens
ögonrörelser påverkas av uppgiften och olika fixeringsmönster från samma individ skiljer sig
därför åt [6]. Fixeringsmönstret är även beroende av andra aspekter så som tavlans komposition
och individens känslor [5, 6, 8] vilket gör det svårt att modellera, men den modell som
presenteras här lyckas återskapa både det konvexa höljet och sackadlängden för Terrassen vid
Sainte Adresse mycket väl under de första 15 sekunderna och väl under de första 30.
I modellen görs flera val av bland annat storleken på cirklarna som omsluter ROI:erna och
fördelningar samt parametrar för fixeringstid, sackadtid, och sackadlängd och hur dessa väljs kan
påverka resultatet. Mindre förändringar i valet av cirklarnas storlek bör dock inte ha någon större
påverkan på resultaten eftersom när modellen går från en ROI till bakgrundsstadiet väljs första
punkten i bakgrundsstadiet på ett avstånd l från sackadlängdsfördelningen från föregående
fixeringspunkt. Därför är sannolikheten hög att punkter föreslås i omgivningen till en ROI, där
även intensiteten är hög, till skillnad från längre ifrån dem, men modellen bör vara känslig för
stora variationer i detta val. Vid implementering av modellen är det därför av vikt att cirklarnas
storlek väljs så att de omsluter den del av de erhållna klustret med hög intensitet. Dessutom
beskriver flera fördelningar ögonrörelsedata någorlunda väl och valet av dessa bör inte påverka
modellens förmåga att återskapa fixeringspunktmönstren nämnvärt. Det skulle även vara möjligt
att använda de empiriska fördelningarna men eftersom flera fördelningar passar data väl är
påverkan på resultatet troligtvis inte särskilt stor.
Valet av ROI:er kan även påverka hur väl modellen återskapar ögonrörelserna, men eftersom
fixeringspunkternas koordinater väljs beroende av intensitetsytan i respektive ROI bör detta inte
ha en signifikant påverkan på resultaten. Dock, om fler ROI:er med färre än 11 (0.55 per individ)
fixeringar skulle tas hänsyn till skulle övergångsmatrisen innehålla fler tillstånd, men eftersom
dessa har få fixeringar skulle sannolikheten att hamna i dessa vara låg och därmed är påverkan
på total sackadlängd minimial. Vidare används ROI begreppet främst i studier av realistiska
konstverk, framför allt med landskaps- eller människomotiv [6], och det är därför oklart hur ROI
begreppet generaliserar till abstrakt konst men vår implementation som baseras på
fixeringspunktsmönster bör generalisera väl.
Generellt är det oklart hur väl de modeller som presenteras i denna studie skulle återskapa
fixeringspunktmönster för andra tavlor. För att validera modellen bör en analys där datan delas
upp i två grupper genomföras där en grupp används för att anpassa fördelningarna och
intensiteten, medan den andra gruppen används för att testa hur väl modellen passar för detta
och andra konstverk. Det är dock troligt att de grundläggande idéer som presenterats kan
tillämpas på andra konstverk, men intensitetsytan och valet av fördelningar kan skilja sig
avsevärt mellan olika verk eftersom varje tavla har en unik komposition som påverkar
fixeringspunktmönstret.
Gällande generaliserbarhet av vår studie bör det noteras att urvalet av 20 personer inte
nödvändigtvis är representativt för en större population, vilket begränsar möjligheten att
generalisera resultaten till andra grupper eller situationer. Trots dessa begränsningar kan denna
studie ses som en värdefull förstudie och konceptbevis som visar potentialen i att kombinera
Markovkedjor och punktprocesser för att återskapa ögonrörelser. Med detta tillvägagångssätt kan
detta arbete tjäna som en utgångspunkt och ett verktyg för vidare konstvetenskapliga studier där
ögonrörelser analyseras.
18
Referenser
[1] N. J. Wade. “Pioneers of Eye Movement Research”. I: i-Perception 1 (2010), s. 33–68. doi:
10.1068/i0389.
[2] A-K. Ylitalo, A. Särkkä och P. Guttorp. “What We Look at in Paintings: A Comparison
Between Experienced and Inexperienced Art Viewers”. I: The Annals of Applies Statistics
10(2) (2016), s. 549–574. doi: 10.1214/16-AOAS921.
[3] S. Barthelmé m. fl. “Modeling fixation locations using spatial point processes”. I: Journal of
Vision 13(12):1 (2013), s. 1–34. doi: 10.1167/13.12.1.
[4] A. Bringmann m. fl. “The primate fovea: Structure, function and development”. I: Progress
in Retinal and Eye Research 66 (2018), s. 49–84. issn: 1350-9462. doi:
10.1016/j.preteyeres.2018.03.006.
[5] N. J. Wade. “Looking at Buswell’s pictures”. I: Journal of Eye Movement Research 13(2):4
(2020). doi: 10.16910/jemr.13.2.4.
[6] D. Massaro m. fl. “When Art Moves the Eyes: A Behavioral and Eye-Tracking Study”. I:
PLoS ONE 7(5) (2012), e37285. doi: 10.1371/journal.pone.0037285.
[7] A. Santella och D. DeCarlo. “Robust clustering of eye movement recordings for
quantification of visual interest”. I: Proceedings of the 2004 Symposium on Eye Tracking
Research & Applications. 2004, s. 27–34. doi: 10.1145/968363.968368.
[8] M. Pelowski m. fl. “Move me, astonish me. . . delight my eyes and brain: The Vienna
Integrated Model of top-down and bottom-up processes in Art Perception (VIMAP) and
corresponding affective, evaluative, and neurophysiological correlates”. I: Physics of Life
Reviews 21 (2017), s. 80–125. doi: 10.1016/j.plrev.2017.02.003.
[9] F. Berntsson m. fl. “Lås upp konstens hemligheter: En jämförelse av intensitetsytor från
olika tidsintervall med hjälp av blickspårning och spatiala punktprocesser”. Kandidatarbete.
Göteborg: Chalmers tekniska högskola och Göteborgs universitet, 2023.
[10] L. Smith, J. Smith och P Tinio. “Time Spent Viewing Art and Reading Labels”. I:
Psychology of Aesthetics, Creativity, and the Arts 11(1) (2016), s. 77–85. doi:
10.1037/aca0000049.
[11] Chalmers. Genomföra kandidatarbete. 2024. url:
https://www.chalmers.se/utbildning/dina-studier/kandidat-och-
examensarbete/kandidatarbete/genomfora-kandidatarbete/#samhalleliga-och-
etiska-aspekter. Hämtad: 2024-02-09.
[12] Lag (2003:460) om etikprövning av forskning som avser människor. Svensk
författningssamling.
https://www.riksdagen.se/svenskforfattningssamling/2003:460, SFS nr: 2003:460,
Utfärdad: 2003-06-05, Ändrad t.o.m. SFS 2023:39. 2003.
[13] J. L. Kröger, O. H-M. Lutz och F. Müller. “What Does Your Gaze Reveal About You? On
the Privacy Implications of Eye Tracking”. I: Privacy and Identity Management. Data for
Better Living: AI and Privacy. Utg. av M. Friedewald m. fl. Vol. 576. IFIP Advances in
Information and Communication Technology. Springer, 2020. Kap. 15, s. 226–241. doi:
10.1007/978-3-030-42504-3_15.
[14] A. Baddeley, E. Rubak och R. Turner. Spatial Point Patterns Methodology and
Applications with R. 1 uppl. London: Chapman Hall, 2015.
[15] W.N. Venables och B.D. Ripley. Modern Applied Statistics with S. 4 uppl. New York:
Springer, 2002.
[16] J. Ameijeiras-Alonso och J. Einbeck. “A fresh look at mean-shift based modal clustering”. I:
Advances in Data Analysis and Classification (2023). doi: 10.1007/s11634-023-00575-1.
[17] Alm S.E. och Britton T. Stokastik : Sannolikhetsteori och statistikteori med tillämpningar. 1
uppl. Stockholm: Liber, 2008.
[18] A. Kızılersü, M. Kreer och A. W. Thomas. “The Weibull Distribution”. I: Significance 15.2
(2018), s. 10–11. doi: 10.1111/j.1740-9713.2018.01123.x.
[19] M. L. Delignette-Muller och C. Dutang. “fitdistrplus: An R Package for Fitting
Distributions”. I: Journal of Statistical Software 64.4 (2015), s. 1–34. doi:
10.18637/jss.v064.i04.
19
[20] J. Einbeck. Mean shift clustering, R documentation. url:
https://search.r-project.org/CRAN/refmans/LPCM/html/ms.html.
[21] R. P. Dobrow. Introduction to Stochastic Processes with R. Hoboken: Wiley, 2016.
[22] P. H Hsu. Schaum’s Outline of Probability, Random Variables, and Random Processes. 3
uppl. New York: McGraw-Hill Education, 2014, s. 212–215.
[23] P. Clifford. “Methods in Experimental Physics”. I: Statistical Methods for Physical Science.
Utg. av J. L. Stanford och S. B Vardeman. Vol. 28. Academic Press, 1994. Kap. 5,
s. 132–133. isbn: 0-12-475973-4.
20
A Individuella fixeringspunktmönster
(a) Fixeringspunkter för individ 1 (b) Fixeringspunkter för individ 2
(c) Fixeringspunkter för individ 3 (d) Fixeringspunkter för individ 4
(e) Fixeringspunkter för individ 5 (f) Fixeringspunkter för individ 6
(g) Fixeringspunkter för individ 7 (h) Fixeringspunkter för individ 8
i
(i) Fixeringspunkter för individ 9 (j) Fixeringspunkter för individ 10
(k) Fixeringspunkter för individ 11 (l) Fixeringspunkter för individ 12
(m) Fixeringspunkter för individ 13 (n) Fixeringspunkter för individ 14
(o) Fixeringspunkter för individ 15 (p) Fixeringspunkter för individ 16
ii
(q) Fixeringspunkter för individ 17 (r) Fixeringspunkter för individ 18
(s) Fixeringspunkter för individ 19 (t) Fixeringspunkter för individ 20
iii
B Statistiska skattningar och diagnostiska plottar
Tabell 5: Parameterskattningar och bootstrap 95% konfidensintervall för parametrar för de olika
fördelningarna för fixeringstider med 1000 iterationer.
Fördelning Parameter ML uppskattining 95% Konfidensintervall
Exponential Intensitet 0.0047 [0.0045, 0.0050]
Weibull Form 1.0790 [1.0444, 1.1162]
Skal 217.6841 [208.8630, 226.7961]
Gamma Form 0.9754 [0.9252, 1.0287]
Intensitet 0.0046 [0.0043, 0.0049]
Lognormal Medellog 4.7661 [4.7031, 4.8314]
Sdlog 1.5241 [1.4798, 1.5677]
Tabell 6: Parameterskattningar och bootstrap 95% konfidensintervall för parametrar för de olika
fördelningarna för sackadtider med 1000 iterationer.
Fördelning Parameter ML uppskattning 95% Konfidensintervall
Exponential Intensitet 0.0152 [0.0146, 0.0159]
Weibull Form 1.2118 [1.1755, 1.2545]
Skal 70.8245 [68.1720, 73.3194]
Gamma Form 1.7471 [1.6544, 1.8525]
Intensitet 0.0266 [0.0250, 0.0284]
Lognormal Medellog 3.8723 [3.8409, 3.9060]
Sdlog 0.7504 [0.7275, 0.7726]
Tabell 7: Parameterskattningar och bootstrap 95% konfidensintervall för parametrar för de olika
fördelningarna för sackadlängder med 1000 iterationer.
Fördelning Parameter ML uppskattning 95% Konfidensintervall
Exponential Intensitet 0.0073 [0.0073, 0.0075]
Weibull Form 1.0877 [1.0711, 1.1021]
Skal 140.8287 [138.3803, 143.3929]
Gamma Form 1.1556 [1.1307, 1.1821]
Intensitet 0.0085 [0.0083, 0.0087]
Lognormal Medellog 4.4234 [4.4036, 4.4427]
Sdlog 1.1035 [1.0907, 1.1170]
iv
(a) Diagnostiska plottar för weibullfördelning av (b) Diagnostiska plottar för lognormalfördelning av
fixeringstider fixeringstider
(c) Diagnostiska plottar för gammafördelning av (d) Diagnostiska plottar för exponentialfördelning av
fixeringstider fixeringstider
Figur 10: Diagnostiska plottar av fixeringstider, inklusive Q-Q-plot, P-P-plot samt empiriska
fördelningsfunktionen mot den teoretiska fördelningsfunktionen.
v
(a) Diagnostiska plottar för weibullfördelning av (b) Diagnostiska plottar för lognormalfördelning av
sackadtider sackadtider
(c) Diagnostiska plottar för gammafördelning av (d) Diagnostiska plottar för exponentialfördelning av
sackadtider sackadtider
Figur 11: Diagnostiska plottar av sackadtider, inklusive Q-Q-plot, P-P-plot samt empiriska
fördelningsfunktionen mot den teoretiska fördelningsfunktionen.
vi
(a) Diagnostiska plottar för weibullfördelning av (b) Diagnostiska plottar för lognormalfördelning av
sackadlängder sackadlängder
(c) Diagnostiska plottar för gammafördelning av (d) Diagnostiska plottar för exponentialfördelning av
sackadlängder sackadlängder
Figur 12: Diagnostiska plottar av sackadlängder, inklusive Q-Q-plot, P-P-plot samt empiriska
fördelningsfunktionen mot den teoretiska fördelningsfunktionen.
vii
C Glasögons påverkan på fixeringspunktmönster
I studieprotokollet framkommer det att fem (5) av 20 försökspersoner använt glasögon under
undersökningen och att reflektioner i glasen kan ha påverkat ögoninspelningen genom att
reflektioner uppstår i glasen. Vidare använde tre (3) av 20 försökspersoner linser, men inga
effekter av detta har noterats i försöksprotokollet. Vi jämför här därför kvalitativt hur
glasögonbärarna och potentiella mätfel pågrund av deras glasögon påverkar fixpunkternas
placering i tavlan, men betraktar deltagarna med linser i samma grupp som de utan både
glasögon och linser.
I figur 13 visas intensitetsytor av fixeringspunkter baserat på all data och de som inte använde
respektive använde glasögon vid försökstillfället. Av en kvalitativ visuell analys framgår det att
skillnaden är mellan intensitetsytorna är små och modelleringen baseras därför på samtliga
individers fixeringspunktmönster.
(a) (b) (c)
Figur 13: Intensitetsytor för alla individer, utan glasögon och med glasögon
viii
D ROI:er för samtliga individer
(a) ROI för individ 1 (b) ROI för individ 2
(c) ROI för individ 3 (d) ROI för individ 4
(e) ROI för individ 5 (f) ROI för individ 6
ix
(g) ROI för individ 7 (h) ROI för individ 8
(i) ROI för individ 9 (j) ROI för individ 10
(k) ROI för individ 11 (l) ROI för individ 12
x
(m) ROI för individ 13 (n) ROI för individ 14
(o) ROI för individ 15 (p) ROI för individ 16
(q) ROI för individ 17 (r) ROI för individ 18
xi
(s) ROI för individ 19 (t) ROI för individ 20
xii
E Realisationer av modell B
xiii