Geografiske data viktig i maskinlæringsmodeller

Alle snakker om maskinlæring, men det er få som snakker om rollen til geografiske data i maskinlæringsmodeller og hva disse komponentene kan tilføre.

Publisert: 15. apr. 2018, i Geir forteller

Avanserte algoritmer for analyse og maskinlæring er avhengig av store mengder data for å gi bedre resultater enn tradisjonelle metoder. Til å utvikle slike modeller må man ha nok data – det vil si et så høyt antall observasjoner eller eksempler som mulig som input til modellen.

I tillegg må du ha riktige data som input. Disse må på best mulig måte forklare det resultatet du forsøker å modellere. Jo flere forklaringsvariabler jo bedre.

Geografiske data en sentral forklaringsvariabel

I dette arbeidet er du nødt til å identifisere variabler som er med på å forklare sammenhenger mellom det man har som input og det man får som resultat. Resultat kan for eksempel være å predikere og forutsi en verdi (for eksempel omsetning i en butikk) eller å klassifisere data tilhørende en kategori.

Her har geografiske data en unik mulighet til å kunne være en bidragsyter av sentrale forklaringsvariabler. Geografiske informasjonssystemer (GIS) har den fenomenale egenskapen at det er i stand til å knytte et vidt spenn av data til en observasjon gjennom lokasjon og nærhet og som hadde vært nærmest umulig å få til uten. I tillegg er lokasjon og avledede variabler ofte svært relevant i mange problemstillinger som man i dag ønsker å benytte maskinlæringsmodeller for å løse. 

Maskinlæring for å beregne omsetning

Maskinlæring og algoritmer er både komplisert og komplekst, men la oss se på to konkrete eksempler.

Vi ønsker å bygge en modell som kan estimere potensiell omsetning for en butikk som driver med detaljvarehandel. Datasettet vil være sammenlignbare detaljvarebutikker og deres historiske omsetning, altså deres tidligere omsetning. Modellen vil naturligvis ha en rekke ikke-geografiske variabler, som for eksempel størrelse på butikken i kvadratmeter, hvilket konsept de har, hvilken kundegruppe de henvender seg til som input. 

Legger vil til den geografiske dimensjonen – altså geografiske data og GIS – kan vi også beregne antall mennesker som bor i en kjøreavstand på 5, 10 og 15 minutter og knytte dette til lokasjonen. Da har vi muligheten til å få 3 potensielle forklaringsvariabler til hver lokasjon i datasettet som gjør at modellen kan beregne potensiell omsetning på en bedre måte.

Maskinlæring for å forutsi vedlikehold

Et annet eksempel kan være at du ønsker å lage en modell som kan predikere sannsynligheten for at en teknisk installasjon vil feile og bruke dette til å prioritere hvor du ønsker å utføre vedlikeholdet først. 

Fra før av har vi et stort datasett av feilsituasjoner med informasjon en rekke ikke-geografiske variable knyttet til installasjonen. Det kan for eksempel være alder, fabrikant, materialinformasjon, data om hvor mye installasjonen er i bruk eller belastet over tid. I tillegg til dette kan vi ytterligere berike datasettet vårt med geografiske variabler hvis vi mener at dette kan være med på å forklare hvor fort en installasjon vil feile. 

Vi kan for en installasjon bruke GIS til å beregne avstand til veier, elver, vann, knytte til værdata i området, hvor mye trafikk som går forbi per døgn, antall mennesker som bor i området osv. Igjen så vil man ved hjelp av GIS få beriket datasettet med variabler som kan være med på å forklare og forbedre prediksjonsmodellen.

Ta kontakt

Ønsker du mer informasjon, pris, demo eller bare en uforpliktende kaffeprat? Ta kontakt!



Geir Hansen

Geir Hansen
Administrerende direktør

Jeg vil bli kontaktet på

For teknisk support, gå til våre supportsider.