3.9.2018

Harmonisering av begrepsrammeverket for omgivelsesloven

Denne teksten er automatisk oversatt og kan derfor avvike fra originalen. Ingen rettigheter kan utledes fra denne oversettelsen.

💬 Click here to read this page in English.

I 2017 utførte Dialogic en oppgave for Rijkswaterstaat for å analysere begrepslister fra kommuner. Det ble undersøkt hvilke data som kunne brukes og hvilke trinn som var nødvendige for å analysere disse dataene. Programmet og VNG ba om at denne undersøkelsen skulle oppdateres og utvides. Regjeringen ønsker å forenkle og slå sammen reglene for romlig utvikling med omgevingsloven. I denne undersøkelsen ser vi på i hvilken grad vi kan harmonisere begrepene i omgevingsloven mellom kommuner ved hjelp av tekstutvinnings- og maskinlæringsmetoder. Med tekstutvinning kan vi strukturere ustrukturerte datasett. Ved å bruke ulike avstandsmetrikker som Jaccard-similarity (figur 1), kan vi beregne hvor mye tekstene skiller seg fra hverandre for store mengder tekst. Jaccard-similarity brukes ikke bare for tekstutvinningsformål, men også for eksempel for plagiatdeteksjon eller anbefalingssystemer. Ta for eksempel begrepet "arrangement". I to forskjellige kommuner brukes det noe ulike definisjoner av dette begrepet: Kommune 1: alle underholdende hendelser som er åpne for publikum, inkludert: ... Kommune 2: enhver underholdende hendelse som er åpen for publikum unntatt: ... Ved beregning av Jaccard-similarity beregner vi forholdet mellom skjæringspunktet (antall ord som forekommer i både sett 1 og sett 2) og unionen (antall unike ord). Tabellen nedenfor illustrerer hvordan skjæringspunktet mellom de to settene beregnes. Etter at Jaccard-similarity er beregnet, må det bestemmes en cut-off-verdi. Denne cut-off-verdien stilles inn slik at vi kan være sikre på at to begreper er like. Etter at tekstutvinningsmetodene har blitt brukt for å identifisere hvilke begreper som sterkt ligner hverandre, kan vi deretter klassifisere nye begreper ved hjelp av maskinlæringsalgoritmer. Ved å merke den ustrukturerte begrepslisten kan vi forutsi i hvilken grad et nytt begrep samsvarer med ett av de standardiserte begrepene. På denne måten bringer vi struktur til de eksisterende begrepene og legger også rammene for dannelsen av nye begreper. De utviklede metodene har mange bruksområder utenfor omgevingslovsundersøkelsen. For eksempel kan Jaccard-avstandsmetrikken brukes til å sammenligne enhver mulig samling av elementer med hverandre og er ikke begrenset til (men er veldig nyttig for) tekstutvinningsformål. Maskinlæringsalgoritmene kan brukes for ethvert tenkelig klassifikasjonsproblem. På siden for Data Science og Dashboards kan du selv teste noen av disse algoritmene. Dette kan for eksempel være et nevralt nettverk som predikerer funksjonen til en stillingsannonse innen utdanning.