9/3/2018

Harmonisering af begrebsramme for miljøloven

Denne tekst er automatisk oversat og kan derfor afvige fra originalen. Der kan ikke drages rettigheder på baggrund af denne oversættelse.

💬 Click here to read this page in English.

I 2017 udførte Dialogic en opgave for Rijkswaterstaat for at analysere begrebslister fra kommunerne. Der blev undersøgt, hvilke data der kunne anvendes, og hvilke trin der var nødvendige for at kunne analysere disse data. Programmet og VNG bad om opdatering og udvidelse af denne undersøgelse. Regeringen ønsker at forenkle og samle reglerne for rumlig udvikling med miljøloven. I denne undersøgelse ser vi på i hvilket omfang vi kan harmonisere miljølovens begreber mellem kommunerne ved hjælp af text-mining og machine learning metoder. Med text-mining kan vi strukturere ustrukturerede datasæt. Ved hjælp af forskellige afstandsmålinger som Jaccard similarity (se figur 1) kan vi beregne hvor meget teksterne adskiller sig fra hinanden. Ud over text-mining anvendes Jaccard similarity også til formål som plagiatdetektion eller anbefalingssystemer. Lad os f.eks. se på begrebet "begivenhed". I to forskellige kommuner anvendes lidt forskellige definitioner af dette begreb: Kommune 1: alle offentligt tilgængelige underholdningsaktiviteter, herunder: ... Kommune 2: enhver offentligt tilgængelig underholdningsaktivitet med undtagelse af: ... Ved beregning af Jaccard similarity beregnes forholdet mellem skæringsmængden (antal ord, der forekommer både i sæt 1 og sæt 2) og foreningsmængden (antal unikke ord). I nedenstående tabel illustreres, hvordan skæringsmængden mellem de to sæt beregnes. Jaccard similarity er '1', hvis de to sæt indeholder de samme elementer, og '0', hvis ingen elementer matcher. Vi ser, at i alt 12 unikke ord forekommer i de to kombinerede sæt. Derudover deler disse to sæt 6 ord. Jaccard similarity mellem disse to sæt er i dette tilfælde 0,5. Efter beregning af Jaccard similarity skal der fastlægges en cut-off-værdi. Denne cut-off værdi indstilles, så vi kan være sikre på, at to begreber er ens. Når text-mining metoderne er anvendt til at identificere, hvilke begreber der ligner hinanden, kan vi derefter bruge machine-learning algoritmer til at klassificere nye, fremtidige begreber. Når vi har givet etiketter til den ustrukturerede begrebsliste, kan vi ved hjælp af fx en Support Vector Machine eller Deep Neural Network forudsige, i hvilket omfang et nyt begreb svarer til et af de standardiserede begreber. På denne måde skaber vi ikke kun struktur i de eksisterende begreber, men skaber også rammer for dannelse af nye begreber. De udviklede metoder har mange anvendelsesområder ud over miljølovsundersøgelsen. Fx kan afstandsmålingen Jaccard distance anvendes til at sammenligne enhver mulig samling af elementer med hinanden og er ikke begrænset til (men meget nyttig for) text-mining formål. Machine-learning algoritmer kan anvendes til enhver tænkelig klassifikationsopgave. På siden Data Science en Dashboards kan du afprøve nogle af disse algoritmer selv. Dette inkluderer fx et neuralt netværk, der forudsiger funktionen af en stillingsopslag inden for uddannelsessektoren.