Harmonisatie begrippenkader omgevingswet
In 2017 heeft Dialogic een opdracht voor Rijkswaterstaat uitgevoerd om begrippenlijsten van gemeenten te analyseren. Er is onderzocht welke data gebruikt kon worden en welke stappen nodig zijn om deze data te kunnen analyseren. Vanuit het programma en de VNG is gevraagd om dit onderzoek te actualiseren en uit te breiden. De overheid wil met de omgevingswet de regels voor ruimtelijke ontwikkeling vereenvoudigen en samenvoegen. In dit onderzoek kijken we in hoeverre we de omgevingswet begrippen tussen gemeenten kunnen harmoniseren aan de hand van text-mining en machine learning methoden.
Met text-mining kunnen we structuur aanbrengen in ongestructureerde datasets. Aan de hand van verscheidene afstandsmetrieken zoals de Jaccard similarity (figuur 1) kunnen we voor grote hoeveelheden teksten berekenen hoeveel de teksten onderling van elkaar verschillen. De Jaccard similarity wordt naast tekst-mining doeleinden ook ingezet in bijvoorbeeld plagiaat detectie of recommender systems.
Neem bijvoorbeeld het begrip “evenement”. In twee verschillende gemeenten worden net iets andere definities gebruikt van dit begrip:
Gemeente 1: alle voor publiek toegankelijke verrichtingen van vermaak, waaronder: …
Gemeente 2: elke voor publiek toegankelijke verrichting van vermaak met uitzondering van: …
Bij het berekenen van de Jaccard similarity berekenen we de ratio tussen de intersection (aantal woorden die zowel in set 1 als in set 2 voorkomen) en de union (het aantal unieke woorden). In onderstaande tabel wordt geïllustreerd hoe de intersection tussen de twee sets wordt berekend.
De Jaccard similarity is ‘1’ als de twee sets dezelfde elementen bevatten en is ‘0’ als geen enkel element overeenkomt. We zien dat in totaal 12 unieke woorden voorkomen in de twee gecombineerde sets. Daarnaast delen deze twee sets 6 woorden. De Jaccard similarity tussen deze twee sets is in dit geval 0.5.
Nadat de Jaccard similarity is berekend moeten er nog een cut-off waarde worden bepaald. Deze cut-off waarde stellen we zo in dat we grote zekerheid kunnen stellen dan twee begrippen gelijk zijn aan elkaar.
Nadat de we de tekst-mining methoden hebben ingezet om te identificeren welke begrippen sterk met elkaar overeenkomen kunnen we vervolgens machine-learning algoritmes nieuwe toekomstige begrippen classificeren. Wanneer we de ongestructureerde begrippenlijst hebben voorzien van labels kunnen we aan de hand van bijvoorbeeld een Support Vector Machine of Deep Neural Network voorspellen in hoeverre een nieuw begrip overeenkomst met de één van de gestandaardiseerde begrippen. Op deze manier brengen we niet alleen structuur aan in de bestaande begrippen, maar scheppen we ook kaders voor de formatie van nieuwe begrippen.
De ontwikkelde methoden hebben vele toepassingsgebieden buiten het omgevingswet-onderzoek om. Zo kan de afstandmetriek Jaccard distance worden ingezet om elke mogelijke verzameling van elementen met elkaar te vergelijken en is het niet gelimiteerd tot (maar wel zeer nuttig voor) textmining doeleinden. De machine-learning algoritmes kunnen worden toegepast voor elk denkbaar classificatieprobleem. Op de pagina Data Science en Dashboards kunt u enkele van deze algoritmes zelf uittesten. Denk hierbij aan een neuraal netwerk dat de functie van een onderwijsvacature voorspelt.
- Projectnummer
2018.055 - Opdrachtgever(s)
Rijkswaterstaat en VNG
Principal consultant