Denna text är automatiskt översatt och kan därför avvika från originalet. Ingen rätt kan härledas av denna översättning.
Dialogic genomförde 2017 en uppgift för Rijkswaterstaat för att analysera begreppslistor från kommuner. Undersökningen fokuserade på vilka data som kunde användas och vilka steg som krävdes för att kunna analysera dessa data. Programmet och VNG bad sedan om att uppdatera och utöka denna forskning. Regeringen vill med omgevingswet förenkla och sammanfoga reglerna för rumslig utveckling. I denna studie undersöker vi i vilken utsträckning vi kan harmonisera omgevingswetens begrepp mellan kommuner med hjälp av text-mining och maskininlärningsmetoder.
Text mining möjliggör strukturering av ostrukturerade dataset. Genom olika avståndsmått som Jaccard similarity kan vi beräkna hur mycket texterna skiljer sig åt för stora mängder texter. Jaccard similarity används förutom inom text mining även för plagiatdetektion eller rekommendationssystem.
Exempelvis, ta begreppet "evenemang". I två olika kommuner används något olika definitioner av detta begrepp:
Kommun 1: alla underhållningsaktiviteter som är tillgängliga för allmänheten, inklusive: ...
Kommun 2: varje underhållningsaktivitet som är tillgänglig för allmänheten med undantag för: ...
Vid beräkningen av Jaccard similarity räknar vi förhållandet mellan intersection (antalet ord som förekommer i både set 1 och set 2) och union (antalet unika ord). I tabellen nedan illustreras hur intersection mellan de två setten beräknas.
Efter att Jaccard similarity beräknats måste ett cut-off värde fastställas. Detta värde ställs in så att vi kan säkerställa med stor säkerhet att två begrepp är lika varandra. När text mining-metoderna har använts för att identifiera begrepp som starkt överensstämmer kan vi sedan klassificera nya begrepp med maskininlärningsalgoritmer. Genom att tilldela etiketter till den ostrukturerade begreppslistan kan vi med hjälp av till exempel en Support Vector Machine eller Deep Neural Network förutsäga i vilken utsträckning ett nytt begrepp överensstämmer med ett av de standardiserade begreppen. På så sätt skapar vi inte bara struktur i de befintliga begreppen, utan skapar också ramar för bildandet av nya begrepp.
De utvecklade metoderna har många tillämpningsområden utanför omgevingswetens undersökning. Jaccard distance kan användas för att jämföra alla möjliga samlingar av element med varandra och är inte begränsat till (men mycket användbart för) textmining ändamål. Maskininlärningsalgoritmerna kan tillämpas på alla tänkbara klassificeringsproblem. På sidan Data Science och Dashboards kan du testa några av dessa algoritmer själv. Det kan till exempel vara ett neuralt nätverk som förutsäger funktionen för en ledig tjänst inom utbildning.


