Questo testo è stato tradotto automaticamente e quindi può differire dall'originale. Nessun diritto può derivare da questa traduzione.
Nel 2017, Dialogic ha svolto un incarico per Rijkswaterstaat per analizzare elenchi di concetti dei comuni. È stata indagata la possibilità di utilizzare i dati e i passaggi necessari per analizzarli. Sia dal programma che dalla VNG è stata richiesta l'aggiornamento e l'espansione di questa ricerca. Il governo intende semplificare e unificare le regole per lo sviluppo spaziale con la legge sull'ambiente. In questa ricerca, esaminiamo fino a che punto possiamo armonizzare i concetti della legge sull'ambiente tra i comuni utilizzando metodi di text mining e di machine learning.
Con il text mining possiamo strutturare set di dati non strutturati. Utilizzando diverse metriche di distanza come la similarità di Jaccard (figura 1), possiamo calcolare quanto i testi differiscano tra loro in grandi quantità. La similarità di Jaccard viene utilizzata non solo per scopi di text mining, ma anche ad esempio nella rilevazione del plagio o nei sistemi di raccomandazione.
Ad esempio, consideriamo il concetto di "evento". In due comuni differenti vengono utilizzate definizioni leggermente diverse di questo concetto.
Nel calcolo della similarità di Jaccard, viene calcolato il rapporto tra l'intersezione (il numero di parole presenti sia nel set 1 che nel set 2) e l'unione (il numero di parole uniche). Nella tabella seguente viene illustrato come viene calcolata l'intersezione tra i due set.
La similarità di Jaccard è '1' se i due set contengono gli stessi elementi ed è '0' se nessun elemento corrisponde. Vediamo che in totale ci sono 12 parole uniche nei due insiemi combinati. Inoltre, questi due set condividono 6 parole. La similarità di Jaccard tra questi due set è in questo caso 0.5.
Dopo il calcolo della similarità di Jaccard, è necessario stabilire un valore di cut-off. Questo valore viene impostato in modo che si possa avere una grande certezza che due concetti siano uguali. Dopo aver utilizzato i metodi di text mining per identificare quali concetti sono fortemente correlati, possiamo successivamente classificare nuovi concetti futuri utilizzando algoritmi di machine learning. Applicando ad esempio una Support Vector Machine o una Deep Neural Network alla lista non strutturata etichettata di concetti, possiamo prevedere in che misura un nuovo concetto corrisponda a uno dei concetti standardizzati.
I metodi sviluppati hanno molte aree di applicazione al di fuori della ricerca sulla legge sull'ambiente. Ad esempio, la distanza di Jaccard può essere utilizzata per confrontare qualsiasi insieme possibile di elementi e non è limitata a (ma è molto utile per) scopi di text mining. Gli algoritmi di machine learning possono essere applicati a qualsiasi problema di classificazione immaginabile. Sulla pagina Data Science e Dashboards è possibile testare alcuni di questi algoritmi. Ad esempio, un network neurale che predice la funzione di una posizione vacante nell'istruzione.


