3.9.2018

Harmonisierung des Begriffsrahmens für das Umweltgesetz

Dieser Text wurde automatisch übersetzt und kann daher vom Original abweichen. Aus dieser Übersetzung können keine Rechte abgeleitet werden.

💬 Click here to read this page in English.

Im Jahr 2017 führte Dialogic im Auftrag von Rijkswaterstaat eine Analyse der Begriffslisten der Gemeinden durch. Es wurde untersucht, welche Daten verwendet werden konnten und welche Schritte erforderlich sind, um diese Daten analysieren zu können. Aufgrund der Nachfrage des Programms und des VNG wurde diese Untersuchung aktualisiert und erweitert. Die Regierung möchte mit dem Umgebungsgesetz die Regeln für räumliche Entwicklung vereinfachen und zusammenführen. In dieser Studie untersuchen wir, inwieweit wir die Begriffe des Umgebungsgesetzes zwischen den Gemeinden harmonisieren können, basierend auf Text-Mining und Methoden des maschinellen Lernens. Durch Text-Mining können wir Struktur in unstrukturierte Datensätze bringen. Anhand verschiedener Distanzmetriken wie der Jaccard-Ähnlichkeit können wir für große Textmengen berechnen, wie stark sich die Texte voneinander unterscheiden. Die Jaccard-Ähnlichkeit wird neben Text-Mining-Zwecken auch beispielsweise in der Plagiatsfindung oder in Empfehlungssystemen eingesetzt. Nehmen wir zum Beispiel den Begriff "Veranstaltung". In zwei unterschiedlichen Gemeinden werden etwas unterschiedliche Definitionen dieses Begriffs verwendet: Gemeinde 1: alle für die Öffentlichkeit zugänglichen Unterhaltungsveranstaltungen, einschließlich: ... Gemeinde 2: jede für die Öffentlichkeit zugängliche Unterhaltungsveranstaltung mit Ausnahme von: ... Bei der Berechnung der Jaccard-Ähnlichkeit berechnen wir das Verhältnis zwischen dem Schnitt (Anzahl der Wörter, die sowohl in Set 1 als auch in Set 2 vorkommen) und der Vereinigung (Anzahl der eindeutigen Wörter). In der untenstehenden Tabelle wird veranschaulicht, wie der Schnitt zwischen den beiden Sets berechnet wird. Die Jaccard-Ähnlichkeit beträgt '1', wenn die beiden Sets die gleichen Elemente enthalten, und '0', wenn kein Element übereinstimmt. Wir sehen, dass insgesamt 12 eindeutige Wörter in den beiden kombinierten Sets vorkommen. Darüber hinaus teilen diese beiden Sets 6 Wörter. Die Jaccard-Ähnlichkeit zwischen diesen beiden Sets beträgt in diesem Fall 0,5. Nachdem die Jaccard-Ähnlichkeit berechnet wurde, muss ein Cut-off-Wert festgelegt werden. Dieser Cut-off-Wert wird so eingestellt, dass wir sicher sein können, dass zwei Begriffe gleich sind. Nachdem wir die Text-Mining-Methoden eingesetzt haben, um festzustellen, welche Begriffe stark miteinander übereinstimmen, können wir anschließend mit Hilfe von Machine-Learning-Algorithmen neue zukünftige Begriffe klassifizieren. Nachdem wir die unstrukturierte Begriffsliste mit Labels versehen haben, können wir mithilfe beispielsweise einer Support Vector Machine oder eines Deep Neural Network vorhersagen, inwieweit ein neuer Begriff mit einem der standardisierten Begriffe übereinstimmt. Auf diese Weise bringen wir nicht nur Struktur in die bestehenden Begriffe, sondern schaffen auch Rahmenbedingungen für die Bildung neuer Begriffe. Die entwickelten Methoden haben viele Anwendungsbereiche außerhalb der Umgebungsgesetz-Forschung. So kann die Distanzmetrik Jaccard-Distanz eingesetzt werden, um beliebige Elementensammlungen miteinander zu vergleichen und ist nicht auf (aber sehr nützlich für) Textmining-Zwecke beschränkt. Die Maschinenlernalgorithmen können für jedes denkbare Klassifikationsproblem angewendet werden. Auf der Seite Data Science und Dashboards können Sie einige dieser Algorithmen selbst testen. Denken Sie beispielsweise an ein neuronales Netzwerk, das die Funktion einer Stellenausschreibung im Bildungsbereich vorhersagt.